QCon 全球软件开发大会(北京站)门票 9 折倒计时 4 天,点击立减 ¥880 了解详情
写点什么

大数据大规律

2015 年 12 月 29 日

大数据正在改变我们的生活,影响我们思考和解决问题的方式,为了适应时代的潮流,组织必须学会用数据说话,如果坐拥大量的数据却束手无策或无动于衷,那和没有数据是一样的。但是,在进行数据分析时,完全的自我创造是不可取的,因为有大量可以遵循和借鉴的经验能节约大量的时间和成本。最近, OrionX.net 的联合创始人 Shahin Khan 就发表了一篇文章,介绍了他的团队从大数据、物联网和云计算市场上总结的经验和规律

  1. 保留数据的成本要比删除数据的成本低。另外,还要有多个备份。
    正因为保留了足够多的数据,大数据才成为可能,因此无论如何都不要删除数据,因为你不知道什么时候会用到它,删除这些数据会有哪些法律风险。保留数据的成本很低,另外,如果将来发生了什么事情,你也能从这些数据中找到证据。
  2. 无论开始收集数据的动机是什么,它们都会导致你收集更多的数据。
    大部分数据收集工作关注于正在进行的活动,但一旦知道了如何使用这些数据,获取更多数据的意愿就会增加。
  3. 大数据系统开始较小,但慢慢会变大,没有中间大小。
    很少有中等规模的大数据系统,一旦某个项目的理念被证明是有前景的,那么它很快就会变大,并在迅速发展的同时孵化新项目。
  4. 数据必须流向有价值的地方,要考虑功能的上下文有什么价值。
    未使用的数据是一种闲置的资产,很有可能会造成价值的贬值。如果将大数据看做是工作流,那么必须将数据流向最有价值的地方。
  5. 永远都不要假设你知道原因是什么,有什么影响。
    大数据的大部分应用场景都是有价值的,值得付出努力,但是它的因果关系非常复杂,数据的不完整、用户的偏见不可避免。
  6. 有关数据与无关数据之间的比率将逐渐趋向于零。
    数据有很多,但通常情况下大部分都是无用的,只有一少部分有价值。收集的数据越多,这种现象越明显,也就是说无关数据的增长速度要远高于相关数据的增长速度。
  7. 分析的最终目的是合成。
    分析完成之后便需要合成,当然这需要引入机器学习和认知算法。
  8. 时间 = 金钱 = 数据。
    数据是一种资产,虽然它可以升值,但大多数时候随着新数据替代老数据,历史数据的价值会越来越低,因为它的相关性会越来越差。所以必须知道数据的“利率”,知道它贬值的速度有多快。
  9. 容量大—速度快—种类多—价值密度低 vs. 不可再现—不相关—不完整—不正确。
    数据的质量直接影响数据挖掘的质量。
  10. 给你足够的数据,你就能证明事物的“正反两面”。
    数据量越大,从中找到有价值信息的难度就越大,数据的复杂性、不合理的动机和无知都可能会造成无效的结论;但另一方面,数据越多,支持假设的证据就会越充分,通过完全科学的方法,有时这种支持率甚至会逐渐接近 100%。
  11. 大数据的结论开始通常是有趣但无用的,但最终会变成有效且有用的。
    在新媒体时代,有趣但肤浅的内容要比深刻有见地的内容多得多,价值挖掘需要对数据有深刻的理解,但这需要时间。
  12. 随着数据量的增长,大数据和高性能计算(HPC)需要结合在一起。
    如果有 200 行数据,可以使用电子表格;但如果有 20 亿行数据,就必须使用 HPC。此外,随着数据量的增长,还需要数学和科学的知识将数据转换成模型。

感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群InfoQ 好读者(已满),InfoQ 读者交流群(#2)InfoQ 好读者)。

2015 年 12 月 29 日 18:001728
用户头像

发布了 321 篇内容, 共 103.9 次阅读, 收获喜欢 8 次。

关注

评论

发布
暂无评论
发现更多内容

MySQL - 事务

insight

3月日更

第六次作业

Geek_79e938

推荐几本 Go 相关书籍

roseduan

go 书籍推荐 Go Concurrency Patterns Go web 书籍

JDBC—数据库事务处理

打工人!

Java MySQL 数据库事务 JDBC

【Axure9百例NO.46】中继器多条件判断的优雅处理

zhuchuanming

原型设计 Axure 交互原型

第八章—数据分析作业

墨狂之逸才

《Redis 核心技术与实战》学习笔记 08:GEO数据类型和时间序列数据

escray

redis 极客时间 学习笔记 3月日更 Redis 核心技术与实战

Python SMTP 发送邮件方法

HoneyMoose

第九周作业

产品经理训练营

[老孟Flutter] Stateful 组件的生命周期

老孟Flutter

flutter

C++后台开发必看,这个学习路线必须收藏

赖猫

c++ Linux 后台开发 服务器开发

第9周作业

Geek_72d5ab

Wireshark数据包分析学习笔记Day20

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

数据结构之栈

我是程序员小贱

3月日更

翻译:《实用的Python编程》07_04_Function_decorators

codists

Python PEP

第八章作业

流浪猫

第八章作业 - 用户路径

Au revoir

产品经理面试常见问题总结 3

lenka

3月日更

产品经理训练营--第9周作业

月亮 😝

13|PPT 教程|字体使用原则

青城

软件工程是否可以指导小团队的建设

风翱

软件工程 3月日更

如何判断自己是否适合当前公司?

石云升

离职 28天写作 职场经验 3月日更

6年时间,从实习生到阿里巴巴的P7,这就是我这个三本生的进阶之路

神奇小汤圆

Java 编程 程序员 架构 面试

如何提高Flutter应用程序的性能

老孟Flutter

flutter

文档是给未来自己的珍贵礼物

steve_lee

文档

Flutter 中与平台相关的生命周期

老孟Flutter

flutter

函数依赖根据依赖属性的不同,可分为3种

在即

28天写作 28天挑战 3月日更

ARTS——week 3

steve_lee

产品经理训练营 - 第八章作业

joelhy

产品经理训练营

ProxmoxVE系列:VMware,是时候卸载了

Bob

vmware 虚拟化 服务器开发 proxmoxve PVE

面试进阶齐飞!Github疯传的阿里分布式设计实录也太香了

程序员小毕

Java 程序员 架构 面试 分布式

边缘计算隔离技术的挑战与实践

边缘计算隔离技术的挑战与实践

大数据大规律-InfoQ