非死book的“大数据”到底有多大?

openkk 12年前
   <p> 据说这是一个“大数据”的时代,到底有多大呢?</p>    <p> 非死book 最近在总部的一次会议中<a href="/misc/goto?guid=4958522697284647386" rel="external nofollow" target="_blank">披露的一组数据</a>可以给大家一个初步的印象,来一起看看每天 非死book 上都得处理多少数据吧:</p>    <blockquote>     <p><strong>25亿</strong> 非死book 上分享的内容条数</p>     <p><strong>27亿</strong> “赞”的数量,</p>     <p><strong>3亿</strong> 上传照片数</p>     <p><strong>500+TB</strong> 新产生的数据</p>     <p><strong>105TB</strong> 每半小时通过 Hive 扫描的数据</p>     <p><strong>100+PB</strong>(1PB=1024TB) 单个 HDFS(分布式文件系统)集群中的磁盘容量</p>    </blockquote>    <p> FB 的工程总监 Parikh 解释了这些数据对于 非死book 的意义:“大数据的意义在于真正对你的生意有内在的洞见。如果你不能好好利用自己收集到的数据,那你只是空有一堆数据而已,不叫大数据。”</p>    <p> 目前 非死book 有着世界最大的分布式文件系统,单个集群中的数据存储量就超过 100PB。在 非死book 内部,从一开始就没有在不同的部门之间(比如广告部和用户支持部)设立障碍或者分割数据。这样一来产品开发者就可以跨部门获得数据,实时知晓最近的改动是否增加了用户浏览时间或者促成了更多的广告点击。</p>    <p> 作为普通用户,大家也许会对如此海量的数据心存不安,担心自己的数据被随意浏览。对此 非死book 表示有各种防范措施来防止此类事情的发生,比如所有的数据读取记录都会被存档,哪些人看过哪些数据都是记录在案的;如果有员工越线,会被直接开除。 Parikh 着重强调:“在这件事上我们的政策是零容忍。”</p>    <div id="come_from">    来自:     <a id="link_source2" href="/misc/goto?guid=4958522697378891252" target="_blank">36氪</a>    </div>