大数据的冲击


t 著 [日] 城田真琴 审 读 朱四明 译 周自恒 责任编辑 乐 馨 责任印制 焦志炜 t 人民邮电出版社出版发行 北京市崇文区夕照寺街 14 号 邮编 100061 电子邮件 315@ptpress.com.cn 网址 http://www.ptpress.com.cn 北京  印刷 t 开本:720×960 1/16 印张:16.75 字数:200 千字 2013 年 6 月第 1 版 印数:1-5 000 册 2013 年 6 月北京第 1 次印刷 著作权合同登记号 图字:01-2013-3031 号 定价:49.00 元 读者服务热线:(010)51095186 转 604 印装质量热线:(010)67129223 反盗版热线:(010)67171154 广告经营许可证:京崇工商广字第 0021 号 内 容 提 要 本书是日本最畅销的大数据商业应用指南。书中结合野村综合研究独家披露 的调查数据 ,网罗了美国、日本标杆企业与政府的应用案例,总结了大数据的商 业模式,以及在大数据应用中需要注意的隐私问题,并就如何为大数据时代做好 准备展开了深入的探讨,提出了诸多有益的建议。 本书适合商业人士以及与大数据相关的 IT 从业者阅读。 大数据的冲击 / ( 日 ) 城田真琴著 ; 周自恒译 . -- 北京 : 人民邮电出版社 , 2013.6 图书在版编目 (CIP) 数据 ISBN 978-7-115-31787-2 Ⅰ . ①大 Ⅱ . ①城… ②周… Ⅲ . ①数据处理 Ⅳ . ① TP274 中国版本图书馆 CIP 数据核字(2013)第 093150 号 1 译  者  序 当我用 Gmail 阅读电子邮件时,页面上会显示 Google 提供的广 告,这些广告往往和我正在阅读的这封邮件的内容密切相关;当我逛 Amazon 时,即便没有登录,Amazon 也能为我推荐我可能会感兴趣的 商品,而且还真是相当地准,让我总能有意想不到的收获;当我带着我 的 Android 手机上下班、出差、旅游时,谷歌纵横(Google Latitude) 就会在后台默默地记下我所经过的地点,我可以随时查阅过去任意时间 的位置记录,还可以和朋友分享。最近,很多网站都热衷于发布“年度 盘点”,以信息图(Infographics)的形式对其掌握的数据进行汇总,并 从中得出一些有趣的观点。例如支付宝的年度对账单,可以按性别、地 域等维度分析不同群体的消费习惯。而迅雷的年度下载盘点,则可以在 一定程度上反映出各地的网速水平。 上面所提到的这些,都是我们身边的大数据。在这样一个信息爆炸 的时代,我们不得不感叹,大数据已经不再是一个虚无缥缈的概念,而 大数据的冲击 Impact of Big Data 2 是与每个人的生活息息相关,实实在在且触手可及。大数据火了,它催 生出无数新的服务和商业模式,也让一些传统行业找到了新的机会,同 时产生了对“数据科学家”这种新兴复合型人才的迫切需求。而数据运 用和隐私保护之间到底该如何权衡,也成了一个令各方势力争论不休的 话题。大数据到底是什么?它为我们带来了什么?我们又该怎样去运用 它?——这本书的目的,正是帮助大家思考上面这三个问题,迎接大数 据所带来的机遇和挑战。 值得一提的是,这本书只用了短短一章的篇幅介绍关于大数据在技 术层面上的内容,更多的则是围绕着大数据运用的成功案例、商业模 式、隐私保护、法律框架、人才培养、经营战略等话题展开讨论,是一 本无需具备技术背景也能够无障碍阅读的综述类著作。本书作者城田真 琴先生,是野村综合研究所(NRI,简称野村综研)的高级研究员。野 村综研是亚洲最大的咨询公司,堪称日本的麦肯锡,同时也是日本最大 的系统集成商。作为本书译者的我,也曾有幸供职于野村综研的某合资 子公司,可以说颇有一些缘分。这样的背景,让这本书的内容显得十分 扎实,散发着咨询公司所特有的风范。在著书过程中,除了查阅文献和 数据,作者还亲自采访了案例中相关公司的关键人物,掌握了大量的一 手资料。相信大家通过这本书,一定能够对大数据有一个更加全面和深 入的理解。 最后,感谢图灵公司各位编辑的辛勤工作,感谢作者城田真琴先生 和野村综研(上海)咨询有限公司在本书翻译过程中所给予的帮助和支 持。 周自恒    2013 年 2 月于上海 1 中文版序 作为本书的主题,“大数据”一词无论是在我的家乡日本,还是在 欧美的 IT 业界,都已成为时下当仁不让的热点。但这个词对中国的各 位读者来说也许并非如此耳熟能详。在新浪微博、人人网、QQ 空间等 社交网络中发表的文本数据,以及由物联网所产生的各种传感器网络数 据,这些都是大数据的一部分。无论中国的各位读者是否听说过“大数 据”这个词,大数据每天都正从大家身边不断地产生。 当然,仅仅看到每天产生出的大数据是没有意义的。我们还必须通 过对数据进行适当的收集、存储和分析,将由此所获得的信息转化为具 体的行为,并最终付诸实施。 例如,从事 B2C 业务的企业,通过对从社交网络中收集到的和自 家产品相关的言论进行分析,就可以在新产品投入市场后的第一时间了 解其评价。不过,仅仅做到这一步的话,还只能享受到大数据所带来的 一半价值,因为我们还需要根据数据的分析结果,发现产品不足,并对 大数据的冲击 Impact of Big Data 2 其进行改进。能够做到这一步,才可以说是真正享受到了大数据所带来 的价值。 未来几年,大数据将对通信、金融、零售、制造、交通、物流、医 疗、公共服务、农业等各个领域带来巨大的冲击。中国拥有世界上最多 的人口,也必将成为全世界最大的数据生产国。另一方面,中国拥有清 华大学、北京大学、浙江大学、上海交通大学等汇聚了众多优秀理工科 人才的高等学府,有望培养出在欧美正十分紧俏的数据科学家。综上所 述,我认为中国在成为世界最大的数据生产国的同时,还具备有效运用 这些数据的潜力。 本书以“什么是大数据”为题介绍了大数据的基本知识、支撑大数 据的技术、欧美及日本企业运用大数据的案例、大数据与个人信息保护 及隐私保护之间的关系等。这些知识对于深入理解大数据是不可或缺 的。本书自在日本上市以来,在大型书店取得了畅销书第一名的成绩, 获得了极大的反响,在率先推出译本的韩国也备受好评。希望中国的各 位读者能够从本书中获益。 城田真琴   2012 年 3 月 1 前  言 “Google、Amazon、Facebook、Twitter,这些称霸全球互联网的企业, 它们的成功都具备一个共同的因素,你知道是什么吗?” 面对这样的问题,恐怕有些人会说:“是因为它们的商业模式非常 创新。”而有些人则可能会说:“是因为它们的创业者非常优秀。” 然而,本书想要强调的,则是“数据分析”。看到这个词,可能你 会说:“什么嘛,就这么简单?”虽然乍看之下会觉得很简单,但我们所 列举的这些企业,它们每天不断存储和分析的数据量是十分庞大的,而 这正是本书的主题——“大数据”。 充分运用大数据,并由此获得巨额的收益,Google 可以称得上是 精通此道的鼻祖。据说,Google 每个月要处理 900 亿次的 Web 搜索, 为此每月需要处理的数据量高达600PBa。使用Google各种服务的用户, a 1PB = 100 万 GB,这个信息量据说相当于 100 万年新闻早报的总和。 大数据的冲击 Impact of Big Data 2 以及与之相关的各种数据,都是分析的对象。 在 Google 的搜索框中,只需要输入一部分关键字,就会显示出一 些搜索关键字的建议,例如,只要输入“云”,系统就会自动提示“云 免费”、“云是什么”、“云服务”等 a。这样的搜索关键字建议,都是对用 户庞大的搜索历史记录进行分析后得出的。此外,即便不以片假名的方 式输入,而是直接输入罗马拼音“kuraudo”b,Google 也会给出正确的 搜索建议。这种“输入修正功能”(或者叫“你要找的是不是……”功 能),也是通过相同的原理实现的。 “购买了此商品的顾客还购买了这些商品”,这恐怕是世界上最广 为人知的一种商品推荐系统了,而创造出这个系统的正是 Amazon。 Amazon 通过分析商品的购买记录、浏览历史记录等庞大的用户行为历 史数据,并与行为模式相似的其他用户的历史数据进行对照,提供出最 适合的商品推荐信息。以这种数据分析为核心的服务设计发挥了巨大的 作用,推动了 Amazon 成长为 2011 年销售额高达约 480 亿美元(约合 人民币 3000 亿元)的巨型企业。 Twitter 拥有超过 1 亿的活跃用户,平均每天产生 2.5 亿条推文(根 据 2011 年 10 月公布的数据)。每条推文最多 140 个字,数据量约为 200 个字节,这些推文平均每天相当于产生了约 48GB 的数据流量。而 从 Twitter 整个生态圈来看,平均每天可产生约 8TBc 的数据。 a 这些搜索关键字建议是根据日文翻译过来的,用中文搜索出现的搜索建议会有所不 同。——译者注 b 在日文中,“云”(クラウド)是外来语,即英文“cloud”的音译,而“kuraudo”则是 其在日文中实际的读音,这里的例子类似于用中文搜索时直接输入汉语拼音“yun”。    ——译者注 c 1TB 相当于 1012 字节。 前  言 3 Facebook 于 2012 年 2 月提出了 IPO 申请 a。其公布的数据显示,每 月活跃用户达到 8.45 亿,每日活跃用户达到 4.83 亿,着实令人惊叹。 Facebook 是世界最大的由用户产生内容的网站。 Facebook 的所有用户平均每个月在 Facebook 上花费的时间高达 7000 亿小时,平均每个用户每个月会创建 90 条内容(包括新闻、博客 等)。整体上来看,每个月产生的内容高达 300 亿条。根据公布的数据 推测,Facebook 所拥有的数据量超过 30PB。 Facebook 可以为用户提供类似“也许你还认识这些人”的提示,这 种提示可以准确到令人恐怖的程度,而这正是对庞大的数据进行分析而 得到的结果。 通过分析庞大的数据来获得有价值的信息或判断,这个被称为“大 数据”的概念正受到越来越广泛的关注。它所掀起的巨大波澜早已经突 破了 IT 业界的范畴,连报纸和电视新闻节目都对此制作了专题报道。 精通 IT 的读者在这里可能会有一点疑问:“通过对大量数据的分析来 提升业绩,并不是这些新兴互联网企业的专利吧?对销售、库存等业务 数据进行分析,帮助公司提升竞争优势,这种被称为‘商业智能’(BI) 的方法已经由来已久,为什么现在却要特意翻出来大谈特谈一番呢?” 说起来,可能还真的是这么回事。例如,美国大型超市连锁集团沃 尔玛,每小时就要处理约 100 万笔交易,在企业的数据仓库中产生和存 储的数据量高达 2.5PB。企业通过分析每天产生的大量数据,对商品的 库存和定价做出极致的优化,这样的努力对于企业业绩的提升可以说功 a Facebook 于 2012 年 5 月 18 日在纳斯达克正式上市。——译者注 大数据的冲击 Impact of Big Data 4 不可没,这是不争的事实。 然而,在这里我们也要注意到两个重要的差异。 第一,同为海量数据,和传统意义上的销售额、库存量等数值数据 相比,Google、Facebook 等互联网企业所处理的网站点击流(clickstream) 数据和社交数据在管理和分析方法上是大相径庭的。目前大数据潮流的 核心,并不是数值数据等结构化数据,而是网站点击流数据和社交数 据,或者是传感器数据等这些无法存放在传统关系型数据库中的非结构 化数据。 第二,从结果来看,掌握用于海量数据管理和处理新技术的,已不 是沃尔玛、花旗银行这样的大企业,而是互联网企业和社交媒体企业。 和 Facebook 的 30PB 相比,沃尔玛的 2.5PB 不仅在数据量上,而且在 数据的多样性(网站点击流、社交媒体上的文字、人与人之间的联系等) 和数据产生频率上都有很大差别。在这些方面,传统型大企业有很多东 西需要向新兴互联网企业和社交媒体企业学习。 笔者有幸采访过的美国 B2B 企业中,经常能够听到这样的声音: “Google、Amazon、Twitter、Facebook 等公司每天都产生、管理和分 析大量的数据,传统型大企业需要将这些面向消费者的企业作为学习的 榜样。” 实际上,现在用于大数据存储和处理的技术,如 Hadoop、NoSQL 数据库 a 等,大多数是从 Google、Amazon、Facebook 这样的互联网企业、 社交媒体企业中诞生的。 a 详见第 2 章。 前  言 5 在互联网世界之外,也有大数据的身影,其中由传感器网络所产生 的传感器数据是最具代表性的一种。对各种机器的状态进行采集,并存 储和分析这些数据,这样的尝试从很早就已经开始了,如自动贩卖机的 管理系统、公交车和汽车的运行管理系统、重型机械的监控系统等。然 而,随着技术的进步和通信成本的下降,能够对各种信息进行采集并对 数据进行廉价存储的环境已经日趋成熟,今后应该会迎来进一步的普 及。目前带有 GPS 功能的智能手机,以及 Suica、PASMO 等交通 IC 卡 等,都已经显现出这样的趋势。 今后,随着智能电网、智能城市有望在全世界推广,传感器数据也 必定会不断增加。而且,由于传感器是每秒都在进行测量和记录的,它 们所产生的数据量,很可能会快速超过网站上由人类产生的信息、文本 等数据量。 此外,各种设备和机器通过通信手段与互联网服务相结合所诞生的 “M2M”(Machine to Machine)、“物联网”(Internet of Things)等词汇 最近也受到了广泛的关注,这也将推动传感器数据的进一步增加。 将传感器所产生的庞大数据进行提取、分析,转化为有意义的信息 并为商业服务,这样的尝试才刚刚崭露头角。这样一块蓝海市场 a,必将 带来巨大的商机。 综上所述,Google、Amazon 这样的互联网企业,及时发现了一般 企业不重视的那些数据的价值,并独自开发出能够低成本存储和处理 这些数据的技术,从数据中提取出有价值的信息,并将其整合到业务 a 指尚未开拓的新兴市场,这一说法来自《蓝海战略》(Blue Ocean Strategy)一书,其中将现 存的传统市场称为“红海市场”,将尚未开拓的新兴市场称为“蓝海市场”。——译者注 大数据的冲击 Impact of Big Data 6 流程中,最终通过这样的方式发挥了自身的竞争优势。目前,跟随着 Google 和 Amazon 的脚步,有越来越多的企业开始积极进行大数据的分 析,通过提供新型服务和提高客户满意度来提升自身的竞争优势,这样 的势头在各个行业中都愈发显著。 当然,原本通过对数值数据等结构化数据的深入分析建立起竞争优 势的沃尔玛这样的大企业也不甘落后。沃尔玛于 2011 年 4 月收购了擅 长社交媒体分析的创业型公司 Kosmix,在大数据的运用上迈出了重要 的一步。沃尔玛通过对各卖场附近发布的推文和 Facebook 留言进行分 析,掌握各卖场不同的需求,并由此制定商品种类和库存的调整策略。 例如,从社交媒体的数据可以看出,在加州山景城有很多居民喜欢自行 车,因此可以根据这一特点对卖场的商品种类进行调整。 除了社交媒体、非接触式 IC 卡这些 10 年前还不存在的新型数据, 还有一些数据在过去产生时就被舍弃了,或者是保存下来也没有得到很 好的运用,经过一段时间之后就被舍弃了,在这些数据中是不是也埋藏 着一些“宝藏”呢?这也正是目前一些企业对大数据的运用跃跃欲试的 一个重要的动机。 最近在美国经常听到“Data is the new oil”(数据就是石油)这样的 说法。这句话的意思是,正如炼油所具备的巨大经济价值一样,数据只 要进行适当的分析,也可以产生出巨大的价值。在这种思想的影响下, 为了“最大限度地利用大数据所带来的机会”,美国政府于 2012 年 3 月 宣布对大数据运用相关的研究开发投入 2 亿美元的巨额资金,展示了尽 举国之力的积极态度。 本书涵盖了大数据在日本国内外企业中的应用事例,以及大数据在 前  言 7 商业领域中的运用要点、课题等内容,旨在尽量以通俗易懂的方式,介 绍大数据的日本国内外的现状以及将来的发展趋势。 第 1 章对大数据作出了明确的定义,并讲解现在大数据为什么会如 此受关注。 第 2 章讲解了支撑大数据存储、处理、分析的技术,以及其中主要领 军者的动向。这一章会涉及很多技术性话题,对技术不感兴趣的读者可以 跳过,如果在第 3 章之后遇到一些看不懂的术语,再回过头来参考这一章。 第 3 章介绍了一些欧美企业对大数据的运用事例,这些企业包括 eBay、Zynga、Centrica、Catalina Marketing 等。 第 4 章介绍了一些通过运用大数据带来大幅业绩增长的日本企业, 这些企业包括小松、Recruit、GREEa、麦当劳等。 第 5 章介绍了笔者所总结的企业用户运用大数据的机会和模式。 第 6 章就大数据的商业应用中无法避免的隐私问题,介绍了国内外 的指导意见以及法律法规方面的趋势。 第 7 章介绍了将位于封闭世界中的数据开放出来以促进创新的 Open Data 运动,以及数据交易市场 Data Marketplace。 第 8 章介绍了伴随着大数据时代的到来,企业需要如何应对,例如 如何培养和吸引需求急剧高涨的“数据科学家”人才。 希望读者阅读本书后,能够对“大数据”这一企业在今后不得不面 对的崭新世界加深一些理解。 a GREE 是日本的一家社交网站(http://gree.jp),与中国的格力电器无关。——译者注 1 第1章  什么是大数据 1.1    The data deluge 2 1.2    用 3V 来描述大数据的特征 3 1.3    广义的大数据 8 1.4    为什么现在要谈大数据?①  大数据的民主化 9 1.5     为什么现在要谈大数据?②  硬件性价比的提高以及软件技术的进步 10 1.6     为什么现在要谈大数据?③  云计算的普及 12 1.7    从“看到过去”到“预测未来”BI 与大数据的交叉 18 1.8    从点(交易数据)分析到线(交互数据)分析 20 1.9    大数据的分析工具 22 本章小结 24 第2章  支撑大数据的技术 2.1    人手不足 26 目  录 CONTENTS 大数据的冲击 Impact of Big Data 2 2.2    什么是 Hadoop 26 2.3    发行版本的增加 30 2.4    发行版本众多的原因 33 2.5    NoSQL 数据库 34 2.6    风投资本对 Hadoop、NoSQL 企业的热切关注 39 2.7    大数据时代的数据处理基础 41 2.8    备受关注的分析型数据库 42 2.9    流数据处理(实时数据处理) 45 2.10  自行开发流数据处理技术的互联网企业 47 2.11  机器学习、统计分析等 49 2.12  自然语言处理及其他 51 本章小结 53 第3章  以大数据为武器的企业 欧美企业篇 3.1    大步迈进的互联网企业对大数据的运用 56 3.2    eBay :每天产生50TB 的数据 59 3.2.1  超乎寻常的数据产生速度 60 3.2.2  eBay 的数据分析基础架构 61 3.3    Zynga :披着游戏公司外衣的分析公司 64 3.3.1  社交游戏经济的重要指标 65 3.3.2  提高病毒系数的方法 66 3.3.3  数据驱动游戏 67 3.3.4  三次点击法则 68 3.4    Centrica :通过智能电表分析能源消耗模式 69 3.4.1  英国电力、燃气收费的实际情况 70 3.4.2  使用智能电表所带来的影响 71 目  录 3 3.5     Catalina Marketing :通过收银台优惠券对顾客的购买行为 进行设计 75 3.5.1  存储超过 1 亿人的购物记录 76 3.5.2  预测顾客的购买行为,刺激来店消费 78 本章小结 80 第4章  以大数据为武器的企业 日本企业篇 4.1    对大数据的运用正在日本兴起 84 4.2    小松 :在日本运用大数据的先驱者 84 4.3     Recruit :通过对Hadoop 的充分运用,成功实现对数据  分析的观念革新 88 4.3.1  几乎整个公司都在运用 Hadoop 89 4.3.2  支撑 Recruit 大数据分析的 Hadoop 基础架构 91 4.3.3  成功的秘诀在于组织体制 93 4.3.4  在 Recruit 眼中 Hadoop 的真正价值是什么 94 4.4    GREE :快速成长的原动力在于数据驱动型工作方式 97 4.4.1  比起个人的感觉,数千万人的数据更可信 100 4.4.2  数据驱动型工作方式的支撑力是对日志数据的执着 102 4.4.3  集结了拥有多种技能的专业人员 104 4.4.4  将信息丢失控制在最低限度的团队体制 105 4.5    麦当劳 :在现实世界中实现一对一营销 106 4.5.1  创新性的优惠券背后是周到的准备 107 4.5.2  关注将手机用作积分卡的模式 110 本章小结 111 大数据的冲击 Impact of Big Data 4 第5章  大数据的运用模式 5.1    大数据的运用实例 114 5.2    大数据运用模式的分类 118 5.2.1  个别优化·批处理型(图表 5-2) 119 5.2.2  个别优化·实时型(图表 5-4) 121 5.2.3  整体优化·批处理型(图表 5-5) 123 5.2.4  整体优化·实时型(图表 5-8) 127 5.3    大数据的运用级别 128 5.3.1  对过去 / 现状的把握 128 5.3.2  发现模式 129 5.3.3  预测 130 5.3.4  优化 130 5.4    专栏 :动态定价 132 5.5    大数据运用的真正价值 134 本章小结 137 第6章  大数据时代的隐私问题 6.1    在隐私与创新的夹缝中生存 140 6.2    美国国会的关注 142 6.3    建立社交化档案的是非 146 6.4    Do Not Track 149 6.5    消费者隐私权法案 151 6.6    采用主动许可方式的欧盟 155 6.7    数据保护指令同样面临修订 156 6.8    在日本需要考虑个人信息保护法及各行业领域的指导方针 159 目  录 5 6.9    在向第三方提供信息上采用主动许可方式的指导方针 162 6.10    日本政府的讨论情况 162 6.11    经济产业省以“信息大航海计划”为契机展开讨论 163 6.12    总务省从生活日志的角度展开讨论 165 6.12.1  个人信息保护的角度 167 6.12.2  与隐私等的关系 167 6.13    关键在于与用户的沟通 171 6.14    线下行为跟踪 172 本章小结 174 第7章  开放数据时代的到来与数据市场的兴起 7.1    运用公开数据也是一种选择 178 7.2    兴盛的 LOD 运动 179 7.3    对政府公开的影响 182 7.4    层出不穷的创业型公司 185 7.5    通过举办竞赛来促进数据运用 187 7.6    输在起跑线上的日本 189 7.7    以震灾为契机逐步发展的日本开放数据工作 191 7.8    数据市场的兴起 194 7.8.1  Factual 195 7.8.2  Windows Azure Marketplace 196 7.8.3  Infochimps 197 7.8.4  Public Data Sets on AWS 199 7.9    不同的商业模式 201 7.10  数据市场兴盛背后的课题 202 本章小结 203 大数据的冲击 Impact of Big Data 6 第8章  为大数据时代做好准备 8.1    大数据时代的企业 IT 战略 206 8.2    共享数据的日本企业 209 8.2.1  罗森和雅虎 210 8.2.2  KDDI 和乐天 210 8.2.3  COOKPAD 和 ID’s 210 8.3    拥有原创数据的优势 211 8.4    供应商企业的新商机 :数据聚合商 212 8.5    谁能成为数据聚合商 214 8.6    在美国备受瞩目的支付服务商向数据聚合商的演化 216 8.6.1  VISA 216 8.6.2  PayPal 218 8.6.3  美国运通 218 8.7    数据整合之妙 :将原创数据变为增值数据 219 8.8    日益抢手的数据科学家 220 8.9    数据科学家所需的技能 223 8.10  数据科学家所需的素质 227 8.11  严重的人才匮乏 228 8.12  研究生院的成立 232 8.13  大数据分析企业吸引了大量的资金 235 8.14  日本也开始了对数据科学家的争夺 236 8.15  最后的问题 :组织结构和企业文化 238 8.16  目标 :成为数据驱动型企业 240 本章小结 242 致    谢 243 参考文献 244 版权声明 248 第1章 什么是大数据1 大数据的冲击 Impact of Big Data 2   1.1  The data deluge 在 2012 年的 IT 业界中,“大数据”(Big Data)成了关注度不断提 高的关键词之一。IT 业界中经常会出现一些火了两三年时间,然后又 销声匿迹的流行语(buzzword),但能够超越流行语这个范畴,让人感 到可以完全固定下来的词汇,继“云”(Cloud)之后,恐怕非“大数据” 莫属了。 和之前的一些流行语一样,“大数据”也是一个起源于欧美的词 汇。不过,这个词的起源并不是十分清楚的。在一些以欧美的大数据 为主题的报告中,经常会引用 2010 年 2 月出版的《经济学家》(The Economist) 杂 志 中 一 篇 题 为“The data deluge” 的 文 章。deluge 这 个单词好像比较生僻,查一查辞典会发现,这个词是“大泛滥、大洪 水”、“大量”的意思,因此这篇文章的标题直译出来,大概就是“数 据洪流”或“海量数据”这样吧。从文章的内容来看,和现在讨论的 大数据没有太大的出入,只是文章中并没有直接出现 Big Data 一词。 不过,自从这篇文章问世以来,大数据作为热门话题的出镜率便急剧 上升,因此可以肯定的是,这篇文章是现在大数据备受瞩目的一个重 大契机。 在以大数据为主题的日语文章中,经常会引用美国麦肯锡全球研究 院(MGI)于 2011 年 5 月发表的一篇名为“Big data: The next frontier 第1章  什么是大数据 3 for innovation, competition and productivity”(大数据:未来创新、竞争、 生产力的指向标)的研究报告,而“大数据”这个关键词便从此开始沿 用至今了吧。不过,最先对如何面对庞大数据这一问题进行剖析的,应 该还是《经济学家》杂志中的那篇文章。 2006 年开始,“云”这个关键词开始逐渐见诸各大媒体,和那个时 候一样,“大数据”这个词也并没有一个明确的定义。然而,从欧美 IT 业界的讨论,以及对欧美 IT 业者的采访中,我们可以得出下面这样的 定义。 “所谓大数据,就是用现有的一般技术难以管理的大量数据的集合。” 所谓“用现有的一般技术难以管理”,举个例子来说,就是指用目 前在企业数据库占据主流地位的关系型数据库无法进行管理的、具有复 杂结构的数据。或者也可以说,是指由于数据量的增大,导致对数据的 查询(Query)响应时间超出允许范围的庞大数据。   1.2  用 3V 来描述大数据的特征 “大数据”这个词,光从字面来看,可能会让人觉得只是容量非常 大的数据集合而已。但是,容量只不过是大数据特征的一个方面,如果 只拘泥于数据量的话,就无法深入理解当前围绕大数据所进行的讨论。 因为“用现有的一般技术难以管理”这样的状况,并不仅仅是由于数据 量增大这一个因素所造成的。 大数据的特征,可以用三个 V 开头的关键词来描述(图表 1-1)。 大数据的冲击 Impact of Big Data 4 (1) Volume(容量) 看到大数据这个词,大多数人的第一印象恐怕就是 Volume,也就 是数据量吧。从刚才我们讲到的大数据的定义来看,也就是指用现有技 术无法管理的数据量,从现状来看,基本上是指从几十 TBa 到几 PBb 这样的数量级。当然,随着技术的进步,这个数值也会不断变化。例 如,在 5 年以后,也许只有几 EBc 数量级的数据量才能够称得上是大数 据了。 图表 1-1 :描述大数据特征的三个V a 1TB(Terabyte) = 1012 字节。 b 1PB(Petabyte) = 1015 字节。 c 1EB(Exabyte) = 1018 字节。 第1章  什么是大数据 5 (2) Variety(多样性) 除了传统的销售、库存等数据,现在企业所采集和分析的数据还包 括像网站日志数据、呼叫中心通话记录、Twitter 和 Facebook 等社交媒 体中的文本数据、智能手机中内置的 GPS(全球定位系统)所产生的位 置信息、时刻生成的传感器数据,甚至还有图片和视频,数据的种类和 几年前相比已经有了大幅度的增加。 其中,近年来爆发式增长的一些数据,如互联网上的文本数据、位 置信息、传感器数据、视频等,用企业中主流的关系型数据库是很难存 储的,它们都属于非结构化数据。 当然,在这些种类的数据中,也有一些是过去就一直存在并保存下 来的。然而,和过去不同的是,这些大数据并非只是存储起来就够了, 还需要对其进行分析,并从中获得有用的信息。以美国企业为代表的众 多企业正在致力于这方面的研究。 监控摄像机的视频数据正是其中之一。近年来,超市、便利店等零 售企业几乎都配备了监控摄像机,目的是为了防止盗窃和帮助抓捕盗窃 嫌犯,但最近也出现了使用监控摄像机的视频数据来分析顾客购买行为 的案例。 例如,美国大型折扣店 Family Dollar Stores,以及高级文具制造商 万宝龙(Montblanc),都开始尝试利用监控摄像头对顾客在店内的行为 进行分析。以万宝龙为例,它们过去都是凭经验和直觉来决定商品陈列 的布局,但通过分析监控摄像机的数据,将最想卖出去的商品移动到最 容易吸引顾客目光的位置,使得销售额提高了 20%。 大数据的冲击 Impact of Big Data 6 此外,美国移动运营商 T-Mobile 也在其全美 1000 家店中安装了带 视频分析功能的监控摄像机,可以统计来店人数,还可以追踪顾客在店 内的行动路线、在展台前停留的时间,甚至是试用了哪一款手机、试用 了多长时间等,对顾客在店内的购买行为进行分析。 (3) Velocity(速度) 数据产生和更新的频率,也是衡量大数据的一个重要特征。例如, 整个日本的便利店在 24 小时内产生的 POS(Point Of Sales)数据,电 商网站中由用户访问所产生的网站点击流数据,高峰时高达每秒 7000 条的 Twitter 推文,日本全国公路上安装的交通堵塞探测传感器和路面 状况传感器(可检测结冰、积雪等路面状态)等,每天都在产生着庞大 的数据。 在这一类数据中,作为日本特色而尤其值得关注的,就是 Suica 和 PASMO 等交通 IC 卡所产生的乘车数据和电子货币结算的历史数据了。 Suica 和 PASMO 卡的发行量,截止到 2011 年 7 月末已经达 到约 5494 万张,平均每月电子货币交易的使用次数高达约 6686 万次(图表 1-2),平均每天最高使用次数约为 262 万次(以上均为 2011 年 7 月末 的数据)。假设白天的时间为 10 小时,则可以算出,每秒发生的交易为 50 ~ 100 次,这完全可以堪称是大数据了吧。 第1章  什么是大数据 7 图表 1-2 :Suica、PASMO电子货币每月使用次数                喋̳⁍喌 Ꭰᰴ Ꭰᰴ Ꭰᰴ 4VJDBȟ1"4.0 ᐬ໷ξⰤ䕆⩔ 喋 Ꭰᰴᬑ喌  ̳⁍ Გ⎽喟+3 ͉ᬒ᱙Ⴥ᫦᫝䬨喍Ꭱᰵᬒ喟 IUUQXXXKSFBTUDPKQQSFTTQEG喎 ̬͖ᰴ් 䪫β㏒  ̳⁍善 ⾭ⵠ  ̳⁍善  ̳⁍  ̳⁍ 和 Edy、nanaco、WAON 等流通型电子货币(IC 卡)相比,交通 IC 卡的强项在于,它不仅能够反映在商店的消费记录,而且自然能够 反映乘坐电车、公交车等交通工具的历史记录。由于大多数情况下会员 都需要登记其特征数据,因此结合在站厅和车站附近的超市等商店中的 消费记录,便可以对会员的行为做出深入的分析,得出结论如“20 多 岁的女性,乘 ×× 线到 ×× 站,非常喜欢在站厅进行购物”,“50 多 岁的男性,即便乘 ×× 线到 ×× 站,也几乎不会在站厅购物”等。 像这样对时时刻刻都在产生的数据进行分析和处理是一项颇具挑战 性的课题。不过,随着第 2 章中要介绍的流数据处理等新技术的出现, 这样的分析和处理便成为了可能,而这也是推动最近大数据浪潮的重要 因素之一。 ”。人才和组织 处理、分析的技术,以及能够通过分析这些数据获得实用意义和观点的 Variety/Velocity)特征而难以进行管理的数据,对这些数据进行存储、 “所谓大数据,是一个综合性概念,它包括因具备 3V(Volume/ ๓᪜ᢚ Ꭻ͵⮰ 䨬ਗ਼᪜ᢚふ喌 喋჎ᝣ᪜ᢚȟ ㏿Ჰࡂ᪜ᢚ ьᙋஔȟ(14 ふ喌 喋᪳᱘ȟ㻲䶽ȟผ䴟ȟ 䲊㏿Ჰࡂ᪜ᢚ ᒭ喌 ำ7➥ ڣ᪜ᢚ喋 ⠙͵⮰๓ ᱦஔ႒Όȟ㐋䃍ܲ᲼ふ喌 喋)BEPPQȟ/P42-ȟ ȟܲ᲼ឬᱛהႄ ᪜ᢚะ⤲ȟ 喋᪜ᢚ⻽႒ტふ喌 Ϧ᝹ȟ㏰㏳ Გ⎽喟䛻᱾㐩वⵁ⾣᝭ 图表 1-3 :广义的大数据 1-3)。 上的定义,而下面我们需要在广义层面上为大数据下一个定义(图表 义的着眼点仅仅在于数据的性质上。因此,我们将刚才的定义视为狭义 者认为,仅凭这个定义还无法解释当前大数据的火爆局面,因为这个定 大量数据的集合”,并且用三个 V 对大数据的特征进行了描述。不过笔 刚才我们讲解了大数据的定义,即“用现有的一般技术难以管理的   1.3  广义的大数据 8 of Big Data 大数据的冲击 Impact 第1章  什么是大数据 9 所谓“存储、处理、分析的技术”,指的是用于大规模数据分布式 处理的框架 Hadoop、具备良好扩展性的 NoSQL 数据库,以及机器学 习和统计分析等。所谓“能够通过分析这些数据获得实用意义和观点的 人才和组织”,指的是目前在欧美十分紧俏的“数据科学家”这类人才, 以及能够对大数据进行有效运用的组织。   1.4  为什么现在要谈大数据?①大数据的民主化 大数据本身并不是一个新的概念。特别是仅仅从数据量的角度来看 的话,大数据在过去就已经存在了。例如,波音的喷气发动机每 30 分 钟就会产生 10TB 的运行信息数据,这样计算的话,安装了 4 台发动机 的大型客机,每次飞越大西洋就会产生 640TB 的数据。世界各地每天 有超过 2.5 万架的飞机在工作,可见其数据量是何等庞大。生物技术领 域中的基因组分析,以及以 NASA(美国国家航空航天局)为中心的太 空开发领域,从很早就开始使用十分昂贵的高端超级计算机来对庞大的 数据进行分析和处理了。 现在和过去的区别之一,就是大数据已经不仅产生于特定领域中, 而且还产生于我们每天的日常生活中,Facebook、Twitter 等社交媒体上 的文本数据就是最好的例子。而且,尽管我们无法得到全部数据,但大 部分数据可以通过公开的 API(应用程序编程接口)相对容易地进行采 集。在 B2C 企业中,使用文本挖掘(text mining)和情感分析等技术, 就可以分析消费者对于自家产品的评价。 大数据的冲击 Impact of Big Data 10   1.5  为什么现在要谈大数据?②硬件性价比的提高以及 软件技术的进步 另一个原因在于,计算机性价比的提高,磁盘价格的下降,利用通 用服务器对大量数据进行高速处理的软件技术 Hadoop 的诞生,以及随 着云计算的兴起,甚至已经无需自行搭建这样的大规模环境。上述这些 因素,大幅降低了大数据存储和处理的门槛。因此,过去只有像 NASA 这样的研究机构以及屈指可数的几家特大企业才能做到的对大量数据的 深入分析,现在只要极小的成本和时间就可以完成,无论是刚刚创业的 公司还是存活多年的公司,也无论是中小企业还是大企业,都可以对大 数据进行充分的利用。 (1) 计算机性价比的提高 承担数据处理任务的计算机,其处理能力遵循摩尔定律一直在不断 进化。所谓摩尔定律,是美国英特尔公司共同创始人之一的高登·摩尔 (Gordon Moore,1929— )于 1965 年提出的一个观点,即“半导体芯 片的集成度,大约每 18 个月会翻一番”。从家电卖场中所陈列的电脑规 格指标就可以一目了然地看出,现在以同样的价格能够买到的计算机, 其处理能力已经和过去不可同日而语了。 (2) 磁盘价格的下降 除了 CPU 性能的提高,硬盘等存储器(数据的存储装置)的价 格也明显下降。2000 年的硬盘驱动器平均每 GB 容量的单价约为 16 美元到 19 美元,而现在却只有 7 美分,相当于下降到了 10 年前的 230 ~ 270 分之一(图表 1-4)。换算成人民币的话,就相当于 4 ~ 5 毛 钱的样子。 Გ⎽喟IUUQCMPHTTBTDPNDPOUFOUEBUBNBOBHFNFOUCJHEBUBXIZOPX 喋Ꭰ喌 ᎟౳Уᵨ ⃻ (#                  喌ٯ喋㒺 图表 1-4 :硬盘驱动器平均每GB 价格的演变 进行高速的处理。 化数据进行处理。Hadoop 的最大特征,就是能够对大量非结构化数据 是其衍生技术,就可以进行存储和处理了,但这样的技术无法对非结构 果只是结构化数据不断增长,用传统的关系型数据库和数据仓库,或者 细说明见第 2 章),它的诞生成为了目前大数据浪潮的第一推动力。如 Hadoop 是一种可以在通用服务器上运行的开源分布式处理技术(详 (3) 大规模数据分布式处理技术 Hadoop 的诞生 克左右,技术进步的速度真是相当惊人。 为 250 磅(约合 113 千克)。而现在,32GB 的微型 SD 卡重量却只有 0.5 1982 年日立最早开发的超 1GB 级硬盘驱动器(容量为 1.2GB),重量约 变化的不仅仅是价格,存储器在重量方面也产生了巨大的进步。 11 第1章  什么是大数据 大数据的冲击 Impact of Big Data 12   1.6  为什么现在要谈大数据?③云计算的普及 上述①~③所提到的这种大数据的处理环境,现在在很多情况下也 并不一定要自行搭建了。例如,使用 Amazon 的云计算服务 EC2(Elastic Compute Cloud)和 S3(Simple Storage Service),就可以在无需自行搭 建大规模数据处理环境的前提下,以按用量付费的方式,来使用由计算 机集群组成的计算处理环境和大规模数据存储环境了。此外,在 EC2 和 S3 上还利用预先配置的 Hadoop 工作环境提供了“EMR”(Elastic MapReduce)服务。利用这样的云计算环境,即使是资金不太充裕的创 业型公司,也可以进行大数据的分析了。 实际上,在美国,新的 IT 创业公司如雨后春笋般不断出现,它们 通过利用 Amazon 的云计算环境,对大数据进行处理,从而催生出新型 的服务。这些公司包括网络广告公司 Razorfish、提供预测航班起飞晚 点等“航班预报”服务的 FlightCaster、对消费电子产品价格走势进行 预测的 Decide.com 等。下面我们来介绍一下 Decide.com 和 FightCaster 这两家公司的案例。 (1) Decide.com Decide.com 是一家成立于 2010 年的创业型公司,它提供的服务主 要是告诉大家数码相机、电脑、智能手机、电视机等数码产品什么时候 购买最划算。 也许大家都有这样的经历,刚刚买的数码相机和电视机,马上就降 价了,真是后悔不已。利用 Decide.com 所提供的服务,就可以知道价 格上涨和下降的时机,再买这些产品时就不会让自己后悔了。 第1章  什么是大数据 13 Decide.com 每天要从数百家网上商城中收集超过 10 万条家电和数 码产品的价格数据,同时还会搜索关于这些产品的博客和新闻报道, 以获取是否会有新型号准备发售等信息。这些数据的数据量每天超过 25GB,整体用于分析的数据量则高达约 100TB。这些收集到的数据会 被发送到 Amazon 的云计算平台,并通过 Hadoop 来进行统计和分析 工作。 Decide.com 竞争力的源泉,来自公司中 4 位计算机科学博士所开发 的算法,这种算法可以对家电和数码产品价格的上涨或下降走势做出高 精度的预测。 我们输入了几种产品进行测试,得到的结果如下。 · Amazon 平板电脑 Kindle Fire Kindle Fire 是 2011 年 11 月 14 日发售的,我们询问发售两周后是 否值得购买,得到的回答是: “可以购买,价格不太可能会下降。”(Buy Prices not likely to drop) (图表 1-5)。 · 三星 Galaxy Tab 10.1 三星 Galaxy Tab(10.1 英寸版)是 2011 年 6 月发售的,在发售半 年之后的 12 月 1 日,是否值得购买呢?得到的结果是:“在涨价之前购 买。”(Buy Before prices rise)如果相信 Decide.com 给出的建议,则该 产品有 86% 的概率会在两周之内涨价(图表 1-6)。 大数据的冲击 Impact of Big Data 14 图表 1-5 :在 Decide.com 查询 Amazon 平板电脑 Kindle Fire 购买时机的结果 Გ⎽喟IUUQXXXEFDJEFDPN 图表 1-6 :在Decide.com 查询三星平板电脑 Galaxy Tab 购买时机的结果 Გ⎽喟IUUQXXXEFDJEFDPN 第1章  什么是大数据 15 · 索尼 46 英寸液晶电视 Bravia(KDL-46BX420) 这款索尼 46 英寸液晶电视是 2011 年 1 月发售的,在发售约 11 个 月之后的 2011 年 12 月是否值得购买呢?得到的结果是:等待价格下降。 (Wait for prices to drop)根据 Decide.com 的预测,该产品有 84% 的概 率会在两周内降价(图表 1-7)。 图表 1-7 :在 Decide.com 查询索尼 46 英寸液晶电视 Bravia (KDL-46BX420) 购买时机的结果 Გ⎽喟IUUQXXXEFDJEFDPN 遗憾的是,该服务还不支持日本市场,不过它依然是一项十分有意 思的服务。 (2) FlightCaster FlightCaster 创立于 2009 年,它所提供的服务,是在航空公司发出 正式通知 6 小时之前,就能够对航班晚点做出预报。 大数据的冲击 Impact of Big Data 16 FlightCaster 的预报是基于交通统计局的数据、联邦航空局航空交 通管制系统指令中心的警报、FlightStats(一个发布航班运营状况信息 的网站)的数据、美国气象局的天气预报等所发布的。这些数据都是公 开数据,有需要的话,任何人都可以获得。 基于这些数据,FlightCaster 可以做出类似“正点概率为 3%,轻微 晚点(60 分钟以内)概率为 14%,晚点 60 分钟以上概率为 83%”这样 的预测。如果预报显示该航班有很大概率会晚点,还会给出相应的理 由,如“目的地因暴雨天气风力较强”、“(往返飞行的)到达航班已经 晚点 72 分钟”等(图表 1-8)。 图表 1-8 :FlightCaster提供的预报示例 Გ⎽喟IUUQGMJHIUDBTUFSDPNTBNQMF 该公司服务的强项在于,可以对过去 10 年的统计数据加上实时数 据所构成的庞大数据,通过其拥有专利的人工智能算法进行分析,做出 第1章  什么是大数据 17 准确率高达 85% ~ 90% 的航班晚点预测。 既然能够产生如此准确的预测结果,我们不禁要关心其所运用的 技术和硬件架构。FlightCaster 是一家创业型公司,并没有丰厚的资 金,为了控制初期投资,其庞大的数据处理都是在 Amazon 的云计算 平台(EC2 和 S3)上搭建的 Hadoop 集群中完成的。这个 Hadoop 集群 是 Cloudera 公司提供的一项名为 AMI(Amazon Machine Image)的服 务,而 FlightCaster 正是利用了这个集群上的机器学习功能来进行数据 挖掘的。 另一方面,其前端部分是在 Heroku 公司(被 Salesforce.com 收购) 的云计算平台上开发的,Heroku 提供了 Ruby on Rails(开发框架)的 PaaS(Platform as a Service)服务。顺便说一下,Heroku 的 PaaS 是部 署在 EC2、S3 等 Amazon 云平台上的。 此外,该公司还运用了大量的新技术,如将 Hadoop 进行抽象化 的高级工作流语言 Cascading,以及用 Java 编写的 Lisp 方言动态语言 Clojure 等,对于技术极客们来说还是相当有吸引力的。 FlightCaster 上还发布了一组到达航班晚点可能性最高和最低的机 场排名,这里列出来供大家参考。 · 到达航班晚点可能性最高的机场 第 1 名:纽瓦克机场(新泽西州) 第 2 名:拉瓜迪亚机场(纽约州) 第 3 名:JFK 机场(纽约州) 第 4 名:芝加哥奥黑尔机场(伊利诺伊州) 大数据的冲击 Impact of Big Data 18 第 5 名:费城机场(宾夕法尼亚州) · 到达航班晚点可能性最低的机场 第 1 名:檀香山机场(夏威夷州) 第 2 名:盐湖城机场(犹他州) 第 3 名:达拉斯机场(德克萨斯州) 第 4 名:辛辛那提机场(肯塔基州) 第 5 名:约翰·韦恩机场(加利福尼亚州)   1.7  从“看到过去”到“预测未来”BI 与大数据的交叉 要搞清楚为什么现在要谈大数据这个问题,我们还需要理解 BI (Business Intelligence,商业智能)的潮流和大数据之间的关系。对企 业内外所存储的数据进行组织性系统性的集中、整理和分析,从而获 得对各种商务决策有价值的知识和观点,这样的概念、技术及行为称 为 BI。 BI 这个概念,是 1989 年由时任美国高德纳(Gartner)咨询公司的 分析师 Howard Dresner 所提出的。Dresner 当时提出的观点是,应该将 过去 100% 依赖信息系统部门来完成的销售分析、客户分析等业务,通 过让作为数据使用者的管理人员以及一般商务人员等最终用户来亲自参 与,从而实现决策的迅速化以及生产效率的提高。 BI 的主要目的是分析从过去到现在发生了什么、为什么会发生,并 做出报告。也就是说,是将过去和现在进行可视化的一种方式。例如, 学习知识和有用规则的机器学习技术。从特性上来说,机器学习对数据 为了让数据挖掘的执行更加高效,就要使用能够从大量数据中自动 的就是数据挖掘。 过类似这样的说法,“购买啤酒的人大多会同时购买纸尿裤”,这里用到 据挖掘(Data Mining)是一种非常有用的手段。也许很多人曾经听到 要对未来进行预测,从庞大的数据中发现有价值的规则和模式的数 ᄲᲑцࣽ⩋Ϭʹ喢 ⣜౔₏౔ࣽ⩋Ϭʹ喢 ͦϬʹцࣽ⩋喢 Ϻܲ᲼⣜⟢ݜ䶰≷᱖Ბ ๓᪜ᢚ⮰Ꮐ⩔䶲ഋ ᪳᱘ᡂᣄふ喌 喋᪜ᢚᡂᣄȟ 䶰≷ܲ᲼ȟфࡂ 4DPSFDBSE ふ喌 ⯽ᣓ喋%BTICPBSEȟ ᪜ᢚᴑ䄎ふ喌 喋&YDFMȟ0-"1ȟ ๆ㐠Ꮢܲ᲼ 喋ద჆៑㶔喌 Ϭʹ喢៑ॶ 䓳ࣧࣽ⩋β Ѻ 倄 ᒝ৹⼷Ꮢ ᄥ͆ߍ⮰ ⮰ܲ᲼সᰠ۲⶚⮰䶰≷Ƞڑ⌝჊⣜βᰠ ϺĄⰷݜ⣜⟢ąݜĄ䶰≷᱖Ბą⮰䔇ࡂȠ⩝κܲ᲼ᄥ䆍ផᆁݜ๓᪜ᢚ喏Ϻ㔸 ᎠЏ ᎠЏ ᎠЏ ᎠЏ 图表 1-9 :BI(商业智能)的发展 进化(图表 1-9)。 为重要。也就是说,从看到现在到预测未来,BI 也正在经历着不断的 在将过去和现在进行可视化的基础上,预测出接下来会发生什么显得更 然而,现在的商业环境变化十分剧烈。对于企业今后的活动来说, 过去一年中商品 A 的销售额如何,它在各个门店中的销售额又分别如何。 19 第1章  什么是大数据 大数据的冲击 Impact of Big Data 20 的要求是越多越好。也就是说,它和大数据可谓是天生一对。 一直以来,机器学习的瓶颈在于如何存储并高效处理学习所需的大 量数据。然而,随着硬盘单价的大幅下降、Hadoop 的诞生,以及云计 算的普及,这些问题正逐步得以解决。现实中,对大数据应用机器学习 的实例正在不断涌现。 综上所述,大数据作为 BI 的进化形式,充分利用后不仅能够高效 地预测未来,而且也能够提高预测的准确率。   1.8  从点(交易数据)分析到线(交互数据)分析 对从像“卖出了一件商品”、“一位客户解除了合同”这样的交易数 据中得到的“点”信息进行统计还不够,我们想要得到的是“为什么卖 出了这件商品”、“为什么这个客户离开了”这样的上下文(背景)信息。 而这样的信息,需要从与客户之间产生的交互数据这种“线”信息中来 探索。以非结构化数据为中心的大数据分析需求的不断高涨,也正是这 种趋势的一个反映。 例如,像 Amazon 这样运营电商网站的企业,可以通过网站的点击 流数据,追踪用户在网站内的行为,从而对用户从访问网站到最终购买 商品的行为路线进行分析。这种点击流数据,正是表现客户与公司网站 之间相互作用的一种交互数据。 举个例子,如果知道通过点击站内广告最终购买产品的客户比例较 高,那么针对其他客户,就可以根据其过去的点击记录来展示他可能感 第1章  什么是大数据 21 兴趣的商品广告,从而提高其最终购买商品的概率。或者,如果知道很 多用户都会从某一个特定的页面离开网站,就可以下功夫来改善这个页 面的可用性。通过交互数据分析所得到的价值是非常之大的。 对于消费品公司来说,可以通过客户的会员数据、购物记录、呼 叫中心通话记录等数据来寻找客户解约的原因。最近,随着“社交化 CRM”呼声的高涨,越来越多的企业都开始利用 Twitter 等社交媒体来 提供客户支持服务了。上述这些都是表现与客户之间交流的交互数据, 只要推进对这些交互数据的分析,就可以越来越清晰地掌握客户离开的 原因。 一般来说,网络上的数据比真实世界中的数据更加容易收集,因此 来自网络的交互数据也得到了越来越多的利用。不过,今后随着传感器 等物态探测技术的发展和普及,在真实世界中对交互数据的利用也将不 断推进。 例如,在超市中,可以将由植入购物车中的 IC 标签收集到的顾客 行动路线数据,和 POS 等销售数据相结合,从而分析出顾客买或不买 某种商品的理由,这样的应用现在已经开始出现了。或者,也可以像前 面讲过的那样,通过分析监控摄像机的视频资料,来分析店内顾客的行 为。以前也并不是没有对店内的购买行为进行分析的方法,不过,那种 分析大多是由调查员肉眼观察并记录的,这种记录是非数字化的,成本 很高,而且收集到的数据也比较有限。 进一步讲,今后更为重要的是对连接网络世界和真实世界的交互数 据进行分析。在市场营销的世界中,O2O(Online to Offline,线上与线 下的结合)已经逐步成为一个热门的关键词。所谓 O2O,就是指网络 大数据的冲击 Impact of Big Data 22 上的信息(在线)对真实世界(线下)的购买行为产生的影响。举例来 说,很多人在准备购买一种商品时会先到评论网站去查询商品的价格和 评价,然后再到实体店去购买该商品。 在 O2O 中,网络上的哪些信息会对实际来店顾客的消费行为产生 关联,对这种线索的分析,即对交互数据的分析,显得尤为重要。   1.9  大数据的分析工具 “大数据”这个词本身,是最近才流行起来的。不过,对客户相关 数据进行大范围的收集,并使之对客户服务产生价值,这方面的工作, 在一部分先进企业中几年前就已经开始进行了。 在将数据分析能力作为武器的企业中,有一家很具有代表性,经 常在各种事例中被提及,它就是位于美国拉斯维加斯的世界最大的 赌 场 经 营 企 业 ——Harrah’s Entertainment(2010 年 起 改 名 为 Caesars Entertainment)。该公司不仅经营着同名的酒店,还经营着拉斯维加斯 的若干家赌场,包括 Caesars Palace、BALLY’S、Paris 等。 这一类的公司一般都会在大型建筑的建造和设施的更新方面投入巨 额的资金。而与竞争对手不同的是,Harrah’s 从 1994 年开始就将投资 的重点转向 CRM 和培养顾客忠诚度的营销活动上。这个机制从 1997 年 开始运行,现在作为其 CRM 战略核心的顾客忠诚度计划 Total Rewards 又进一步加速了这个机制的发展。 当顾客成为 Total Rewards 的会员后,只要在游玩时将会员卡插入 第1章  什么是大数据 23 老虎机,或者将会员卡出示给庄家,就可以得到积分,当积分达到一定 值之后就可以享受住宿优待和现金返还等服务。或者,对于频繁光顾赌 场的常客,还可以享受餐厅优先安排座位等服务。 另一方面,Harrah’s 则可以收集到顾客的相关数据,除了顾客的住 宿信息、住址、爱好(喜欢无烟房间还是吸烟房间)等基本信息以外, 还包括光顾赌场的频率、消费的金额,以及在哪个游戏上花费了最多的 时间(是老虎机、大转盘,还是黑杰克、扑克等牌类游戏)等在赌场中 的行为记录。这些数据被存储在数据仓库中并进行分析。 于是,当顾客每次光顾赌场时,系统就可以立即访问数据仓库,并 实时判断出此顾客是否为优质顾客,是优质顾客的话是否需要给出优 惠,需要的话什么样的优惠比较合适。当一位很久没来过的优质顾客再 次光顾赌场时,还可以对其提供特殊优待服务,以便使其成为常客。此 外,当一位优质顾客在赌场里输得很惨时,在其离开赌场之前,还可以 提供免费赠送餐饮券之类的关怀。 在日本,以零售业为中心,通过办理积分制会员卡来提升顾客忠诚 度的做法也非常流行,但是能够对数据进行分析,并对存储的数据进 行有效利用的企业则是凤毛麟角。Harrah’s 所实施的以会员卡为关键的 CRM 战略,在 1997 年的当时来看,应该说是非常创新的。 大数据的冲击 Impact of Big Data 24 所谓大数据,狭义上可以定义为难以用现有的一般技术管理 的大量数据的集合。大数据难以管理的原因,可以用 3V 来描述, 即 Volume(容量)、Variety(多样性)、Velocity(产生频率、更 新频率)。从广义上来说,大数据可以定义为包括因具备 3V 特征 而难以进行管理的数据,对这些数据进行存储、处理、分析的技 术,以及能够通过分析这些数据获得实用意义和观点的人才和组 织的综合性概念。 对大量数据进行分析,并从中获得有用观点,这种做法在一 部分研究机构和大企业中,过去就已经存在了。现在的大数据和 过去相比,主要有三点区别。第一,随着社交媒体和传感器网络 等的发展,在我们身边正产生出大量且多样的数据。第二,随着 硬件和软件技术的发展,数据的存储、处理成本大幅下降。第 三,随着云计算的兴起,大数据的存储、处理环境已经没有必要 自行搭建。 通过分析顾客与公司之间的交互数据,可以得到相关交易数 据产生的背景信息。目前,网上(线上)交互数据的采集、分析 正先行一步,但今后,对线下的以及 O2O(Online to Offline)交 互数据的分析将变得愈发重要。     本章小结 第6章 大数据时代的隐私问题6 大数据的冲击 Impact of Big Data 140   6.1  在隐私与创新的夹缝中生存 “购买了该商品的顾客还会购买以下这些商品。” 在访问 Amazon 电商网站时总会看到这样的提示,对于互联网用户 来说,应该已经非常熟悉这样的推荐了吧。Amazon 是通过所谓协同过 滤(collaborative filtering)的技术,来实现这一商品推荐功能的。 协同过滤是根据商品的购买记录加上网站访问记录等行为数据,对 用户间爱好的相似度进行自动计算,从而实现商品推荐的。在这个过程 中,商品本身的内容是无关的,而只是基于购买记录和行为记录,从某 个用户与其他用户间爱好的相似度来计算出要推荐的商品,这正是这一 机制的关键所在。因此,系统可能会推荐出乍看之下和用户的爱好无关 的出乎意料的商品,但反过来说,这也可能会为用户带来意想不到的发 现(serendipity)。 所谓 serendipity,是指能够意外带来好运的能力,这个词是由英国 小说家霍勒斯·沃波尔(Horace Walpole,1717-1797)于 1754 年造出来的, 其辞源来自童话故事《锡兰国三王子》(The Three Princes of Serendip, Elizabeth Jamison Hodges 著)。在 Web 领域中,指的是用户通过搜索引 擎和推荐系统发现了出乎意料的商品。 从结果上来说,用户将自己的购买记录和行为记录等信息交给 第6章  大数据时代的隐私问题 141 Amazon,同时得以享受到像 Serendipity 这样的好处。 Amazon 于 2011 年 9 月 28 日发布的平板电脑 Kindle Fire 中,提供 了一项非常有意思的服务。 该平板电脑采用 Android 操作系统,售价只有 199 美元,比 iPad 要 便宜,它上面继承了 Amazon 自行开发的新浏览器 Amazon Silk。之所 以要自行开发一款浏览器,是为了在硬件性能低于 PC 的移动设备上实 现更快速的网页浏览。 为了弥补硬件性能的不足,Amazon 采取了下列对策。 (1) 在浏览器的后台利用 Amazon 自己的云计算服务 EC2,事先对 视频、图片等数据量较大的内容进行压缩等处理,将优化后的数据传送 给终端。这种方式被 Amazon 称为 Split Browser,通过将负荷较高的处 理转移到云端执行,可以比由终端直接执行实现更加快速的内容处理, 还可以延长电池的续航时间。 (2) 基于内容浏览记录,通过机器学习找出用户的 Web 浏览模式, 从而判断出用户接下来可能要访问的页面,并事先在云端进行缓存。通 过这一机制,页面加载的时间得以大幅缩短。 Amazon 开发的新浏览器所采用的上述机制,充分利用了该公司 在云计算方面的优势,实现了 Web 浏览的高速化,这一点非常有意 思。然而,从另一个角度来说,也有一些人认为这样做有侵犯用户隐 私之嫌。 也就是说,用户使用 Kindle Fire 浏览网站时,在真正连接用户所指 定的网页之前,首先要连接到 Amazon 的云计算服务。用户在浏览网站 大数据的冲击 Impact of Big Data 142 期间,与 Amazon 云服务之间的连接会被一直保持,Amazon 会对用户 在 Web 上的行为,如访问的网站 URL、IP 地址、MAC 地址等信息进 行记录,并保存最长 30 天。 根据 Amazon 的解释,对于这些数据的记录,是“为了解决和诊断 浏览器的技术问题”,用户数据在保存和使用时不会与用户个人身份产 生关联。 此外,用户还可以在使用云计算平台的 Cloud 模式和不连接到云端 直接访问网页的 Off-cloud 模式之间进行选择。不过,如果选择了 Off- cloud 模式,用户便无法享受到 Silk 所提供的对网页内容传输的优化、 加速等好处。   6.2  美国国会的关注 对于由 Silk 浏览器所引发的隐私问题,美国国会也立即做出了反 应。在 Kindle Fire 发布的约两周后,众议院议员、国会两党隐私权预备 会议联合主席、民主党人 Edward Markey,向 Amazon 的 CEO 杰夫·贝 佐斯提出了公开质询,要求对 Silk 的隐私问题做出解释。 Markey 议员提出了下列 4 个问题,要求 Amazon 在 3 周之内做出 回答。 (1) Amazon 对 Kindle Fire 的用户收集了哪些信息? 第6章  大数据时代的隐私问题 143 (2) Amazon 准备如何利用这些信息? Amazon 是否计划将这些客户 信息以出售、租赁或其他形式交给其他企业来进行利用?如果有,那么 Amazon 计划对哪些企业提供这些信息? (3) Amazon 准备采用何种方法向 Kindle Fire 以及 Silk 用户告知公 司的隐私权政策?如果存在相应的政策,请提供适用于 Kindle Fire 的 隐私权政策条款。 (4) 假设 Amazon 准备对用户的互联网浏览习惯相关信息进行收集, 那么用户是否可以通过主动许可(Opt-in)的方式同意并加入这一数据 共享计划? 对 于 Markey 议 员 所 提 出 的 大 部 分 问 题,Amazon 在 其 公 开 的 “Amazon Silk 使用协议”a(图表 6-1)和 FAQ(图表 6-2)中都已经涉及了, 因此并未造成很大的混乱。不过,这一质询的确引发了人们对于为用户 提供便利所必需的数据收集与隐私权两者之间关系的关注。 a http://www.amazon.com/gp/help/customer/display.html?nodeId=200775270 大数据的冲击 Impact of Big Data 144 图表 6-1 :Amazon Silk 使用协议 1. 隐私权信息 通过 Amazon Silk 收集的可识别个人身份的信息,适用 Amazon.com 隐私权公告,该公 告内容为本协议的一部分。 Amazon Silk 通过利用 Amazon 云计算服务来优化和加速网页内容的传输。因此,正如 为您提供 Web 访问服务的大多数互联网服务提供商(ISP)或类似服务一样,您使用 Amazon Silk 所访问的网页内容会经过我们的服务器,并可能被缓存下来以提高后续页面 的加载速度。 对于安全连接(SSL)网页的请求,Amazon Silk 会让您的计算机直接连接到原始服务器, 而并不会经过 Amazon 的服务器。 Amazon Silk 会暂时性地记录其所提供的页面的网址(URL)。我们不会将这些URL 与您 的身份关联起来,通常也不会将这些信息保存超过 30 天。 您也可以选择让 Amazon Silk 工作在基本模式或 Off-cloud 模式下。Off-cloud 模式 可以让您的计算机直接访问目标网页,而不经过我们的服务器。在 Off-cloud 模式下, Amazon Silk 依然能够提供快速的浏览体验,但它不会利用 Amazon 云计算服务来加速网 页内容的传输。 如果您在 Kindle 设备上使用 Amazon Silk,您的设备可能会将崩溃报告发送给 Amazon。 这些报告可能会包含可识别身份的信息,如 IP 地址或 MAC 地址。我们会使用这些崩溃 报告对浏览器进行故障诊断以改进其性能。 您在 Amazon Silk 的地址栏中所输入的文字会被发送给默认的搜索引擎。初始的默认搜 索引擎是由 Amazon Silk 设置的,将来我们可能会在不事先通知您的情况下修改默认搜 索引擎设置。如果您愿意的话,也可以将其他搜索引擎用作默认搜索引擎。发送给所选 默认搜索引擎的信息,应适用该搜索引擎的隐私权政策。 来源:节选自http://www.amazon.com/gp/help/customer/display.html?nodeId= 200775270 中“1. Privacy Information”一节,中文翻译出自译者。 第6章  大数据时代的隐私问题 145 图表 6-2 :Amazon Silk 的 FAQ(常见问题) 关于隐私权 Q. Amazon 是否会跟踪我的互联网浏览记录? A. Amazon Silk 会临时性地记录您所访问的 URL。记录的 URL 信息是作为一个整体来归 总的,这些 URL 不会和您个人身份产生关联。URL 的保存期限最长为 30 天。这些归 总的信息,可以帮助 Amazon Silk 提高网页加载速度。     Kindle Fire 可能会向 Amazon 发送崩溃报告。这些报告中可能会包含可识别身份的信 息,如 IP 地址和 MAC 地址,但这些信息仅用于技术上的问题诊断,不会与您的浏览 记录产生关联。详细信息请参见“Amazon Silk 使用协议”。 Q. Amazon 会收集哪些数据?能否简要介绍一下,通过收集这些数据,如何能够实现快 速的网页浏览? A. 举个例子,我们有一个叫做智能推送(Smart Push)的功能,它会对所有用户的网页 加载过程(从统计学上)进行监控。例如,通过收集用户发送的数据,我们发现某个 网页中名为 logo.png 的文件最近被加载了 10 万次。在这种情况下,Silk 的后台服务 器会在遇到对该网页的其他请求时,在网站的 HTML 文件返回之前,事先将这个 logo 图片推送给客户端。   为了实现快速的网页浏览,我们还有一种称为预测渲染(Predictive Rendering)的 优化手段。例如,假设在某个非常流行的新闻网站上,大多数访问者接下来都会点击 “商业”这个链接。在这种情况下,可以在主页加载完毕之后,事先将一些静态网页元 素(JavaScript、CSS、图片等)推送给客户端。如果访问该新闻网站的用户,接下来 真的点击了“商业”链接,我们自然会收到来自客户端的 HTML 页面请求,但其实大 多数静态的可缓存元素,在这个时候已经存在于用户的 Kindle Fire 上,并可以立即显 示出来。 Q. 这是不是意味着 Amazon 会在云端服务器上缓存我所浏览的内容? A. 正如提供 Web 访问服务的 ISP 或其他类似服务一样,在 Cloud 模式下,使用 Amazon Silk 所浏览的网页内容,会经过我们的服务器。这些信息中的一部分会被缓存下来, 目的是为了改善后续网页的加载性能,帮助 Silk 提升网页浏览速度。网站拥有者可使 用缓存报头来指定哪些内容可以被缓存。Silk 通过追踪这些报头,仅对网站拥有者认 为合适的信息进行缓存。 Q. Amazon 会将归总的浏览数据出售给第三方吗? A. 不会。客户信息是我们业务非常重要的一部分,也是对客户体验与未来创新的重要推 动力。我们不会向他人出售这些信息,将来也没有计划要出售这些信息。 Q. 如果我不希望我的互联网请求经过 Amazon 的云服务器,应该如何做?如何才能关闭 利用云服务的浏览加速功能? 大数据的冲击 Impact of Big Data 146 图表 6-2 :Amazon Silk 的 FAQ(常见问题)(续) A. 我们提供了用于关闭云加速功能的选项,在 Amazon Silk 的设置菜单中,取消“加速 页面载入”选项即可。在 Off-cloud 模式下,网页不会经过 Amazon 的云服务器,而 是直接传送到用户的终端上,用户可以无负担地进行浏览。在设置画面重新启用这个 选项,就可以随时重新开启云加速浏览功能。 Q. 对于安全 https 连接是如何处理的? A. 在 Amazon Silk 中,SSL 请求不会经过 Amazon 云服务器,而是由 Kindle Fire 直接向 原始服务器发送网页请求。 Q. Silk 中有其他扩展安全功能吗? A. 在使用 Cloud 模式时,可以选择对 Kindle Fire 与 Silk 的加速服务器之间的所有 Web 通信进行 SSL 加密。   要使用这个功能,可以触摸设置菜单中的“加密选项”复选框。请注意,使用 SSL 可 能会降低页面的加载速度。   还需要注意的是,只有经过 Silk 加速服务器的 Web 通信才能享受这一功能所带来的加 密保护,而其他的情况下,例如关闭云加速功能时,Silk 便无法提供加密功能。此外, 即便开启了云加速功能,某些情况下如果不经过 Silk 服务器的加载效率更高,Silk 会 自动更改路由,直接向网站发送请求。在这样的情况下,加密功能也不起作用。 来源:节选自http://www.amazon.com/gp/help/customer/display.html?nodeId= 200775440 中“Privacy”一节,中文翻译出自译者。(译者注:原始网页已不可用)   6.3  建立社交化档案的是非 除了 Web 上的行为跟踪之外,还有一个被广泛议论的对象,就是 Facebook、Twitter、LinkedIn 等社交媒体上所公开的个人档案。为了实 现上一章中介绍的个别优化,需要对特定人或物的相关信息进行收集, 这意味着不得不去接触如个人信息、隐私等敏感信息。尤其是随着社交 化 CRM 概念的渗透,对社交媒体上个人档案的利用也被赋予了越来越 高的期望。 第6章  大数据时代的隐私问题 147 例如,倡导社交化企业的 Salesforce.com,为实现这一理念,推荐 首先建立社交化客户档案,即利用从 Facebook、Twitter 等上面的应用 获取的信息,建立客户的社交化档案,掌握他们的整体形象,从而对人 们的追求和期望做出精确的理解。 然而,这一做法如果超过某个底线,就会侵犯客户的隐私。基本上 这里所利用的都是用户自己在网上公开发布的信息,但由于 Facebook 等服务是推荐实名注册的,因此以这些服务为中心来收集信息,和客户 的真实姓名进行关联,就可以刻画出包括兴趣爱好在内的人物特征。 美国创业型公司 Rapleaf,是一家收集 SNS 和博客等在线信息,与 真实姓名、地址、电子邮件地址等线下信息结合起来,提供个人信息中 介服务的公司。该公司服务的独特之处,也是其恐怖之处,在于其不仅 能够收集到姓名、年龄、性别、职业等属性信息,还能提供婚姻记录、 有无子女、家庭年收入、投资的金融产品、自有房产还是租房、自有房 产价值多少、居住时间段、其他兴趣爱好(读书、运动、宠物、美容、 园艺、汽车、旅游、健康等)等个人资产信息和生活方式信息。 Rapleaf 拥有多达 10 亿条与电子邮件地址相关联的个人信息。想要 着手构建社交化 CRM 的企业,只要向 Rapleaf 提供一份包含电子邮件 地址的客户清单,就可以轻而易举地建立社交化档案。 美国在线新闻网站华尔街日报于 2010 年 10 月 24 日发表了一篇名 为“Web Pioneer Profiles Users by Name”的文章,其中披露了 Rapleaf 是如何收集到这些个人信息的。 (1) 用户(信息收集的目标客户)在 Rapleaf 合作网站(需要使用 电子邮件地址来登录的网站)和 Facebook 应用程序中登录。 大数据的冲击 Impact of Big Data 148 (2) 合作网站和 Facebook 应用程序的开发者将用户的电子邮件地址 和 Facebook 账号发送给 Rapleaf。 (3) Rapleaf 根据收到的电子邮件地址和 Facebook 账号,在其拥有 的数据库中搜索匹配的人物,并在该用户的计算机中安装 cookie。 (4) 对用户在网上的行为进行跟踪,收集详细信息。 (5) 将信息出售给在线广告公司等企业(不过,根据 Rapleaf 的解释, 在提供的信息中已经删除了个人姓名、电子邮件地址等可识别个人身份 的数据)。 “我们的目标是让客户企业能够在更合适的时机,为他们的客户提 供更加个性化的服务。”Rapleaf 对公司的企业目标是这样描述的。 然而,将线上的个人档案和行为记录,与线下的个人真实姓名关联 起来,甚至连资产信息都进行收集,Rapleaf 的这种做法似乎有些过分 了,因而引发了来自隐私保护组织的质疑。 此外,通过商业网站和 Facebook 应用程序开发者购买电子邮件地 址和 Facebook 账号(这违反了 Facebook 的规定),并将其与个人信息 相关联并出售给广告公司等第三方,这一做法也引发了大量的批判。 在这样的舆论压力下,Rapleaf 不得不决定从其数据库中删除与 Facebook 账号相关联的个人档案信息。 在这样的局面下,政府终于开始采取行动。对于商业互联网,由于 担心政府的过多介入会阻碍技术革新,美国政府一直以来奉行基本不介 入的方针。然而,在互联网上收集个人信息并出售给第三方的公司(数 第6章  大数据时代的隐私问题 149 据中介)层出不穷,而关于互联网上的隐私权,只有一些零散的规定 和指导方针,而并没有一部完善的法律,因此民众呼吁必须出台一个框 架来保护民众的隐私权不受侵害。其中之一,就是下面将要介绍的 Do Not Track。   6.4  Do Not Track Do Not Track 是针对在线广告公司等网上的跟踪行为,向消费者提 供的一种能够简单谢绝跟踪的手段。它是由非盈利性组织 CDT(Center for Democracy and Technology)于 2007 年最早提出的,该组织曾经向 美国政府提出过关于互联网安全与隐私问题的建议。虽然在刚提出之后 的几年中并没有引发广泛关注,但在 FTC(美国联邦交易委员会)于 2010 年 12 月发表的一份题为“Protecting Consumer Privacy in an Era of Rapid Change”(在快速变化的时代中对消费者隐私的保护)的报告中, 将 Do Not Track 作为应对隐私权问题的新框架旧事重提后,这一概念在 业界引发了巨大的反响。 Do Not Track 的制定是模仿了 National Do Not Call Registry(美国 谢绝来电计划),后者是在国民要求屏蔽电话营销等骚扰推销电话的呼 声中,于 2003 年启动的一项计划。在“谢绝来电计划”中,只要将自 己的电话号码在 FTC 提供的一个系统上进行注册,就可以很容易地谢 绝那些推销电话。 FTC 认为,从对消费者高效提供有价值的内容和服务这一点上来 看,行为定向广告具有一定的价值,但另一方面,FTC 指出行为定向广 大数据的冲击 Impact of Big Data 150 告手段的透明度还不充分,有侵犯隐私的风险,因此作为 Do Not Call 的 Web 版,FTC 呼吁业界实行 Do Not Track 计划。作为规避行为跟踪 的最有效方法,和 Cookie 一样,最好可以让消费者能够在浏览器中简 单地进行设置,并能持续反映消费者的意图。由于计算机的 IP 地址经 常发生变化,因此像“谢绝来电计划”那样对 IP 地址进行注册的方法 是不可行的。 在 FTC 的 呼 吁 下, 截 至 2012 年 1 月,Firefox 5.01( 图 表 6-3)、 IE9、Safari 5.1 以上版本的各种浏览器中都提供了 Do Not Track 功能。 不过,浏览器提供这一功能很难告知所有的消费者,而 FTC 的提议也 只是促使业界进行自主规范,并非具有强制力,这也成为了一个难题。 图表 6-3 :Firefox 5.01 中提供的 Do Not Track 功能 ౔0QUJPOTĪ1SJWBDZĪ5SBDLJOH 䔇㵸䃪㒚 此外,虽说浏览器厂商加入了 Do Not Track 功能,但这个功能只是 在浏览器发送给 Web 服务器的 HTTP 报头中标明用户的谢绝意向而已, 第6章  大数据时代的隐私问题 151 如果网站运营者和合作的广告商不能读取这一信息并进行响应的话就没 有任何意义了。为了实现法律的强制性,关于使 Do Not Track 成为义务 的法案已经递交到国会,但由于在线广告行业组织的强烈反对,使得这 一法案举步维艰。因为如果采用 Do Not Track 的网站越来越多,且大 多数消费者都选择谢绝跟踪的话,则行为定向广告等手段将丧失其实际 意义。 不过,2012 年 2 月 23 日,美国奥巴马政府颁布了一项 Consumer Privacy Bill of Rights(消费者隐私权法案,详情稍后讲解),与此同时, 由 Google、雅虎、微软、AOL 等 400 家公司组成的在线广告行业组织 Digital Advertising Alliance 联合其他一些互联网公司,共同发表了保证 支持 Do Not Track 的声明,这使得情况有了很大的进展。 也 就 是 说, 包 括 曾 经 对 加 入 Do Not Track 功 能 持 消 极 态 度 的 Google Chrome 浏览器在内,主流浏览器全部声明对该功能提供支持, 而且覆盖行为定向广告约 9 成业务的在线广告业界也对此表示赞同,因 此只要用户在浏览器中选择谢绝跟踪(即选择退出),行为定向广告就 基本上不会显示了。   6.5  消费者隐私权法案 就在 FTC 发表那篇报告之后,2010 年 12 月,美国商务部也发表 了 一 份 题 为“Commercial Data Privacy and Innovation in the Internet Economy: A Dynamic Policy Framework”(互联网经济中的商业数据隐 私与创新:动态政策框架)的长达 88 页的报告。在这份报告指出,为 大数据的冲击 Impact of Big Data 152 了对线上个人信息的收集进行规范,需要出台一部“隐私权法案”,并 提议设立隐私政策办公室(Privacy Policy Office),在隐私问题上对国 内外的相关利益方进行协调。 目前,在美国存在用于保护资产数据、医疗数据(病历、治疗记录 等)等特定隐私信息的法律,但并没有一部全面的隐私保护相关法律。 因此,这份报告提出:“没有强制性的自主规范是不充分的,要恢复消 费者的信任,尤其是在对个人信息进行收集、利用的经营者层出不穷的 现在,我们迫切需要一部隐私权法案。” 受这份报告的影响,2012 年 2 月 23 日,之前提到过的“Consumer Privacy Bill of Rights”(消费者隐私权法案)正式颁布。这项法案中, 对消费者的权利进行了如下具体的规定。 (1) 个人控制:对于企业可收集哪些个人数据,并如何使用这些数 据,消费者拥有控制权。 对于消费者和他人共享的个人数据,以及企业如何收集、使用、披 露这些个人数据,企业必须向消费者提供适当的控制手段。为了能够让 消费者做出选择,企业需要提供一个可反映企业收集、使用、披露个 人数据的规模、范围、敏感性,并可由消费者进行访问且易于使用的 机制。 例如,通过收集搜索引擎的使用记录、广告的浏览记录、社交网络 的使用记录等数据,就有可能生成包含个人敏感信息的档案。因此,企 业需要提供一种简单且醒目的形式,使得消费者能够对个人数据的使用 和公开范围进行精细的控制。 第6章  大数据时代的隐私问题 153 此外,企业还必须提供同样的手段,使得消费者能够撤销曾经承诺 的许可,或者对承诺的范围进行限定。 (2) 透明度:对于隐私权及安全机制的相关信息,消费者拥有知情、 访问的权利。 前者的价值在于加深消费者对隐私风险的认识并让风险变得可 控。为此,对于所收集的个人数据及其必要性、使用目的、预计删除日 期、是否与第三方共享以及共享的目的,企业必须向消费者进行明确的 说明。 此外,企业还必须以在消费者实际使用的终端上容易阅读的形式提 供关于隐私政策的告知。特别是在移动终端上,由于屏幕尺寸较小,要 全文阅读隐私政策几乎是不可能的。因此,必须要考虑到移动终端的特 点,采取改变显示尺寸、重点提示移动平台特有的隐私风险等方式,对 最重要的信息予以显示。 (3) 尊重背景:消费者有权期望企业按照与自己提供数据时的背景 相符的形式对个人信息进行收集、使用和披露。 这是要求企业在收集个人数据时必须有特定的目的,企业对个人数 据的使用必须仅限于该特定目的的范畴,即基于 FIPP(Fair Information Practice Principls,公平信息行为原则)的声明。 从基本原则上说,企业在使用个人数据时,应当仅限于与消费者披 露个人数据时的背景相符的目的。另一方面,也应该考虑到,在某些情 况下,对个人数据的使用和披露可能与当初收集数据时所设想的目的不 同,而这可能成为为消费者带来恩惠的创新之源。在这样的情况下,必 大数据的冲击 Impact of Big Data 154 须用比最开始收集数据时更加透明、醒目的方式来将新的目的告知消费 者,并由消费者来选择是允许还是拒绝。 (4) 安全:消费者有权要求个人数据得到安全保障且负责任地被 使用。 企业必须对个人数据相关的隐私及安全风险进行评估,并对数据遗 失、非法访问和使用、损坏、篡改、不合适的披露等风险维持可控、合 理的防御手段。 (5) 访问与准确性:当出于数据敏感性的因素,或者当数据的不准 确可能对消费者带来不良影响的风险时,消费者有权以适当的方式对数 据进行访问,以及提出修正、删除、限制使用等要求。 企业在确定消费者对数据的访问、修正、删除等手段时,需要考虑 所收集的个人数据的规模、范围、敏感性,以及对消费者造成经济上、 物理上损害的可能性等。 (6) 限定范围收集:对于企业所收集和持有的个人数据,消费者有 权设置合理限制。 企业必须遵循第三条“尊重背景”的原则,在目的明确的前提下对 必需的个人数据进行收集。此外,除非需要履行法律义务,否则当不再 需要时,必须对个人数据进行安全销毁,或者对这些数据进行身份不可 识别处理。 (7) 说明责任:消费者有权将个人数据交给为遵守“消费者隐私权 法案”具备适当保障措施的企业。 第6章  大数据时代的隐私问题 155 企业必须保证员工遵守这些原则,为此,必须根据上述原则对涉及 个人数据的员工进行培训,并定期评估执行情况。在有必要的情况下, 还必须进行审计。 在上述 7 项权利中,对于准备运用大数据的经营者来说,第三条 “尊重背景”是尤为重要的一条。例如,如果将在线广告商以更个性化 的广告投放为目的收集的个人数据,用于招聘、信用调查、保险资格审 查等目的的话,就会产生问题。 此外,Facebook 等社交网络服务中的个人档案和活动等信息,如果 用于 Facebook 自身的服务改善以及新服务的开发是没有问题的。但是, 如果要对第三方提供这些信息,则必须以醒目易懂的形式对用户进行告 知,并让用户有权拒绝向第三方披露信息。 奥巴马政府计划与美国国会进行磋商,以期制定一部授予负责保护 消费者的 FTC 强制力来保护消费者隐私的法律。   6.6  采用主动许可方式的欧盟 对于行为定向广告等通过 cookie 等方式收集用户行为记录的行为, 在欧盟是通过电子隐私指令(E-Privacy Directive)来进行管理的。 这一指令是 2002 年制定的,当初采用的是主动退出(Opt-out)方式, 即只要向用户提供其明确的使用目的及完整的信息,就允许使用用户终 端上存储的信息,但必须对用户提供可拒绝使用的权利。 然而,2009 年这一指令进行了修订,改为采用主动许可(Opt-in) 大数据的冲击 Impact of Big Data 156 的方式来执行,即只有在向用户提供其明确的使用目的及完整的信息, 并事先获得用户许可的情况下,才允许使用用户终端上存储的信息。 对主动许可方式的采用,自然而然地引起了在线广告业界的强烈 反对。随后,以欧盟广告行业组织 EASA(The European Advertising Standards Alliance)和 IAB(Interactive Advertising Bureau Europe)为首, 于 2011 年 4 月制定了一项以主动退出方式为基础的行业自主规范原则 EASA Best Practice Recommendation on Online Behavioural Advertising (EASA 关于在线行为广告的最佳实践建议)。 不过,对于这一行业自主规范提案,欧盟数据保护工作组根据“数 据保护指令”第 29 条,于 2011 年 12 月出具了一份持反对态度的意见 书“Opinion 16/2011 on EASA/IAB Best Practice Recommendation on Online Behavioural Advertising”,这一姿态意味着向整个行业说 No。 欧盟一直以来奉行严格保护消费者隐私的政策,鉴于这一点,他们 对于在线行为定向广告采用与美国不同的主动许可方式,也就可以理 解了。   6.7  数据保护指令同样面临修订 刚才提到的“电子隐私指令”的基础,就是“数据保护指令”,而 后者是在互联网刚刚兴起的 1995 年制定的。毋庸置疑,在制定该指令 的时候,不可能考虑到云计算、SNS、位置信息等服务的存在。于是, 欧盟正在对该指令进行修订,并与 2012 年 1 月末发表了修订草案。下 面我们来介绍一下草案中几个主要的修订之处。 第6章  大数据时代的隐私问题 157 (1) 引入“被遗忘的权利” 对于用户的姓名、电子邮件地址、照片、在 SNS 上发布的消息、 使用的银行信息、健康信息、计算机的 IP 地址等个人数据,当用户要 求删除这些数据时,除非经营者有诸如报道目的等正当理由,否则必须 从服务器上删除。 举个例子,比如在学生时代发布到 Facebook 上面的信息,在找工 作的时候可能会带来不利的影响,用户可以要求删除这些信息。 (2) 在没有明确征得用户同意的情况下,禁止处理个人数据 在经营者使用用户数据时,必须以明确、易懂的形式将其目的事先 告知给用户,并征得用户的同意。 (3) “数据可转移权”的制定 经营者必须允许用户容易地访问自己的数据,并允许用户将自己的 数据从一个服务提供商转移到另一个服务提供商,比如在 SNS 之间转 移数据等情况。 (4) 说明责任的扩大 使用个人数据的经营者,在对数据保护进行风险评估的同时,如果 企业员工数量超过 250 人,必须设置一名数据保护官(Data Protection Officer)。 此外,Privacy by Design(即在服务设计开发阶段就要具备隐私功能) 和 Privacy by Default(即隐私的默认设置为“不公开”)原则也是必需 的条件。 大数据的冲击 Impact of Big Data 158 如果违反上述条款,将被处以 100 万欧元,或者最高相当于公司全 球营业额 2% 的罚金。 在过去,个人信息一旦在网络上流出,就很难靠自己的力量收回 来,但通过这次修订,个人对自己的信息拥有了适当的控制权,这意味 着每个人的权力得到了加强。 乍看之下,感觉这一修订草案对于 Facebook、Google+、LinkedIn 等社交媒体经营者而言十分不利,不过欧盟也主张“通过提高消费者对 在线服务的信任,可以刺激市场,促进业务发展,带动创新”。 另一关键点在于对个人数据的定义。在修订草案中,个人数据被定 义为与数据主体相关的信息,其中数据主体中包含了位置数据、IP 地址、 cookie 等网络上的识别符。在日本的个人信息保护法中,保护的对象是 姓名、出生日期等可以识别特定个人身份的信息,而位置数据、IP 地 址、cookie 本身并不属于这个范畴,因此个人数据的适用对象是有所区 别的,希望大家注意。 该草案在获得欧盟成员国批准后,预计于两年后生效。不过,由于 在欧盟范围内从事业务的欧盟外企业也是本指令的适用对象,一些美国 企业也在欧盟积极开展游说活动,希望能够重新探讨其中对美国企业过 于严格的一些规定,因此刚才所介绍的这些内容最终是否会生效,现在 还是个未知数。 关于对日本的影响,1995 年制定的“欧盟数据保护指令”实际上 是日本个人信息保护法制定的推动力,因此本次修订自然也可能会对日 本带来影响。我们应该结合美国的情况,对这一法案的修订继续保持 关注。 Გ⎽喟⊵䉦㔲ࢲ ͖Ϧԍᖛԉ័᲍ҷ ㏰㏳ᝬݢ჆⮰ڝژČ喝र౜᫥ ᠑ᰵ⮰͖Ϧԍᖛ⮰∁ᒷ κԉ័⠘⿷㵸ᩫ∁ϦᝬڟČ喝 ⮰͖Ϧԍᖛ⮰∁ᒷ ᝬ᠑ᰵڟκԉ័㵸ᩫᱦڟČ喝 κԉ័͖Ϧԍᖛ⮰∁ᒷڟČ喝 喋 喌 ҷ ᲍ ふ ㏳ ㏰ ڝ ژ ᫥ ౜ 喋 喌 ᒷ ∁ ふ Ϧ ∁ ᩫ 㵸 ⿷ ⠘ 喋 喌 ᒷ ∁ ڟ ᱦ ᩫ 㵸 ტ ఩ 䘔䬔Ȩڝژȧℽ䬠䘔䬔Ȩ ȧ 喋࣮㻭̿䬔⮰ప㶔喌 喋र͆ߍ䶲ഋ⮰ᠳᄨ᫥䦴喌 ͧߍ๓㜏ݢ ふ喋じ  「嗡じ 「喌  ⮰㏻㥑㔱⮰͵ߍ ⊵ࣶ͖Ϧԍᖛ 喋じ  「嗡じ 「喌 ദ᱘᫥䦴⮰ᠳ჆ふ ㏰㏳⮰䉏Чȟᩫも ڝژ఩ტࣶ౜᫥ ദ᱘⤲ᔡ ȧദ᱘ݢᏒȨ ※2 ※3 ※4 ※1 图表 6-4 :日本的个人信息保护相关法律体系概念图 主要的指导方针如图 6-5 所示。 各业务领域的指导方针。目前一共有针对 27 个领域的 40 部指导方针, 了相应的指导方针。因此,在参考个人信息保护法的同时,还需要参考 导、监督各业务领域的各省厅(主务大臣)根据各领域的实际情况制定 及的个人信息的内容、性质、使用方法等都有所不同,因此由负责指 护法。此外,在民间业务中,信息通信、医疗、金融等业务领域中所涉 准备开展利用个人相关数据的业务,首先必须考虑的,就是个人信息保 在日本,个人信息保护的相关法律体系如图表 6-4 所示。如果企业 导方针   6.8  在日本需要考虑个人信息保护法及各行业领域的指 159 第6章  大数据时代的隐私问题 容易地与其他信息进行对照,并据此识别特定个人身份的信息也包括 含的姓名、出生日期及其他一些能够识别特定个人身份的描述(能够 “所谓个人信息,是指关于生存个人的信息,以及这些信息中所包 义的。 首先,作为大前提,个人信息的概念在个人信息保护法中是这样定 䶲ഋ ᝬᆊⰭࢱ ᠳᄨ᫥䦴ह⼜ ݢ჆ȟԚ䃎ᬢ䬠 ღݣ҉ڲ Გ⎽喟ぁ㔲ᵦᢛ⊵䉦㔲ࢲͨ䶢喍IUUQXXXDBBHPKQTFJLBUTVLPKJOHBJEPSBJOLFOUPVIUNM喎  Ꭰᰴ ᬑ  Ꭰᰴᬑ  Ꭰᰴᬑ  Ꭰᰴ ᬑ  ᎠᰴᬑԚ䃎  Ꭰᰴ ᬑԚ䃎  Ꭰᰴ ᬑԚ䃎  Ꭰᰴ ᬑ  Ꭰᰴ ᬑԚ䃎  Ꭰᰴ ᬑԚ䃎  Ꭰᰴᬑ  Ꭰᰴ ᬑԚ䃎  ᎠᰴᬑԚ䃎  Ꭰᰴ ᬑԚ䃎  Ꭰᰴᬑ  ᎠᰴᬑԚ䃎  Ꭰᰴ ᬑԚ䃎  Ꭰᰴ ᬑ  Ꭰᰴ ᬑԚ䃎  Ꭰᰴ ᬑԚ䃎  Ꭰᰴᬑ ᖛԉ័⮰ᠳᄨ᫥䦴 κ͖Ϧԍڟ䛽㲹䶲ഋ͙ ㏻≺ϓ͆Ⱝ 䛽㲹ࢱ ԍ⩔ 䛽㲹 ⣛දⰭ ఩ోϐ䕆Ⱝ ᳃ⅠϓⰭۈ ㏻≺ϓ͆Ⱝ ᕧߍⰭ ᕧߍⰭ Ꭻ᧙ ⩡㻲 䕆䃛 ⩡ၼ ⣛ද ఩ోϐ䕆 ᳃Ⅰϓۈ ㏻≺ϓ͆ 䕆䃛 ԍᖛ ԍ⩔ 䛽㲹ȟ  Ꭰᰴ ᬑԚ䃎  Ꭰᰴ ᬑ ᄨ᫥䦴 κ͖Ϧԍᖛԉ័⮰ᠳڟ ⣛දⰭᝬ䓂͆ߍ䶲ഋ͙ ⮰ᠳᄨ᫥䦴 κ͖Ϧԍᖛԉ័ڟഋ͙ ఩ోϐ䕆Ⱝᝬ䓂䶲ഋ䶲 Ϧԍᖛԉ័⮰ᠳᄨ᫥䦴 κ͖ڟ᳃Ⅰϓ䶲ഋ͙ۈ ᫥䦴 κ͖Ϧԍᖛԉ័⮰ᠳᄨ ڟьԍᖛ⮰͆ߍ䶲ഋ͙ ㏻≺ϓ͆⮰ݕ⩔͖Ϧ䖃 ഋ⮰ᠳᄨ᫥䦴 ᒷ喏䦴ᄥ㏻≺ϓ͆䶲∁ ڟκ͖Ϧԍᖛԉ័Ⱔڟ 㔱͖Ϧԍᖛ⮰ᠳᄨ᫥䦴 κԉ័⩡㻲Ꭻ᧙ᣑᩢڟ Ϧԍᖛԉ័⮰ᠳᄨ᫥䦴 κ͖ڟ⩡ၼ䕆䃛͆ߍ͙ ᄨ᫥䦴 κ͖Ϧԍᖛԉ័⮰ᠳڟ ㏻≺ϓ͆⮰ԍ⩔䶲ഋ͙ Ϧԍᖛ⮰ᠳᄨ᫥䦴 ͆⮰㏻㥑㔱₏⶚ะ⤲͖ 㵸ڟϺηࡧ⫃ȟ័⤲Ⱔ ࡧ⫃ ̬㝘 ࣆ⩋ߟߔⰭ 图表 6-5 :面向民间经营者的个人信息保护相关的主要指导方针 160 of Big Data 大数据的冲击 Impact 第6章  大数据时代的隐私问题 161 在内)。” 也就是说,和欧盟的思路不同,像商品的搜索记录、浏览记录、购 买记录等行为数据,只要无法通过姓名等识别特定的个人,就不属于个 人信息的范畴。 第 15、16、18 条中规定,涉及个人信息的经营者“在个人信息的 使用上,必须尽量确定使用的目的”,“在未事先征得本人同意的情况下, 个人信息的使用途径不得超出限定范围”,“在获取个人信息时,除非事 先公布其使用目的,否则必须尽快将使用目的告知本人,并进行公布”。 这些规定与美国的“消费者隐私权法案”是共通的。 关于将个人信息提供给第三方的行为,在原则上,“涉及个人信息 的经营者……在未事先征得本人同意的情况下,不得将个人信息提供 给第三方”(第 23 条),但是又规定了“如事先将下列项目告知本人, 或者以本人容易知晓的状态进行发布……可以将该个人数据提供给第 三方”。 · 将提供给第三方列入使用目的 · 公示提供给第三方的个人数据项目 · 公示向第三方提供数据的手段或方法 · 当本人提出要求时,能够停止将可识别本人身份的数据提供给第 三方 也就是说,只要准备了用户可主动退出的手段,并将这些信息以本 人容易知晓的状态进行发布,即便不征得本人同意,也可以向第三方提 供个人信息。 大数据的冲击 Impact of Big Data 162   6.9  在向第三方提供信息上采用主动许可方式的指导方针 个人信息保护法中,基本上对以主动退出方式将个人信息提供给第 三方的行为给予了认可,但对各业务领域进行指导、监督的省厅所制定 的指导方针中,却有一些采取了主动许可的方式。 例如,在“电子通信业务中关于个人信息保护的指导方针”中规定, 对于通信记录(指用户使用电子通信手段的日期时间、通信对象及其他 用户相关信息,不包括通信内容)、发送者信息、位置信息,电子通信 经营者“除非获得用户同意,否则不应提供给他人”,即并不认同以主 动退出方式将个人信息提供给第三方的行为。 另一方面,在“关于个人信息保护相关法律,针对经济产业领域的 指导方针”中规定,“与姓名相关联的商品购买记录”是可以以主动退 出方式提供给第三方的。 综上所述,在将个人数据提供给第三方的问题上,根据不同的业务 领域和对象数据类型,有些规定采用主动许可方式,而有些规定采用主 动退出方式,因此考虑在业务中运用大数据的经营者,一定要确认所在 领域的指导方针。   6.10  日本政府的讨论情况 日本政府认为,在新技术民用化和服务商业化的过程中,必须对隐私 和个人信息的保护引起足够的重视。从 2007 年开始,日本政府就以经济产 业省和总务省为中心,开始在制度层面和技术层面上对这一问题进行讨论。 第6章  大数据时代的隐私问题 163 经济产业省于 2007 年启动了“信息大航海计划”,总务省于 2009 年起召开“从用户角度出发的关于 ICT 服务各种相关问题的研究会”, 对制度层面和技术层面的问题进行了讨论,为大数据的运用提供了 参考。   6.11  经济产业省以“信息大航海计划”为契机展开讨论 作为“信息大航海计划”的成果之一,经济产业省于 2010 年 3 月 发表了一份“个人信息利用指导方针(草案)〈关于利用方法的提议〉”, 在其前言部分中,是这样叙述的: “在堪称信息爆炸时代的现在,为了能够充分保护隐私和个人信息, 同时对行为记录、浏览记录等个人相关信息进行有效运用,经济产业省 通过‘信息大航海计划’,就实现以个性化服务为代表的创新产业的方 针进行了讨论。” 在这一指导方针中,为了在保护隐私的同时,促进个性化服务和数 据挖掘的发展,对个性化信息(不考虑在单独属性上是否属于个人信息 范畴,而是能够与个人相关联的信息总称)在使用时所必需的规则进行 了归纳。这里所说的个性化服务,指的是下列内容。 (1) 对通过多种途径获得的消费者、用户信息(买卖、搜索的记录 等)进行整合、分析,从而提供新的服务。 (2) 在积分、电子货币企业间合作中所伴随的个人购买信息等的交 换、流通。 大数据的冲击 Impact of Big Data 164 (3) 通过利用血压、脉搏等数据,由从事健康服务的经营者对个人 信息进行统一管理。 在这一指导方针中,对于上述服务,“经营者所获得的个人信息中, ‘存在以不具备个人识别性的形式也可能在服务中被使用的数据(位置 数据、视听记录等)’,在现行法律制度的框架内,通过提供给其他经营 者,可以期待个性化服务和数据挖掘等业务的进一步发展,因此对于如 何处理这些数据符合法律的规定,在这里进行了讨论”。 其中,为了在隐私、个人信息的保护与服务的便利性之间寻找一个 平衡点,在方针中还提出了“对集合匿名信息的使用”这一原则。所谓 集合匿名信息,是指“对‘识别信息(姓名等)进行加工(分离、模糊 化等),并进行编组后的信息’,通过去除个人信息,并采用针对隐私问 题的算法进行编组,从而规避或减轻这些问题”。 也就是说,对获取到的个人信息,像图表 6-6 这样,将姓名、地址 的数据库与购买信息分开管理的情况下,对于最初获取姓名和购买信息 的经营者来说,购买记录数据库也是个人信息的一部分,但对于其他经 营者来说就不会被认为是个人信息。这里的问题是如何来对待保管购买 信息的数据库。根据现行的个人信息保护法和指导方针,上述购买信息 由于已经与姓名、地址等识别个人身份的信息相分离,依靠其本身的内 容是无法识别个人身份的,但这样的数据库是否可以无需征得本人同意 提供给第三方,尚不明确。 是在“随着新服务的出现和运用新技术的信息流通,有必要对其与通信 所谓“从用户角度出发的关于 ICT 服务各种相关问题的研究会”, 的法律问题进行了讨论,在考虑大数据商业运用时值得参考。 务各种相关问题的研究会”中,对于运用生活日志(life log)的服务中 总务省于 2009 年 4 月开始召开的“从用户角度出发的关于 ICT 服   6.12  总务省从生活日志的角度展开讨论 接管,以产学一体的形式推进。 这些讨论结果由设立于 2009 年的“下一代个性化服务推进工作组” 〈关于利用方法的提议〉”。) (关于“集合匿名化”的详情,请参见“个人信息利用指导方针(草案) 是会存在侵犯隐私的情况”,因此建议以“集合匿名化”的形式来使用。 理方式进行了讨论。讨论的结果是,“仅仅分离了姓名、地址信息,还 因此经济产业省的这一指导方针中,对类似这种购买信息数据的处 Გ⎽喟Ą͗ϧԎᖜݖ⩕ᠴᄩ᫦䦵喍㡶ᵵ喎ąԎᖜ๔㝗⊤䃎ܿ喑͗ϧԎᖜ䃕䃧㏱喑Ꭱᰵ ქᬌ∁䃲ݗ͖Ϧ䏗Щ⮰᪜ᢚᎿڱ᱘䏗⮰ڢ㖀⮰᪜ᢚᎿ Ӊ䲌ڟ %* ᄲ໿हȟѻ౬ふ̺ ͈Ϙ䘩᫜ძࡦć ͈Ϙ䘩⍛ࡦć ͈Ϙ䘩࡯Џ⩜ࡦć ๓ᆝć 䱾ᆝć ᆝ⩜ć โ຃【٫ ຟᐻⴙ㸅 ⩣ᐻ㒶ℇ㶗  Ꭰᰴᬑ  Ꭰᰴᬑ  Ꭰᰴᬑ       *% 䉙Μᬑ᱋ 䉙Μੲ৭ *% ໿ह ѻ౬ 图表 6-6 :将姓名、住址数据库与购买信息数据库分别管理的例子 165 第6章  大数据时代的隐私问题 大数据的冲击 Impact of Big Data 166 秘密、个人信息保护、知识产权保护等各种权利之间的关系进行梳理” 的背景下,对各种各样的课题讨论具体对策的一个会议。 2009 年 8 月,该会议对“互联网地图信息服务”、“非法音乐传播 对策”以及“电子通信业务中关于个人信息保护的指导方针的修订”进 行了归纳和梳理,并发表了“第一次提议”。在 2010 年 5 月发表的“第 二次提议”中,对 CGMa 服务、安全管理措施以及生活日志运用服务进 行了归纳和梳理。 在该提议中,对生活日志做了如下定义。 “生活日志,是指积累下来的个人生活记录。生活日志是一个广义 的概念,几乎包括能够想到的可积累下来的所有个人生活记录。即便只 考虑其中被数字化的部分,也可以包括下列这些数据中所提取的信息: 网站浏览记录、电商网站的购买和支付记录、手机 GPS(全球定位系统) 位置信息、手机和汽车中安装的传感器产生的信息、数码相机拍摄的照 片、博客中发布的日志、SNS(社交网络服务)网站中发布的交友关系 记录、非接触式 IC 交通卡中的乘车记录等。” 仔细一看,这里所定义的生活日志,其实就相当于第 1 章中定义的 “狭义上的大数据”。利用生活日志数据所开展的服务,可以分为两种类 型,即提供符合用户兴趣爱好的信息的服务(行为定向广告 b 与行为支 持型服务 c),和提供统计信息的服务,它们分别属于第 5 章中介绍过的 个别优化和整体优化模式。 a Consumer Generated Media。——译者注 b 这里主要指的是利用电商网站等互联网上的行为记录对用户的兴趣爱好进行分析,将用 户分组并对每个组展示不同广告的服务。 c 这里主要指的是根据手机 GPS 获取的位置信息,将符合用户兴趣爱好的信息发送到手机 上的服务。 第6章  大数据时代的隐私问题 167 在该提议中,对于行为定向广告和运用位置信息的行为支持型服 务,从个人信息保护和隐私保护这两个角度进行了法律方面的探讨。 6.12.1  个人信息保护的角度 正如之前所讲过的,在日本的个人信息保护法中,姓名等信息是否 具有身份识别性,是判断其是否属于个人信息范畴的关键。因此,行为 定向广告等所涉及的信息是否具有身份识别性,就成了一个关键点。关 于这一问题,在该提议中总结如下。 “在行为定向广告等中所需要的信息,仅包括用于分析用户兴趣爱 好所必需的网页行为记录(浏览记录、购买记录)和位置信息,行为记 录获取和广告发送等所必需的 cookie 技术所生成的识别信息,以及用 于识别手机终端所必需的签约用户固有 ID。除特殊情况之外,这些信 息本身不具备身份识别性。因此,通常认为行为定向广告等经营者不属 于涉及个人信息的经营者。” 但是,像图表 6-6 中这样,姓名、住址数据库和购买信息数据很容 易进行相互关联的情况,或者是对网页行为记录(浏览记录、购买记录 等)和位置信息进行长期大量的或按时间先后存储的情况,由于存在容 易推断出个人身份的可能性,因此是作为例外情况来处理的。这种情况 下,行为定向广告等经营者就属于涉及个人信息的经营者,必须遵守相 关法律的规定。 6.12.2  与隐私等的关系 关于行为定向广告等所运用的网页行为记录和位置信息与隐私侵犯 之间的关系,该提议是这样描述的。 大数据的冲击 Impact of Big Data 168 “网页上的行为记录,如浏览记录和购买记录等,如果进行了相当 数量的积累,则有可能据此推断出个人的兴趣、爱好、思想倾向等。此 外,如果对相当一段时间内的位置信息按照时间先后进行连接,就很有 可能明确掌握个人的生活状况。也就是说,可以很自然地认为这些信息 是不希望被别人知道的。因此,网页上的行为记录和位置信息,根据其 处理方式的不同,可能会作为隐私相关信息而成为法律保护的对象。” 在该提议中,还对这一问题进行了如下总结:“在利用生活日志所 开展的服务中,根据其形式不同,可能会引发侵犯隐私、造成用户不安 等问题。……因此,获取、保存和使用生活日志的经营者……在对生活 日志的处理上,应当给予一定的考虑。”关于具体措施,“当服务还处于 萌芽期时,对经营者施加过多的压力会阻碍服务的发展,为了避免这一 问题,首先不应采用禁止色彩很浓的行政性指导方针,而是应该促使经 营者制定自律措施”,因此“本研究会制定了一组较缓和的参考原则”。 综上所述,为了培育生活日志的商业模式,不应该由政府通过制定 指导方针来进行禁止,而是应该期待业界的自主规范,作为研究会来 说,则制定了一些希望在制定自律规范时能够予以考虑的参考原则。 这些参考原则的规范对象,是通过对能够识别特定 PC 浏览器或手 机终端的信息(如 cookie 生成的识别信息、手机签约用户固有 ID、登 录中识别用户的 ID、MAC 地址、IC 标签的 ID 等)进行存储来开展业 务的经营者。针对这些经营者,研究会制定了 6 条参考原则(图表 6-7), 包括:①推进宣传活动;②确保透明度;③确保用户的参与机会;④确保 获取手段的正当性;⑤确保管理的安全性;⑥确保投诉、咨询应对体制 的完善。 、业者姓名或名称、获取的信息种类、获取方法、向第三方提供的事实 关于需要告知的内容,包括“获取信息的事实、获取对象信息的营 做到让用户容易认知并理解。” 段的详细情况,告知用户或以容易知晓的状态发布。对于告知,应努力 “对象经营者应努力将对象信息的获取、保存、运用及用户参与手 关于“确保透明度”是这样提议的: ④确保获取手段的正当性。 其中比较重要的几条是:②确保透明度;③确保用户的参与机会;  Ꭱᰵᬒ 䬛䷅⮱ⵁ⾣чąすι⁎᣽䃛喑ᕨߎⰮ喑ڠλ *$5 ᰺ߎऱ⻺Ⱕڠࣾ⮱ܧᲒ⎽喟Ąϻ⩕ᝤ㻿Ꮣ ᏀᄥȠ ⮰េ䃵ȟ৔䄎䔇㵸䔮ᑿ̀䓱䕋⮰ڟᄥ䆍㏻㥑㔱Ꮐߖ߇ᄥᄥ䆍ԍᖛะ⤲Ⱔ ś⶚ԉេ䃵ȟ৔䄎Ꮐᄥѿݢ⮰Ⴘર ᄥ䆍㏻㥑㔱Ꮐߖ߇ͦ䭞₎ᄥ䆍ԍᖛ⇰䱞ᝂᢋ౻㔸䛳ंᓱ㺭̀䔮ᑿ⮰ᣖ᫩Ƞ ᕓڔŚ⶚ԉネ⤲⮰Ⴕ ᄥ䆍㏻㥑㔱Ꮐߖ߇䕆䓳₏ᑿ⮰᝷⃡Ბ㣣ंᄥ䆍ԍᖛȠ ř⶚ԉ㣣ं᝷⃡⮰₏ᑿᕓ じ̵᫥ҫ⩔ᄥ䆍ԍᖛȠ ߍ⮰➥ᕓ喏䃕⩔ᝣᰵᱦц៾㐉᣼Ӈᄥ䆍ԍᖛᝂ៾㐉͆ڢᄥ䆍㏻㥑㔱Ꮐᵥᢚ Ř⶚ԉ⩔ᝣ⮰࣮̺ᱦц Ꮐߖ߇ֆݜ䃕⩔ᝣქᬿ䃐ⴑᎢ⤲㼏Ƞ ᗱۡ喏ॶⴑ⩔ᝣᝂБქᬿⴑ᭿⮰⟢ᔭࣽጯ喋Б̷ガ⼜Ąॶⴑą喌Ƞᄥκॶⴑ喏 ᄥ䆍㏻㥑㔱Ꮐߖ߇ᄲᄥ䆍ԍᖛ⮰㣣ंȟԉႄȟ䓼⩔ࣶ⩔ᝣ࣮̺᝷⃡⮰䄒㏲ ŗ⶚ԉ䔻ᬺᏒ ь≧ߔ䔇㵸ᮚࣶȠ Ꮐߖ߇ᄥ䓼⩔ᄥ䆍ԍᖛ⮰᰹ߍ࣋⤲Бࣶദκ᱘࣋݅ᝬ䛳ं⮰ᣖ᫩喏䕆䓳჏ Ϧ঄ڟЂⰤڢͦβߌ⌝⩔ᝣ⮰⤲㼏喏⊴䮐̹Ⴕᙋস̹ᔗᙋ喏ᄥ䆍㏻㥑㔱ࣶ Ŗᣔ䔇჏ь≧ߔ 图表 6-7 :6条参考原则 169 第6章  大数据时代的隐私问题 大数据的冲击 Impact of Big Data 170 信息提供的范围、提供的信息种类、使用目的、保存期限、用户参与 手段”。 至于如何能让人容易认知并理解,建议“在刊登隐私政策等网页 中,用简洁且醒目的形式刊登获取信息的事实等内容”。 关于“确保用户的参与机会”,研究会是这样提议的:“对象经营者 应根据其业务的特性,让用户有机会拒绝提供对象信息或拒绝第三方使 用对象信息。” 具体的手段包括:对拒绝接收行为定向广告的浏览器安装表达该意 向的 cookie(opt-out cookie),以及对 cookie 的禁用、删除,对手机签 约用户固有 ID 禁止读取等。 关于“确保获取手段的正当性”,研究会是这样提议的:“对象经营 者应努力通过正当的手段来获取对象信息。” 对于这一点的解释如下:“以不正当手段获取,如伪造获取者和获 取信息的范围,使用用户完全不可能认知的手段等情况,会加重用户的 不安情绪。为了应对上述问题,消除不安情绪,确保用户对对象信息正 当性的信任,在信息运用的起点即获取阶段,就确保其正当性是非常重 要的。” 值得注意的是,个人信息保护法的对象只是具有身份识别性的信 息。而相对地,上述参考原则的对象,则是对 cookie 和手机终端 ID 等 可识别特定 PC 浏览器和手机终端的信息进行存储的经营者。思考一下 你会发现,在行为定向广告业务中,了解特定 PC 拥有者的兴趣是非常 重要的,但这个人的姓名却只不过是一个符号,没有更大的意义。因 第6章  大数据时代的隐私问题 171 此,即便其不属于个人信息的范畴,如果能从隐私的角度对可能会暴露 个人兴趣爱好的 cookie 等识别信息进行保护,对用户来说则具有重要 的意义。   6.13  关键在于与用户的沟通 对于“确保透明度”、“确保用户的参与机会”等原则的具体实现方 法,并没有一个正确答案。不过,解决问题的关键应该在于“与用户的 沟通”。毋庸置疑,在不知情时被他人收集了自己的信息,用来显示和 自己的兴趣爱好相匹配的广告等内容,总归会觉得有些不愉快。然而, 如果从一开始自己就可以对展示的广告拥有控制权的话,也许就能够缓 解这种不愉快的感觉。 例如,已经进军日本的在线视频服务 Hulu,提供了一种 Hulu Ad Tailor 机制,用户可控制视频观看中播放广告的内容,并在广告播放后 确认自己对广告内容是否感兴趣(图表 6-8)。通过这一机制,就可以只 展示用户感兴趣的广告,对广告主来说也可以覆盖到对自己商品和服务 兴趣较高的用户,实现了用户和广告主的双赢。 如果广告商不再单方面发送广告,而是像这样通过与用户的沟通来 确定发送的广告内容,就可以在一定程度上满足“确保透明度”和“确 保用户的参与机会”所提出的条件。 这是一种非常有意思的技术,但与此同时,也有人担心 FootPath 会 个位置的广告价格。 这些数据可以判断哪个地方的广告效率较高,并制作成热点图,提供各 最密集(最稀少)的地方是哪里”等信息。Path Intelligence 公司通过 购物中心的顾客中“有百分之多少的人在 Disney Store 停留过”、“人流 顾客的行为模式进行分析的技术。使用这一技术,就可以立即掌握来到 FootPath 是一种利用购物中心中安装的监控设备,通过手机信号对 FootPath 的技术。 由于美国在两家购物中心部署了英国 Path Intelligence 公司的一种称为 题,当然,在线下也发生着同样的问题。这个问题之所以被提出,是 刚才我们主要介绍了在线上对消费者行为跟踪所伴随的隐私问   6.14  线下行为跟踪 Გ⎽喟)VMV ͨ䶢喍IUUQXXXIVMVDPNTVQQPSUBSUJDMF喎 䋏ृ喢 ڠᗔᄥκ䔅݅Ꭻॶᙋ 䋏喢ڠᗔᰵๆ๓ ᄥκ᫜↩䒒সࢍ䒒喏 图表 6-8 :用户可控制广告内容的Hulu Ad Tailor 172 of Big Data 大数据的冲击 Impact 第6章  大数据时代的隐私问题 173 侵犯顾客的隐私。Path Intelligence 公司解释称 “我们的目的并不是跟踪 每位顾客,而是掌握人群整体的行为模式”,并表示其目的并非在于收 集电话号码、姓名等个人信息。 相对地,我们可以想想在线购物的情况,如果注册了会员,那么姓 名自不必说,行为、购买记录和网站内停留时间等所有信息都会被商家 掌握。因此也有意见认为,相比之下,这种技术也没什么好批判的。 对于线下行为记录的掌握来说,传统上由于技术和成本的限制,要 做到大规模是很难的,但随着 FootPath 这一新技术的出现,对消费者行 为的跟踪变得更容易,也就可能会产生和线上情况相类似的争论。 大数据的冲击 Impact of Big Data 174 对 Web 上的用户个人信息、行为记录等进行收集,在未经用 户许可的情况下将数据转让给广告商等第三方,这样的经营者层 出不穷,因此美国和欧盟都围绕着 Web 上行为记录的收集展开了 激烈的讨论。 在美国,对于 Web 上的行为跟踪,有人建议采用 Do Not Track 手段,即让用户可以通过浏览器的设置拒绝所有的跟踪行 为。这一建议在很长一段时间内一直遭到在线广告商等方面的反 对,一度举步维艰。但在 2012 年 2 月 23 日,借助美国奥巴马政 府颁布“Consumer Privacy Bill of Rights”(消费者隐私权法案) 的机会,这个建议终于得到了业界的认同。 在欧盟,为了应对 SNS、云计算等新型互联网服务,对“欧 盟数据保护指令”实施了修订,并于 2012 年 1 月末发布了修订 草案。 和美国不同,欧盟要求采用“如果没有得到用户明确的同 意,则不得处理个人数据”这一主动许可的方式,遭到了在线广 告商等方面的强烈反对。 在日本,在参考个人信息保护法的同时,还需要参考如“电 子通信业务中关于个人信息保护的指导方针”、“国土交通省所辖     本章小结 第6章  大数据时代的隐私问题 175 领域中关于个人信息保护的指导方针”等各业务领域的指导方针。 日本政府方面,以经济产业省、总务省为中心,在充分保护 隐私和个人信息的同时,为有效运用行为记录、浏览记录等个人 相关信息开展个性化服务,正积极研究相关方针政策。 从大数据和隐私的角度所展开的讨论,目前几乎都是以 Web 上的个人信息、行为记录为对象的。不过,随着线下行为跟踪技 术的出现,今后以线下,甚至是 O2O(Online to Offline)等为对 象的讨论可能会更加活跃。 要在业务中对大数据进行运用,就不可避免地会遇到隐私问 题。哪怕只有些许不慎,也有可能会大幅伤害企业的信誉,某 些情况下企业甚至不得不退出服务市场。虽然也不必矫枉过正, 但是不为用户考虑的服务很难得到用户的支持,这一点必须要 牢记。 涉及个人信息及个人相关信息的经营者,需要在确定使用目 的的基础上事先征得用户同意,并在使用目的发生变化时,以易 懂的形式进行告知,这种对透明度的确保今后应该会愈发受到重 视。其关键在于,如何表达为用户带来好处的诉求。如果只对经 营者一方有好处,便很难得到用户的理解;反过来说,如果对用 户有很多好处,那么获得用户同意的门槛就会降低。 第8章 为大数据时代做好准备8 大数据的冲击 Impact of Big Data 206   8.1  大数据时代的企业 IT 战略 随着传感器网络的发展和智能手机的普及,数据的收集逐步自动 化,数据量今后也必将不断增加。特别是一旦打破人类和机器的界限, 像生活日志、服务器日志这样的日志数据将会迎来爆炸式的增长。这些 庞大的数据乍看之下只是数值、文字、符号的罗列,但为了要从中发现 “金矿”并有效运用,就必须要做到有备而来。 面对大数据时代的到来,用户企业应当讨论哪些课题?供应商企业 将迎来怎样的新商机?这是我们本章将要探讨的话题。 如前所述,随着 LOD 运动的高涨和数据市场的出现,能够免费或 者廉价获得国家、地方政府所拥有的统计数据、地图信息,以及社交媒 体相关的各种统计数据,这样一个时代已经离我们越来越近了。 另一方面,对于企业来说,有一些数据(如其他公司的顾客购买记 录等)是花钱也很难买到的。但是,要想在大数据时代确立企业的竞争 优势,在数据战略上,除了公司内部数据之外,必要时也可以考虑从外 部获取数据。 下面,我们将数据按照自己公司拥有的公司内部数据、其他公司拥 有的公司外部数据,以及招徕客户所需的体现差异化的核心数据、除核 心数据以外的背景数据这两个维度进行分类,并针对这一框架进行讨论 。分享 不应只考虑保护这些数据,在某些情况下,也应考虑和其他公司进行 作的方式,对数据进行共享和交换(详见下一节中的介绍)。今后我们 数据对自己公司有很大的好处,那么可以通过与其他公司进行战略性合 保护起来,不会对外提供。然而,最近出现的一些案例表明,如果这些 属于这一领域的数据对企业来说是战略性资产,传统的思路是直接 ͖Ϧᶏᵴふ喌 ᐬ᪜ᢚȟ'BDFCPPL ⮰ژ ⮰᪜ᢚ喋౜ప᪜ᢚȟᩫᏈ ℀䒯ქᬿ㘩๋Ϻโ䘔㣣ᓃ ঄䉙Μ䃜ᒁふ喌 ⮰᪜ᢚ喋104 ᪜ ᢚȟц तᲑ䄠΋᭛ᰵУըژЂڢ त⠘ᰵ⮰᪜ᢚ喏ᄥژ㜖ጝ ᖛふ喌 喋䉎ߍ᪜ᢚȟ঄጑͖Ϧԍ 䔅χ᪜ᢚᬌ∁ѿ⣜ጚᐮࡂ त⠘ᰵ⮰᪜ᢚ喏Ѳژ㜖ጝ Გ⎽喟䛻᱾㐩वⵁ⾣᝭ ⮰ᝬᰵ᪜ᢚ 䮐ᵤᓯ᪜ᢚͷโ 㗸ᮛ 'JSFIPTF ふ喌 ц঄ԍᖛȟ5XJUUFS ⮰ त᰹ߍ⮰ژЂڢ⮰᪜ᢚ喋 तᰵᒴ倄ݕ⩔Уըژ㜖ጝ त⠘ᰵ⮰᪜ᢚ喏ᄥژЂڢ ⩋ጚᐮࡂ⮰᪜ᢚ ⩔κ᠇ᓁ჎ᝣϓ ᵤᓯ तᝬ᠑ᰵ⮰᪜ᢚژЂڢ तโ䘔ژ तᝬ᠑ᰵ⮰᪜ᢚژ㜖ጝ 䘔ڱतژ 㣣ᓃ䯪Ꮢ ը У ౦ ጮ 图表 8-1 :大数据运用的战略框架 十分有用的数据,因此市场价值非常高。 由于是自己公司的数据,不但比较容易获取,而且对其他公司来说也是 数据可在招徕客户方面体现差异化,例如 POS 数据和会员购买记录等。 左上方区域指的是自己公司在商业活动中产生的原创数据,这些 (图表 8-1)。 207 第8章  为大数据时代做好准备 大数据的冲击 Impact of Big Data 208 左下方区域指的是除了左上方区域以外的数据,也就是说,虽然是 自己公司原创的数据,但这些数据不能在招徕客户方面直接体现差异 化。例如,总营业额、销售利润等财务数据,或者是员工的学历、资 质、家庭结构、邮件记录等。 对该区域数据的处理体现了两极分化的特点。以财务数据为例,如 果是上市企业的话,每过一段时间就有义务对外公开其中的一部分数 据,但也有一些机密数据和个人信息相关的数据是绝对不允许泄露出去 的。因此,对这两类数据应分别采取依法公开和严格保护的措施。 右下方区域指的是地图数据、政府公开的统计数据、Facebook 上公 开的用户档案、从第 7 章中讲到的数据市场中可以获得的数据等一般性 公开的数据。由于这些数据可以免费获得,或者可以以很低廉的价格购 买到,因此其市场价值并不是很高。作为企业来说,属于可以积极利用 (Use)或积极购买(Buy)的数据。 右上方区域指的是其他公司的客户信息和 Twitter 的 Firehose(可实 时访问所有公开推文的 API)a 等,其他公司所拥有的,但对自己公司有 较高利用价值的数据。由于这些数据没有进行一般性的公开,因此相对 较难获得,其相对的市场价值就较高。作为企业来说,即便需要付出相 应的代价,也希望能够得到这些数据。 将上述内容总结一下的话,就是图表 8-2 中所示的情形。如果企业 今后想要依靠数据来获得竞争优势的话,除了自己公司所拥有的内部数 据外,还需要在制定数据运用战略时将外部数据也考虑在内。 a 所有人都可以使用的普通 API 所能够获取的数据是有限制的,例如需要指定关键字来获 取过滤过的结果,但无法获取未经过滤的全部公开推文。 本则展现了通过特定企业间的战略联盟对各自所拥有的数据进行共享的 在美国,通过开设数据市场,促进了数据的开放性。相对而言,日   8.2  共享数据的日本企业 CDO(Chief Data Office,首席数据官)职位。 在某些情况下,还需要设立一个专门负责管理企业数据战略的 作等。 他公司数据,就需要以更宽广的视野来进行讨论,包括进行战略性合 能满足,应该从外部引入哪些数据?然后,如果需要一些难以获得的其 的,需要哪些数据?这些数据仅靠自己公司的数据能够满足吗?如果不 为此,我们需要进行有逻辑有条理的讨论,如:为了达到某个目 Გ⎽喟䛻᱾㐩वⵁ⾣᝭ PS#VZ 6TF 1SPUFDU 1VCMJDPS PS4FMM #VZ 1SPUFDU तᝬ᠑ᰵ⮰᪜ᢚژЂڢ तโ䘔ژ ᪜ᢚ ͷโ⮰ᝬᰵ 䮐ᵤᓯ᪜ᢚ 㗸ᮛ ᠑ᰵ⮰᪜ᢚ तᝬژ㜖ጝ 䘔ڱतژ तᝬ᠑ᰵ⮰᪜ᢚژ㜖ጝ 䘔ڱतژ 㣣ᓃ䯪Ꮢ ը У ౦ ጮ 图表 8-2 :大数据运用方针的示例 209 第8章  为大数据时代做好准备 大数据的冲击 Impact of Big Data 210 趋势。下面我们就来介绍几个事例。 8.2.1  罗森和雅虎 罗森和雅虎于 2011 年 6 月发表了合作声明。通过这一合作,罗森 可获得 Yahoo! JAPAN ID 用户约 2600 万人的网页浏览记录、搜索记录、 商品购买记录等数据。另一方面,雅虎则可以访问罗森所推进的积分计 划 Ponta 中约 3200 万会员的购买记录(上述会员数量都是截至 2011 年 6 月的数据)。 两家公司正在策划一种新的服务,即在征得用户同意的基础上,将 针对各用户的促销活动等各种信息推送到用户的智能手机上。 8.2.2  KDDI 和乐天 KDDI 与乐天于 2011 年 6 月发表了在电子货币方面的服务合作计 划。通过 KDDI 的费用支付系统“au 轻松支付”(au かんたん決済), 可以对乐天的电子货币 Edy 进行充值,充值的金额可以与 au 的通信费 用合并支付,在乐天市场购买商品时也可以使用“au 轻松支付”来付款, 即推进了支付平台之间的相互运用。 将来,两家公司还会考虑基于 au、Edy 两者的客户属性信息、购买 记录信息、位置信息等数据,合作开展营销活动(如优惠券发放、商品 推荐、限时特惠信息发送等)来吸引顾客。 8.2.3  COOKPAD 和 ID’s COOKPAD 是日本最大的美食菜谱网站,月用户超过 1500 万人。 ID’s 在日本全国拥有 33 家连锁超市客户,为零售连锁业提供忠诚度计 第8章  为大数据时代做好准备 211 划。这两家企业于 2011 年 12 月发表了合作计划。 两家公司对光临其合作伙伴东急 Store、西铁 Store、SUNNYMART、 Tairaya(たいらや)等全国 7 家超市连锁的“购物卡”会员,与经常使 用 COOKPAD 的 ID 会员进行关联,运用搜索和购买记录数据来开展营 销活动。具体来说,顾客用购物卡的 ID 在 COOKPAD 上登录时,就可 以查看到其在超市中购买的食材,COOKPAD 可以根据食材向顾客推荐 合适的菜谱。 对于超市方面来说,通过获取菜谱的搜索数据,也可以得到相应的 好处,如:了解顾客购买食材的目的,结合个人喜好来发放优惠券?改 善商品的陈列等。   8.3  拥有原创数据的优势 在 刚 才 介 绍 的 第 3 个 案 例, 即 COOKPAD×ID’s 的 案 例 中, 两 家公司的合作不仅限于相互共享数据,还给了我们更多的启示。从 COOKPAD 身上值得学习的一点,就是其拥有其他公司所没有的原创数 据这一优势。 一直以来,COOKPAD 都在分析用户在搜索菜谱时所输入的海量搜 索日志,根据分析结果向食品厂商等企业提供“吃与看”a 服务。原因在 于搜索日志可以看成是表现消费者对食材潜在需求的宝贵市场数据。 也就是说,COOKPAD 在将自己公司所拥有的核心数据出售给其他 a  “ たべみる”是由“たべ”(吃)+“みる”(看)构成的名词。——译者注 大数据的冲击 Impact of Big Data 212 公司这一点上,已经对图表 8-2 中介绍的数据运用战略进行了实践。 使用“吃与看”服务的客户,当输入一些食材如“火锅”时,就可 以得到一些分析结果,如:经常与哪些食材(白菜、卷心菜、鳕鱼、猪 肉、鸡肉等)一起搜索,在几月份被搜索的次数最多,首都圈和关西地 区在搜索趋势上有无差异等。根据这些数据,食品厂商就可以开发新产 品,流通零售业者则可以参考消费者的习惯来组织卖场。 例如,某食品厂商的咖喱块商品企划部门,每月对与“咖喱”一起 搜索的食材进行分析,发现了最经常被搜索的食材是“肉末”。根据这 一结果,他们将咖喱块与肉末组合的菜谱印在了商品的宣传单上。 而 COOKPAD 运营着日本最大的美食菜谱网站,充分掌握了消费者 对于食材的潜在需求,在这一点上,其他公司是无法追赶的。无论是与 ID’s 的合作,还是其所提供的“吃与看”服务,都将只有 COOKPAD 才具备的原创数据的优势发挥到了最大限度。该公司的战略对其他行业 也具有很大的参考价值。   8.4  供应商企业的新商机:数据聚合商 另一方面,从 ID’s 身上我们也可以得到一些启示。实际上,ID’s 是一家与多个连锁超市有合作关系的“数据聚合商”(data aggregator)。 它和在第 3 章中介绍过的 Catalina Marketing 一样,是一家对每个超市 的顾客的购买记录进行收集汇总,并向第三方(如这里的 COOKPAD) 集中提供的中间商(图表 8-3)。 。一定的手续费,再根据实际的节电量支付给各个家庭和企业 (现金或积分等)。奖励金本身来自电力公司,需求响应聚合商从中扣除 键时刻对这些合作者发出节电的呼吁,并对配合的家庭和企业提供奖励 业节电。需求响应聚合商会事先征集一些愿意合作的家庭和企业,在关 电量时,就需要通过作为中间商的需求响应聚合商来呼吁各家庭和企 闭一些非必要设备的自动需求响应机制。然而,当电力公司需要削减用 求响应聚合商。我们在第 5 章中介绍过当用电需求达到高峰时,自动关 在其他行业中,数据聚合商也已经开始出现。例如电力行业中的需 ㈧㐋䯲᜼ੲふ ᩛЄ᰹ߍੲȟ 䕆䃛䓼㥑ੲȟ ܲ᲼ȟфࡂ喌 喋჊᫩᪜ᢚᩢ䯲ȟ ᪜ᢚ㖆ऴੲ 喋ҷ喝㵬ࢷ䃍ȟѿ㘮㗖䃍喌 ֑Ꮳȟࡧ⫃᪜ᢚ 喋ҷ喝䒒䒩ьᙋஔȟᮦ㘩᝷ᱦ喌 ѹ㒚ȟ䕋Ꮢ᪜ᢚ 喋ҷ喝ᮦ㘩⩡㶔喌 ⩔⩡᪜ᢚ 喋ҷ喝ԍ⩔ࢍ 104 ᪜ᢚ喌 䉙ΜȟᩛЄ᪜ᢚ ᣼Ӈຂߝ ᩢ䯲᪜ᢚ 㔱सᘻ⮰ദ⵬̶ ౔ᒭᓃ⊴䉥 ᣼Ӈຂߝ ᩢ䯲᪜ᢚ 㔱सᘻ⮰ദ⵬̶ ౔ᒭᓃ⊴䉥 喋ҷ喝֑Ꮳᩛᠭȟ⫪⫱䶰䭞ᩛᠭ喌 तژ֑Ꮳԍᖛ᰹ߍ 喋ҷ喝ᠵ䛻Є䉥ಷ䒒䮕喌 तژ↩䒒ԉ䮕 喋ҷ喝⩔⩡䰬Ⅾ䶰≷喌 तژ⩡߇ 喋ҷ喝჆ऽᎫॶȟфᘌݤ喌 तژᎫॶȟ㥑䨬 ⊴䉥㔱 ᪜ᢚᏀ⩔㏻㥑㔱 图表 8-3 :数据聚合商所扮演的角色 们提供了极大的便利。 看,数据聚合商可以帮助他们免去与消费者进行单独交涉的麻烦,为他 从需要利用大量数据的第三方(比如这里的 COOKPAD)的角度来 213 第8章  为大数据时代做好准备 大数据的冲击 Impact of Big Data 214 再介绍一个例子。我们在第 5 章介绍过根据被保险人驾驶习惯对 保费提供相应折扣的 Pay as You Drive 汽车保险。这种保险计划的关 键在于对驾驶习惯这一数据的收集。在越来越多的保险公司开始考虑 推出这种保险计划的时候,数据聚合商也已经出现了,美国 Crimson Informatics 公司就是其中的代表。当保险公司准备将 Pay as You Drive 保险作为新服务提供给客户时,数据聚合商就扮演了代替保险公司进行 设备发放、数据收集和分析等工作的角色。 在 Web 上,数据的收集相对容易,因此,对于拥有一定技术能力 的企业来说,对数据的收集、分析,以及根据分析结果进行优化等工 作,大多都能够由自己公司来完成。相对来说,尽管所扮演的角色有一 定差异,但在数据收集比较困难的线下业务中,数据聚合商的存在意义 就显得更大。尤其是在数据收集的对象是个人,以及不存在一家企业独 占大部分数据份额的情况下,就更能体现数据聚合商的意义。 一家数据聚合商的优劣,在于其对所在领域的数据能够深入到何种 程度。在同一个领域能够存活的数据聚合商也就是两三家。特别是当从 其他行业参与进来的第三方成为数据聚合商的情况下,尽快发现数据的 价值,并比对手更早开始收集数据的企业,胜出的可能性更大。   8.5  谁能成为数据聚合商 虽然谁都有可能成为数据聚合商,但从事作为数据入口的数据收集 设备开发和运用的企业,则更有可能近水楼台先得月。 不知道大家有没有听说过 Carrier IQ 这个软件,它能够对智能手机 第8章  为大数据时代做好准备 215 用户的详细操作数据(使用了哪些应用、位置信息、键盘输入信息、相 机和音乐播放器的工作情况等)进行记录,并发送给移动运营商和手机 厂商。由于这个软件是在未经用户同意的情况下,由移动运营商预装在 智能手机中的,因此在美国引起了轩然大波。 虽然这只是一个极端的例子,但毋庸置疑的是,靠近数据入口位置 的经营者在竞争中处于有利的地位。当然,对数据进行收集和运用必须 征得数据拥有者的许可,这是一个大前提,且越是对个人来说敏感的数 据,以及越是对企业来说有价值的数据,就越难以获得。因此,企业是 否拥有良好的社会信誉,是否能够提供让数据拥有者感觉“可以把数据 交给你”的附加价值和奖励机制,就成了竞争中的重要条件。 从这个角度来看,通信运营商应该说具有天然的优势地位。有很多 用户只是将智能手机作为一种通话的工具来使用。从大数据的角度来 看,用户经常随身携带一个具备通信功能的传感设备,这一点是非常重 要的。也就是说,不仅是 GPS、加速度传感器所产生的位置、速度信 息,生活日志类的数据大部分也是通过智能手机来输入的。 例如,NTT Docomo 于 2011 年 12 月与从事健康管理服务的欧姆龙 健康医疗(Omron Healthcare)进行合作,宣布计划于 2012 年 6 月共 同成立一个新公司 a。通过这一合作,两家公司将欧姆龙的健康医疗设 备(血压计、体重体脂肪计、计步器等)与 Docomo 的智能手机进行关 联,构筑一个能够对体重、血压等健康医疗数据进行轻松存储和管理的 环境,并通过与健康 · 医疗的相关企业进行合作,提供健康和医疗支持 服务。 a 该新公司名为 Docomo Healthcare,实际成立日期为 2012 年 7 月 2 日。——译者注 大数据的冲击 Impact of Big Data 216 NTT Docomo 目前正在运营一个手机健康支持服务 iBodymo。该服 务可通过自动记录步数的计步器记录慢跑的距离、时间、步幅等数据。 通过与欧姆龙健康医疗的合作,这一服务可以得到扩展,实现包括体 重、血压等测量数据的管理和分析,还可以通过与健康医疗管理机构的 合作,提供多种多样的健康支持服务和疾病预防支持服务。 对于 NTT Docomo 来说,这次合作仅仅是其众多合作业务中的一 例。如果我们将手机看做是数据的入口,那么控制这一入口的通信运营 商可以说是拥有近乎无限可能性。   8.6  在美国备受瞩目的支付服务商向数据聚合商的演化 和日本相比,在美国用信用卡支付是一个非常普遍的现象,因此拥 有顾客各种购买记录的支付服务商正逐渐化身为数据聚合商。想想看, 像 VISA、美国运通(American Express)等信用卡结算机构(国际品 牌),对于各自信用卡用户刷卡支付的记录,即什么时候、在哪家商店、 购买了什么商品这样的数据,都可以做到实时掌握。而且,从超市到服 装店、加油站,只要是可以使用信用卡的地方,无论在世界任何一家商 店中的购买记录,都可以一手掌握。 8.6.1  VISA 美国 VISA 正发挥这一优势,开始提供一项新的服务。即在交易完 成时,将合作企业发行的优惠券,按照事先指定的条件,发送到经过主 动许可的顾客手机上。例如,顾客在某个加油站加油,并用 VISA 信用 卡完成支付,就会收到距离最近的咖啡厅的优惠券。 第8章  为大数据时代做好准备 217 VISA 会对事先征得同意的顾客保存其购买记录(最长 13 个月), 并分析其购买倾向。例如,在哪个地区购物最多、购物时间段是几点、 更倾向于在哪个商店购买哪些商品等。 合作企业可以根据 VISA 的分析结果,对优惠券的发放条件进行细 致的设定,如发生支付的商店邮政编码、购买的商品、特定日期和时间 段、顾客的档案等。 现在,美国最大的服装零售店 Gap 正在使用这项服务。以邮政编码 为索引,当顾客在 Gap 门店附近的商店(如咖啡厅)用信用卡进行消费 的瞬间,手机马上就可以收到可以在附近 Gap 门店使用的优惠券。发送 优惠券的对象,仅限于注册了 Gap 所提供的 Gap Mobile 4U 服务计划且 事先征得同意的会员(图表 8-4)。 图表 8-4 :VISA与 Gap 合作的 Gap Mobile 4U Გ⎽喟7*4" 大数据的冲击 Impact of Big Data 218 8.6.2  PayPal PayPal 虽然不是一家结算服务机构,但却是一个很大的在线支付平 台,在积极进军实体店的同时,他们也开始收集购买记录,逐步走上数 据聚合商的道路。 在实体店中用于信用卡和借记卡支付的终端设备上,增加一个 PayPal 支付按钮,消费者将自己的手机号码和验证码输入终端即可完成 交易。 零售店也可以从这一合作中得到好处,例如在事先征得顾客许可的 情况下,可以利用 PayPal 所拥有的包括在线购买记录在内的顾客信息 来进行营销活动。 8.6.3  美国运通 和利用会员购买记录的 VISA、PayPal 在概念上有所不同,美国运 通则是利用 Facebook 上一个叫做 Link, Like, Love 的活动数据开展了一 项很有意思的服务,在这里向大家介绍一下。 这一服务是通过让运通卡会员将信用卡号与自己的 Facebook 账号 进行绑定,从而可根据会员在 Facebook 上的活动(如对哪些企业主页 点击了“赞!”等)提供各种相应的优惠信息。 具体来说,通过分析会员的活动,可以从参加这一计划的企业 (H&M、Virgin America、Outback Steakhouse、Dunkin’ Donuts、联想、 喜来登酒店等)的优惠信息中,选择会员最感兴趣的商家优惠(如购物 时可使用的 9 折券等)进行推荐。用户则可以选择想要使用的优惠券, 在购物时使用运通卡来进行支付就可以了。 第8章  为大数据时代做好准备 219 这项服务的特别之处在于,优惠券是直接充值到信用卡中的,而不 需要打印出来,也不需要事先购买折扣券,只要在支付时使用运通卡, 就会自动应用折扣。从用户角度来看,相当于是用自己的兴趣爱好等相 关数据,从美国运通换取购物折扣等消费优惠。 说起大数据相关的商机,大家往往会想到海量存储、数据仓库、 Hadoop、商业智能工具等硬件、软件销售业务,或者数据分析委托等 外包业务。而从以上事例可以看出,数据聚合业务在大数据时代也展现 出了相当大的商机。   8.7  数据整合之妙:将原创数据变为增值数据 无论是与其他公司结成联盟,还是利用数据聚合商,如果自己的公 司拥有原创数据的话,接下来就可以通过与其他公司的数据进行整合, 来催生出新的附加价值,从而升华成为增值数据(premium data)。这样 能够产生相乘的放大效果,这也是大数据运用的真正价值之一。 将实际购买的食材数据和菜谱数据相结合,前面讲过的 ID’s(超市) 与 COOKPAD 的合作就是一个很好的例子。 此外,第 3 章中介绍过的 Catalina Marketing,通过与提供电视等媒 体收视率和互联网收视率的美国尼尔森公司结成战略联盟,就可以对哪 个广告带来了实际顾客的购买行为,即广告效果进行评测。这也可以说 是数据整合产生新附加价值的一个很好的例子。 大数据的冲击 Impact of Big Data 220 选择什么公司的数据与自己公司的原创数据整合,这需要想象力。 在自己公司内部认为已经没什么用的数据,对于其他公司来说,很可能 就是求之不得的宝贝。 例如,耐克提供了一款面向 iPhone 的慢跑应用 Nike+GPS。它可以 通过使用 GPS 在地图上记录跑步的路线,将这些数据匿名化并进行统 计,就可以找出跑步者最喜欢的路线。在体育用品店看来,这样的数据 在讨论门店选址计划上是非常有效的。此外,在考虑具备淋浴、储物柜 功能的收费休息区以及自动售货机的设置地点、售货品种时,这样的数 据也是非常有用的。 对于拥有原创数据的企业和数据聚合商来说,不应该将目光局限在 自己的行业中,而应该以更加开阔的视野来制定数据运用的战略。   8.8  日益抢手的数据科学家 自己的公司业务所产生的数据,再加上政府公开的统计数据,还有 与数据聚合商等其他公司结成的战略联盟等,通过这些手段就可以获得 业务上所需的数据了。 从技术方面来看,硬盘价格下降,NoSQL 数据库等技术的出现, 使得和过去相比,大量数据能够以廉价高效的方式进行存储。此外, 像 Hadoop 这样能够在通用性服务器上工作的分布式处理技术的出现, 也使得对庞大的非结构化数据进行统计处理的工作比以往更快速且更 廉价。 第8章  为大数据时代做好准备 221 然而,就算所拥有的工具再完美,工具本身是不可能让数据产生价 值的。接下来我们还需要能够运用这些工具的人才,他们能够从堆积如 山的大量数据中找到金矿,并将数据的价值以易懂的形式传达给决策 者,最终得以在业务上实现。具备这些技能的人才,就是在大数据浪潮 如火如荼的美国目前正千金难求的数据科学家。 对数据科学家的关注,源于大家逐步认识到,Google、Amazon、 Facebook 等公司成功的背后,存在着这样的一批专业人才。这些互联 网公司对于大量数据不是仅进行存储而已,而是将其变为有价值的金 矿——例如,搜索结果、定向广告、准确的商品推荐、可能认识的好友 列表等。 数据科学(data science)是一个很久之前就存在的词汇,但数据 科学家(data scientist)却是几年前突然出现的一个新词。关于这个词 的起源说法不一,其中在《数据之美》(Beautiful Data,Toby Segaran、 Jeff Hammerbacher 编著,O’Reilly 出版 a)一书中,对于 Facebook 的数 据科学家,有如下叙述: “在 Facebook,我们发现传统的头衔如商业分析师、统计学家、工 程师和研究科学家都不能确切地定义我们团队的角色。该角色的工作是 变化多样的:在任意给定的一天,团队的一个成员可以用 Python 实现一 个多阶段的处理管道流、设计假设检验、用工具 R 在数据样本上执行回 归测试、在 Hadoop 上为数据密集型产品或服务设计和实现算法,或者 把我们分析的结果以清晰简洁的方式展示给企业的其他成员。为了掌握 完成这多方面任务需要的技术,我们创造了‘数据科学家’这种角色。” a 中文版已由机械工业出版社出版,祝洪凯、李妹芳、段炼译。下一段即引自该书。     ——译者注 大数据的冲击 Impact of Big Data 222 仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一 眨眼的工夫,这个职业就已经被誉为“今后 10 年 IT 行业最重要的人 才”了。 Google 首席经济学家、加州大学伯克利分校教授哈尔·范里安(Hal Varian,1947— )先生,在 2008 年 10 月与麦肯锡总监 James Manyika 先生的对话中,曾经讲过下面一段话(中文版节选自麦肯锡季刊官方中 文稿)a。 “我总是说,在未来 10 年里,最有意思的工作将是统计学家。人们 都认为我在开玩笑。但是,过去谁能想到电脑工程师会成为 20 世纪 90 年代最有趣的工作?在未来 10 年里,获取数据——以便能理解它、处 理它、从中提取价值、使其形象化、传送它——的能力将成为一种极其 重要的技能,不仅在专业层面上是这样,而且在教育层面(包括对中小 学生、高中生和大学生的教育)也是如此。由于如今我们已真正拥有实 质上免费的和无所不在的数据,因此,与此互补的稀缺要素是理解这些 数据并从中提取价值的能力。” 范里安教授在当初的对话中使用的是 statisticians(统计学家)一词, 虽然当时他没有使用数据科学家这个词,但这里所指的,正是现在我们 所讨论的数据科学家。 a http://china.mckinseyquarterly.com/Hal_Varian_on_how_the_Web_challenges_ managers_2286。——译者注 第8章  为大数据时代做好准备 223   8.9  数据科学家所需的技能 数据科学家这一职业并没有固定的定义,但大体上指的是这样的人才: “所谓数据科学家,是指运用统计分析、机器学习、分布式处理等 技术,从大量数据中提取出对业务有意义的信息,以易懂的形式传达给 决策者,并创造出新的数据运用服务的人才。” 数据科学家所需的技能如下。 (1) 计算机科学 一般来说,数据科学家大多要求具备编程、计算机科学相关的专业 背景。简单来说,就是对处理大数据所必需的 Hadoop、Mahout 等大规 模并行处理技术与机器学习相关的技能。 (2) 数学、统计、数据挖掘等 除了数学、统计方面的素养之外,还需要具备使用 SPSS、SAS 等 主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运 行环境 R 最近备受瞩目。R 的强项不仅在于其包含了丰富的统计分析 库,而且具备将结果进行可视化的高品质图表生成功能,并可以通过简 单的命令来运行。此外,它还具备称为 CRAN(The Comprehensive R Archive Network)的包扩展机制,通过导入扩展包就可以使用标准状态 下所不支持的函数和数据集。 (3) 数据可视化(Visualization) 信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数 大数据的冲击 Impact of Big Data 224 据中所包含的意义进行分析,开发 Web 原型,使用外部 API 将图表、 地图、Dashboard 等其他服务统一起来,从而使分析结果可视化,这是 对于数据科学家来说十分重要的技能之一。 将数据与设计相结合,让晦涩难懂的信息以易懂的形式进行图形化 展现的信息图(Infographics)最近正受到越来越多的关注,这也是数据 可视化的手法之一(图表 8-5)。 作为参考,下面节选了 Facebook 和 Twitter 的数据科学家招聘启事。 对于现实中的企业需要怎样的技能,这则启事应该可以为大家提供一些 更实际的体会。 图表 8-5 :信息图的示例 Გ⎽喟IUUQGMPXJOHEBUBDPNNPTUQPQVMBS JOGPHSBQIJDTHFOFSBMJ[FE 第8章  为大数据时代做好准备 225 Facebook 招聘数据科学家 Facebook 计划为数据科学团队招聘数据科学家。应聘该岗位的 人,将担任软件工程师、量化研究员的工作。理想的候选人应对在 线社交网络的研究有浓厚兴趣,能够找出创造最佳产品过程中所遇 到的课题,并对解决这些课题拥有热情。 职务内容 · 确定重要的产品课题,并与产品工程团队密切合作寻求解决 方案 · 通过对数据运用合适的统计技术来解决课题 · 将结论传达给产品经理和工程师 · 推进新数据的收集以及对现有数据源的改良 · 对产品的实验结果进行分析和解读 · 找到测量、实验的最佳实践方法,传达给产品工程团队 必要条件 · 相关技术领域的硕士或博士学位,或者具备 4 年以上相关工 作经验 · 对使用定量手段解决分析性课题拥有丰富的经验 · 能够轻松操作和分析来自各方的、复杂且大量的多维数据 · 对实证性研究以及解决数据相关的难题拥有极大的热情 · 能对各种精度级别的结果采用灵活的分析手段 · 具备以实际、准确且可行的方法传达复杂定量分析的能力 · 至少熟练掌握一种脚本语言,如 Python、PHP 等 大数据的冲击 Impact of Big Data 226 · 精通关系型数据库和 SQL · 对 R、MATLAB、SAS 等分析工具具备专业知识 · 具备处理大量数据集的经验,以及使用MapReduce、 Hadoop、Hive 等分布式计算工具的经验 来源:Facebook Twitter 招聘数据科学家(负责增加用户数量) 关于业务内容 Twitter 计划招聘能够为增加 Twitter 用户数提供信息和方向、 具备行动力和高超技能的人才。应聘者需要具备统计和建模方面的 专业背景,以及大规模数据集处理方面的丰富经验。 我们期待应聘者所具有的判断力能够在多个层面上决定 Twitter 产品群的方向。 职责 · 使用 Hadoop、Pig 编写 MapReduce 格式的数据分析 · 能够针对临时数据挖掘流程和标准数据挖掘流程编写复杂的 SQL 查询 · 能够使用 SQL、Pig、脚本语言、统计软件包编写代码 · 以口头及书面形式对分析结果进行总结并做出报告 · 每天对数 TB 规模、10 亿条以上事务级别的大规模结构化及 非结构化数据进行处理 第8章  为大数据时代做好准备 227 必要条件 · 计算机科学、数学、统计学的硕士学位或者同等的经验 · 2 年以上数据分析经验 · 大规模数据集及 Hadoop 等 MapReduce 架构方面的经验 · 脚本语言及正则表达式等方面的经验 · 对离散数学、统计、概率方面感兴趣 · 将业务需求映射到工程系统方面的经验 来源:Twitter   8.10  数据科学家所需的素质 这一节的内容与技能部分有所重叠,数据科学家所需要具备的素质 有以下这些。 (1) 沟通能力 即便从大数据中得到了有用的信息,但如果无法将其在业务上实现 的话,其价值就会大打折扣。为此,面对缺乏数据分析知识的业务部门 员工以及经营管理层,将数据分析的结果有效传达给他们的能力是非常 重要的。 (2) 创业精神(entrepreneuership) 以世界上尚不存在的数据为中心创造新型服务的创业精神,也是数 大数据的冲击 Impact of Big Data 228 据科学家所必需的一个重要素质。Google、Amazon、Facebook 等通过 数据催生出新型服务的企业,都是通过对庞大的数据到底能创造出怎样 的服务进行艰苦的探索才获得成功的。 (3) 好奇心 庞大的数据背后到底隐藏着什么,要找出答案需要很强的好奇心。 除此之外,成功的数据科学家都有一个共同点,即并非局限于艺术、技 术、医疗、自然科学等特定领域,而是对各个领域都拥有旺盛的好奇 心。通过对不同领域数据的整合和分析,就有可能发现以前从未发现过 的有价值的观点。 美国的数据科学家大多拥有丰富的从业经历,如实验物理学家、计 算机化学家、海洋学家,甚至是神经外科医生等。也许有人认为这是人 才流动性高的美国所特有的现象,但其实正如我们在第 4 章中所介绍的 GREE 一样,在日本也出现了一些积极招募不同职业背景人才的企业, 这样的局面距离我们已经不再遥远。   8.11  严重的人才匮乏 数据科学家需要具备广泛的技能和素质,因此预计这一职位将会 陷入供不应求的状态,即遇到人手不足的困境。例如,麦肯锡全球研 究院(MGI)在 2011 年 5 月发表的题为“Big data: The next frontier for innovation, competition and productivity”(大数据:未来创新、竞争、生 产力的指向标)的报告中指出,在美国具备高度分析技能的人才(大 学及研究生院中学习统计和机器学习专业的学生)供给量,2008 年为 第8章  为大数据时代做好准备 229 15 万人,预计到 2018 年将翻一番,达到 30 万人。然而,预计届时对 这类人才的需求将超过供给,达到 44 万~ 49 万人的规模,这意味着将 产生 14 万~ 19 万的人才缺口。 仅仅四五年前,对数据科学家的需求还仅限于 Google、Amazon 等 互联网企业中。然而在最近,重视数据分析的企业,无论是哪个行业, 都在积极招募数据科学家,这也令人手不足的状况雪上加霜。 大型 IT 厂商 EMC 在 2011 年 12 月发表的一份关于数据科学家的调 查报告“EMC Data Science Study”中提出了一些非常有意思的见解。 该调查的对象包括美国、英国、法国、德国、印度、中国的数据科 学家,以及商业智能专家等 IT 部门的决策者,共计 462 人。除此之外, EMC 还从 2011 年 5 月在拉斯维加斯召开的“数据科学家峰会”的参加 者,以及在线数据科学家社区 Kaggle 中邀请了 35 人参加这项调查。该 调查结果的要点如下。 首先,三分之二的参加者认为数据科学家供不应求。这一点与前面 提到的麦肯锡的报告是相同的。 对于新的数据科学家供给来源,有三分之一的人期待“计算机科学 专业的学生”,排名第一,而另一方面,期待现有商业智能专家的却只 有 12%,这一结果比较出人意料(图表 8-6)。也就是说,大部分人认为, 现在的商业智能专家无法满足对数据科学家的需求。 数据科学家与商业智能专家之间的区别在于,从包括公司外部数据 在内的数据获取阶段,一直到基于数据最终产生业务上的决策,数据科 学家大多会深入数据的整个生命周期。这一过程中也包括对数据的过 BCPVUOFXTFNDEBUBTDJFODFTUVEZXQQEG Გ⎽喟&.$Ą%BUB4DJFODF4UVEZąIUUQXXXFNDDPNDPMMBUFSBM  Ђ喝ڢ 㘩̿ტ喝 ⣜౔⮰ੲ͆ᮦ โ䶲ഋ⮰̿ტ喝 *5ȟ䃍ッᱦ⻽႒Б ̿͆⮰႒⩋喝 䃍ッᱦ⻽႒Бโ ⮰႒⩋喝 䃍ッᱦ⻽႒̿͆ 图表 8-6 :数据科学家人才新的供给来源 (图表 8-9)。 商业智能专家相比,数据科学家中拥有硕士和博士学位的人数也比较多 等专业,而商业智能专家则大多学习商业专业(图表 8-8)。而且,和 调查结果。数据科学家在大学大多学习计算机科学、工程学、自然科学 关于数据科学家与商业智能专家的专业背景,也有一些很有意思的 滤、系统化、可视化等工作(图表 8-7)。 230 of Big Data 大数据的冲击 Impact UIFOFXSPDLTUBSUIFFNDEBUBTDJFODFTVSWFZIUNM Გ⎽喟IUUQDIVDLTCMPHFNDDPNDIVDLT@CMPHVOEFSTUBOEJOH ᪜ᢚ⻽႒ტ ੲ͆ᮦ㘩̿ტ Ђڢ ⻽႒ 㐋䃍 ⹪ц ᖛ㈧㐋 ネ⤲ԍ ⻽႒ ੲ͆ ᪜႒ Ϧ᪳ ⻽႒ ጑⼷႒ 㜖♢ ⻽႒ 䃍ッᱦ 㜖♢⻽႒ȟ጑⼷႒ふ̿͆ #* ̿ტ๓ๆ႒Όੲ͆̿͆喏㔸᪜ᢚ⻽႒ტ݅๓ๆ႒Ό䃍ッᱦ⻽႒ȟ                   图表 8-8 :商业智能专家与数据科学家在大学专业上的对比 OFXSPDLTUBSUIFFNDEBUBTDJFODFTVSWFZIUNM Გ⎽喟IUUQDIVDLTCMPHFNDDPNDIVDLT@CMPHVOEFSTUBOEJOHUIF ᪜ᢚ⻽႒ტ ੲ͆ᮦ㘩̿ტ ദκ᪜ᢚ䔇㵸͆ߍ۟も ᄥ᪜ᢚ䔇㵸ߔᔭะ⤲ ⩔ᩱηᲑ᣻䔜᪜ᢚ Бछ㻲ࡂ᫥ᐻ㶔⣜᪜ᢚ 䔇⮰ッ∁ٴ⩔ͦ㼏۟ܲ᲼䄪䷄䓼 ͦᄧឪὍᐻ䔇㵸᪜ᢚᡂᣄ ᪜ᢚ⮰䓳␐̺㈧㐋ࡂ ᪜ᢚ䯲⮰ܲ᲼ ᫜᪜ᢚ䯲⮰㣣ं               图表 8-7 :数据科学家参与了数据的整个生命周期 231 第8章  为大数据时代做好准备 大数据的冲击 Impact of Big Data 232 图表 8-9 :商业智能专家与数据科学家在学位上的对比             ᪜ᢚ⻽႒ტ͙ᰵ  ᠑ᰵⶁทᝂࢆท႒ѹ喏Ⱔ℀ͷ̷喏 ੲ͆ᮦ㘩̿ტ͙䔅̬℀ҷͦ Ƞ 倄͙ 㕸͆႒ᵍ ๓႒喋᱖ ंᓃ႒ѹ喌 ๓႒ 喋᱘⻽喌 ⶁท ࢆท ᪜ᢚ⻽႒ტ ੲ͆ᮦ㘩̿ტ Გ⎽喟IUUQDIVDLTCMPHFNDDPNDIVDLT@CMPHVOEFSTUBOEJOHUIF OFXSPDLTUBSUIFFNDEBUBTDJFODFTVSWFZIUNM   8.12  研究生院的成立 随着对大数据分析需求的高涨,未来必将带来数据科学家的严重不 足,为了解决这一问题,美国一些大学已经开始成立分析学专业的研究 生院。 位于伊利诺伊州芝加哥郊外埃文斯顿市的美国名牌私立大学—— 西北大学(Northwestern University),就是其中之一。西北大学决定从 2012 年 9 月起在其工程学院下成立一个主攻大数据分析课程的分析学 研究生院,并开始了招生工作。西北大学对于成立该研究生院是这样解 释的:“虽然只要具备一些 Hadoop 和 Cassandra 的基本知识就很容易找 到工作,但拥有深入知识的人才却是十分缺乏的。”
还剩108页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 8 金币 [ 分享pdf获得金币 ] 4 人已下载

下载pdf

pdf贡献者

benney

贡献于2015-01-28

下载需要 8 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf