那些年,曾经被我们误读的大数据

jopen 9年前

那些年,曾经被我们误读的大数据

        如今,业界和学术界一直在讨论一个词,那就是大数据。不管是学术圈还是 IT 圈,只要能谈论点儿大数据就显得很高大上。 然而,大数据挖掘、大数据分析、大数据营销等等事情仅仅只是个开始,对大多数公司来说,大数据仍有很强的神秘色彩。于是,在我们还没有完全搞明白如何运用 大数据进行挖掘时,各种过于神化大数据的舆论就已经不绝于耳了。当然,也有很多人直接批判大数据或大数据营销给我们造成的隐私威胁。也有很多人根本没有搞 清楚什么是大数据,到底有什么价值。

        于是,站在客观的角度,围绕下面几个问题与大家分享有关大数据的几个观点,也扒扒大数据的那些事儿:

  1. 大数据营销和个人隐私泄露究竟有无因果和逻辑关系?
  2. 大数据营销到底能带给企业什么样的价值?到底能带给用户什么价值?用户是否全盘否定或反感大数据营销?
  3. 如何正确看待大数据?如何看待大数据和传统调查方法或统计学的关系?
  4. 大数据营销究竟面临什么样的挑战?

        一、大数据的迅猛发展与数据隐私的忧虑相伴而生

        社交媒体的出现,让用户数据的分享数量达到了难以估量的程度。而如今,社交媒体的种类有增无减,智能手机的更大普及,又让更多用户转移到移动互 联网,从而又进一步贡献更多数据和内容。这样的数据增量让全球社交媒体的收入大涨,仅根据咨询公司 Gartner2012 年的研究结果显示,2012 年全球社交媒体收入估计达到 169 亿美元。

        一边是社交媒体因为大数据的盆钵满载,另一方面则是用户不断毫无保留的将个人信息交给互联网,这些信息包括年龄、性别、地域、生活状态、态度、 行踪、兴趣爱好、消费行为、健康状况甚至是性取向等。一时间,针对海量用户信息的大数据挖掘、大数据分析、大数据精准营销、广告精准投放等等迅速被各大公 司提上日程。

        比如,一个发生在美国的真实故事就会告诉我们,利用数据挖掘如何掌握我们的行踪。一个美国家庭收到了一家商场投送的关于孕妇用品的促销劵,促销 劵很明显是给给家中那位 16 岁女孩的。女孩的父亲很生气,并找商场讨说法。但几天后,这位父亲发现,16 岁的女儿真怀孕了。而商场之所以未卜先知,正是通过若干商品的大量消费数据来预估顾客的怀孕情况。

        类似的大数据挖掘和营销事件在今天更多的发生,尤其是社交媒体产生大量数据后。于是,许多人对个人隐私数据开始担忧,开始批判大数据精准营销侵犯了个人隐私,忧虑我们进入了大数据失控的时代,并将原因更多归结于社交媒体。

        二、大数据营销和个人隐私泄露之间不能完全划等号!逻辑关系不成立! 

        如果客观的分析一下上述问题就会发现,这是一个难以分说的鸡生蛋还是蛋生鸡的问题。一味地批判大数据分析对个人用户数据的泄露或滥用是不客观的。

        因为,社交媒体的本质在于分享和传播,社交媒体的出现的确满足了人们分享个人信息、晒各种数据的欲望,让人们在过去无声无息的生活中突然转移到 了可以让全世界看到自己的平台上来。人们从而达到了内心的满足感和存在感。因此,单从个体的背后心理来考虑,社交媒体对他们来说是有益的,他们不认为自己 贡献的是不可告人的秘密,既然分享出来,那一定是希望或允许别人看到的。因此,这是一种无形的默许的交易,用户乐意把自己的各种琐碎细节暴露于社交媒体, 而对社交媒体上杂乱无章的海量用户数据进行有序的分类和分析也没有什么不妥。

        当然,如果社交媒体平台随意滥用或泄露用户的后台数据,比如个人联系方式、家庭住址、银行等极为隐秘的信息,这的确是赤裸的侵犯隐私的行为,极其没有道德,必须要受到谴责和法律制裁。

        但目前,许多大数据精准营销的前提是对用户在互联网上留下的公开显在的信息进行算法归类和内容分析,从而对海量用户进行人群划分,或者对小众群体进一步细分化,甚至达到某种程度上针对单个人的个性化定制,最终达到精准推送广告或有针对性推出营销活动的目的。

        所以,从这个角度来看,大数据精准营销与个人主动分享和传播到网络上的信息数据之间并没有矛盾。人们起初或许会惊讶:为什么他们知道我想买什 么?为什么他们知道我的需求?但随着“猜透心思”的推送行为让人们的生活越来越便利时,比如省去大量搜索、查找和对比产品或服务的时间,他们可能会十分习 惯并依赖这种精准性,并不会在意他们本来就随意分享到网络上的杂乱信息被如何挖掘和利用。

        因此,用户发布和分享的信息是否为隐私,在用户分享信息之前就做过慎重考量和筛选。这一点非常重要,这是侵犯隐私与否的界限。那些被用户选择为 不适合发布或不希望别人知道的信息就是用户认为的隐私,而那些已经公开发布到社交媒体或网络上的信息则被用户认为是可以传播的。

        所以,普通的对海量公开信息的分析、挖掘、归类,从而进行精准营销的大数据行为不能一味被骂成是对用户利益的损害。而那些对用户存储在某些位 置、不希望被他人了解的信息(私人存储的信息)如果被别有用心的人泄露或利用,那这就是隐私侵犯行为。但这就不能归罪于大数据,而应质问存贮平台的安全性 问题。

        因此,我们不能过分解读大数据精准营销。其实,问题的本质在于,人们是否真的在意杂乱信息的去向(涉及到分享信息的背后心理和动机)?以及大数 据营销是否真的触碰了人们不可告人的秘密或底线(需要对秘密和底线重新定义)?因为,如果人们默认分享的都是公开的,那么侵犯隐私的概念就是不成立的。如 果人们有不希望别人知道的信息,也不会贸然在网络上分享和传播。

        三、大数据营销究竟会给企业和用户带来什么价值? 

        讨论完上面的问题之后,我们是否应该诚恳对待大数据精准营销这件事?那么大数据营销究竟对于企业和用户两方面来说,都有什么样的价值?

        1、对于企业的价值

        让我们先看一个国外案例:

        我们都知道美剧《纸牌屋》,提到《纸牌屋》的成功,最大的功劳便是大数据分析。因此,《纸牌屋》几乎成了大数据营销的经典案例,也是美国 Netflix 公司基于用户信息挖掘来决定内容生产的成功尝试。

        Netflix 的订阅用户达到了 3000 万左右,而大多数用户的观影都与精准推荐系统有关。Netflix 会定时收集并分析用户观看电影或电视剧的行为,比如根据用户对电影的评分、用户的分享行为、用户的观影记录等信息去分析用户的收看习惯,从而推断用户喜欢 什么样的影视剧,喜欢什么样的风格,喜欢什么样的导演和演员。在此基础上利用算法对用户感兴趣的视频进行推荐排序,直到用户找到最喜欢的影视剧。《纸牌 屋》的导演和主演就是 Netflix 挖掘用户信息后的预测出来的。

        那我们再看一个国内案例

        我们都知道阿里巴巴和新浪微博合作的事情,阿里巴巴斥资 5.86 亿入股新浪微博。除了网络上各大媒体分析的,认为阿里巴巴希望打造生态圈、强化流量入口、挑战腾讯等等原因之外,还有一个重要原因或许就是大数据营销的战略。

        如今各大互联网大佬都在跑马圈地,圈住用户,谁能圈住用户,让用户在其平台上活跃,谁就掌握了用户的大量信息(包括显在的前台信息和隐藏的后台 信息)。新浪微博在中国有几亿用户,这个量十分庞大,但如果新浪不能把这些用户产生的信息合理的利用,那么这些资源就是巨大的浪费。我们再看阿里巴巴,中 国最大电商平台,它有产品,但是却没有完整的用户日常生活行为信息,只有购买信息,但这些购买信息不足以了解人群特点和喜好。所以,只有跟新浪微博合作, 掌握大量用户的行为信息,从而对其分类,找到不同人群甚至不同个体的喜好、偏好、兴趣、爱好、习惯、传播习惯、分享路径等等,那么就能实现精准营销,甚至 还可以通过不同用户的信息传播规律,而制定产品的最佳品牌传播途径。这是一座巨大的金矿。

        新浪微博和阿里巴巴合作后,微博上出现了一些产品推荐信息,同时新浪微博已经推出支付功能。可以想象:未来你在微博上看到相关推荐的产品,恰好 是你喜欢的产品,那么你就可以直接在微博上实现支付和购买。从而新浪微博和阿里巴巴各取所需,共享收益。当然,这是我个人的观察和分析,不过阿里巴巴的大 数据战略也很明显了。

        2、对于用户的价值

        上述两个例子说的都是大数据带给企业的价值,那么,大数据营销对于用户来说,到底有没有价值?用户是否十分反感精准营销?让我们再来看看一个新的调查数据:

        中国传媒大学国家广告研究院刚刚发布一份《2014 中美移动互联网发展报告》,这份调查报告对比了中美两国用户移动互联网的使用习惯,以及移动用户对于移动广告的态度。

        调查显示,最可能得到智能终端用户回应的广告内容为:(1)与用户要购买物品相关的广告(2)与要购买物品相关的优惠券(3)搞笑的广告(4) 与用户最喜爱品牌相关的广告(5)与用户在线上访问过网站或使用过的应用相关的广告(6)与最近线上购物相关的广告(7)与用户所在场所相关的广告(8) 与最近收听、收看的广播/电视相关的广告。(占比>=20%)

        从这些数据我们可以看出,在 8 个结果中,有 6 个都是跟大数据精准营销扯上关系的。比如,与用户要购买物品相关的广告,更能引起用户的回应或互动。如何理解?大数据营销的前提就是计算并推测用户的真实 需求,看用户需要购买什么相关产品,然后给用户直接推送用户想要的、喜欢的,做到了精准到达。那么用户呢?用户乐意对这样的推动广告或产品做出回应,因为 这些广告少了对用户的打扰,并且让用户费劲心思对对比或货比三家后才购买的决策过程降低,节省了时间,让用户直接找到内心真正所需的产品或服务。

        所以,这样的结果就表明,大数据精准营销并不是完全都会让用户反感,而是看你猜透用户心思的程度。因此,如果你推送的内容和用户想要购买的物品相关,与用户最喜爱的品牌相关等等。那么这种精准挖掘并不会受到用户的反感,反而会给用户带来便利。

        四、不要过分迷信大数据;大数据的实质究竟是什么?

        看了上面的分析,或许你会认为大数据分析真是无所不能。但是,我们不能过分迷信大数据,于是接下来的问题就产生了。

        1、大数据分析和传统统计学方法有什么样的关系?

        大数据所遵从的是:以大量数据,甚至所有数据为基础,然后用算法去计算分析,从而更精准的找到各个因素之间的相关关系(不是因果关系),以发现数据之间的规律。

        那我们看看传统的统计学方法,统计分析学解决的就是如何通过选取少量的样本,通过对样本的分析,然后推断整体的趋势和规律。所以,用的是概率。 一般会规定在 90%、95% 或 98% 的置信度(精确度)下最大程度推断总体。如果目的明确,样本选取得当,操作科学,那么不需要大量数据就能分析出规律,从而推断出总体的规律,并且可以发现 不同因素之间的因果关系。比如,抽样方法确定后,就可以确定样本数量,如果抽样得当,那么样本的数量跟总体的数量之间没有太多直接关系。

        举个不恰当的例子以供理解:假设选取 1000 个样本,推断的规律是A,选取 2000 个样本,同样呈现出A规律,选取 3000 也差不多这样。那么,我们实际上科学选取 1000 多个样本就可以达到目的了。所以,传统的抽样和统计方法,在最大程度上解决了成本问题,虽然会有误差,但仍可以发现的显在规律。

        所以,从这个角度来说,大数据分析最终得到的结果很可能跟传统统计学方法分析的结果类似,只不过把原来的小样本变成了大样本分析。虽然大数据分 析理论上是更精准,也可以弥补传统误差的缺陷,但准确度未必像我们想象的那样提高非常多(因为大数据分析会严重受到数据源的影响)。另外,也不一定能发现 更多新规律。如果是这样的话,我们不禁要问,大数据究竟是为什么而存在?

        另外,在传统的统计学分析当中,比如对市场情况的分析,我们要结合实际的环境和背景来解读数据和分析数据,我们并不把数据当成唯一的和万能的指引。所以,这里面就存在人根据经验和实际情况进行数据分析的过程,而人参与分析的能力是很重要的。

        2、什么样的事情是大数据做不到的,而传统的调查分析方法却可以做到?

        大数据营销的前提是大数据分析,而大数据分析是基于算法的,是计算机固化的模式。也就是说,原来由人对数据分析的那部分工作,现在我们把它约定 到算法里了。并且,大数据精准营销是对用户产生的网络浏览数据、分享数据、搜索数据等等行为信息进行分析,从而对人群或事物进行分类,并由此推测人的偏 好、兴趣等。

        但是,偏好不等于真实需求,点击不代表一定喜欢。一个人今天在社交媒体上说:“这个产品不错”,就认为他一定喜欢或一定需要这个产品吗?

        机器可以对行为分类,但却不能真正探测到人的心理和真实需求。那么,对于人的真实心理和需求的探测,我们如何做到?这时候,传统的市场调查和分 析方法是不可取代的。比如,深度访谈法,比如焦点小组访谈法,投射法等等。这些方法都可以在最大程度上,从心理学的角度去分析和发现,人真正的欲望和本质 需求。所以,今天很多大的广告公司、营销公司,他们仍然采用这样传统的方法去了解表面数据背后的故事和原因。而这些故事和原因,是算法目前没办法做到的, 必须由人来完成。人和人的交流才能探测人的内心。

        从这个角度来说,大数据并不是万能的,也不能被一味神话,我们必须清晰的认识到它的实质,它能用来干什么,不能用来干什么。我们可以这样理解:人对数据的计算和分析工作如今可能会被机器替代,但是,人的另一部分工作(探测人内心的能力)没办法被算法替代。

        比如,前两年我曾报道过《写书都可以用算法实现自动化了,拿什么挽救出版》这样的新技术,据称目前亚马逊上大量图书都是被算法写出来的,算法会根据人写书的逻辑思路来组织语言。但是,这些书却不能弥补人类情感的缺失,不能表达出社会背景和作者所处环境带来的情感波动等等。

        五、大数据分析或大数据营销面临的真正挑战是什么?

        1、数据冗余问题,有没有必要用这么多数据?

        数据源问题,数据质量有无保障,是否是真正所需?

        大数据分析一直被人称颂的优点就是:海量数据的运用。但是,数据是不是越多越好?如何筛选这些数据?如何找到有价值和有用的数据?数据的庞大和冗余会对大数据分析造成什么样的影响?

        对于大数据而言,巨量的数据来源是分析准确性的根本保证。但是,数据量大到一定程度后也面临着很大问题:想要保证准确度就变的困难了。这样就难以保障分析结果的准确性了。大数据分析和预测失败的例子也有很多。比如,最典型和著名的一个便是谷歌预测流感趋势失败的案例。

        报道称,谷歌是基于搜索引擎数据进行的分析,其分析结果与美国疾病防控中心的监测数据相差近两倍。尽管谷歌不断调整算法,但仍不能保证结果的准 确性。这就说明一个重要问题:数据源问题。谷歌是基于搜索引擎上的搜索词来分析的,许多搜索词都是无效的,没有任何意义的,所以它们不能真的代表流感趋 势,但它们同样被计算在内。这就造成了结果的严重偏差。

        所以,你弄到的这些数据,如何保障它们的确是你所需的?的确是重要的?如果数据源出现了严重偏差,那么你的分析再精准,那么也是徒劳。比如,你 花费了大量精力去搜集互联网用户产生的日常分享信息,你对他们的所有信息都进行分析,结果预测出几种消费趋势。但是,这些分享信息中有大量冗余信息,数据 精准度很差,许多都是跟消费没有关系的,那么这种分析结果很可能就是不准确的。你按照这种结果进行下一步营销战略当然可能是失败的。

        2、大佬平台的游戏,普通企业难掌握大量数据;难检验可信性

        各大互联网公司平台掌握着用户资源,用户产生的信息当然也被聚集在各平台内。但是,各家公司或平台的数据并不会完全向公众开放。我们只能通过某些工具抓取到网络上散落的信息,但不能准确掌握完整的有实际价值和意义的后台数据和信息。

        而这些海量信息,对于像谷歌这样的大互联网公司来说,就是宝藏。大数据或许只是这些大佬平台的游戏,普通企业比较难参与进来。

        并且,这些平台之间并不互通和开放,他们分析出来的数据结果得不到第三方的验证和检验,我们就无法知道他们大数据分析结果的有效性和可信性。当 然,他们将这些数据分析用户自身产品开发和自身发展上还是很有价值的。所以,普通人或普通企业对于大数据的渴望或许是奢望。将来互联网大平台公司或许会售 卖大数据分析的服务,这很有可能。并且,未来,个人数据管理领域的创新和创业将会增加,应用也会增多。

        另外,目前大数据分析的算法还没有标准,也没有公认和统一有效的工具。

        所以,从以上这些方面看,大数据分析和大数据营销还有很长的路要走。我们需要正确、理性地看待大数据。

来自: 钛媒体