浅谈大数据应用研究的3个V

xxxway 8年前

来自： http://www.techxue.com/techxue-22616-1.html

To knowledge 是目标，手段还是 mining ，俗称数据民工。每当大家讲到大数据，都会不约而同的提到大数据几个 V 的定义： Volume ， Variety ， Velocity ， Veracity ， Value 。大部分情况下我们都是将这几个 V 放在 PPT 的 introduction 部分一笔带过，并无详细解读。我想谨以此文抛砖引玉，回顾和学习其中的 3 个 V ，重新审视我们的工作。

前言

当我们面对一个数据驱动型的应用时，我们首先需要明确应用目标，确定我们需要做的事情属于什么层面，然后对问题建模，并制定方案。数据类型的应用目标，我想可以归纳这 4 类：数据描述了什么，内在组成是什么样？数据所反映的现象，是否存在某些内在规律？通过数据反馈的现象，能否学习规律并进行预测？在我们已知的结果方案之外，是否能借助数据去分析和进一步改进方案？

绝大部分时候我们停留在 Information 和 Intelligence 层面，也就是我们常用的统计分析，关联挖掘，聚类分析，分类（回归）预测等。但是这些问题似乎是很经典的问题，在当前猪都吹上天的大数据时代，有哪些不一样呢？我想如果我们只停留在 Volume 变得超级大，我们需要用 hadoop 之类的就有点图森破了，大数据时代我们采集信息的来源和类型更加广泛，每个行为也能关联到更多的上下文信息，甚至有些事情算法不需要大改，增加数据量就能取得更好的效果，我们重点展开 Variety ， Veracity ， Velocity ，这 3 个 V 来讨论一下。

Variety 在开发数据驱动型应用时，我们一般对 variety 的理解更多的是多来源、多类型的数据，然后在应用中进行数据融合，开发更完善的业务模型。比如百度 2012 年的百万美元大奖 [5] ，网盟数据和搜索数据打通，提升系统收益。而我们熟知的广告点击率预估，或者推荐系统中常说的用户画像 [6] ，还有特征工程中的 context feature 和 item feature ，属于典型的不同类型数据融合。

大部分情况下，我们对 variety 的理解和使用，需要有一个实体能将不同数据串联起来，比如搜索可以以一个用户的 session ，把不同 query 串联起来；一个公司可以以唯一用户 ID 把不同产品数据串联起来；甚至外部数据融合也需要以身份证之类的把相关信息串联打通。俞士纶老师给出了一些不一样的理解，窃以为这是业务之外我们经常忽略的的，但是确实是大数据时代才具有的 variety 属性。

挖掘实体相关，但是不同来源的信息

最典型的是我们在做大规模的非线性文本分类时，并不完全按传统的文本分类的思路，从切词信息中去发现有限的信息做分类器，而是结合相关实体，比如说这句话的人，某篇文章的发布者，去引入更多领域知识和先验提高分类精度。比如推ter 要对只有 140 个字符的 tweets 进行大规模高精度的分类 [7] ，就大量使用了推ter 账号的，还有 URL 的领域信息作为先验。我们进行公众号文章分类所使用的 paragraph to vector 特征 [8] ，其实也是公众号领域知识的数字表达。

从原理上讲，各种分类（回归）预测任务不限特征来源，但是上述这种不同来源领域知识的迁移，放在大数据的背景下，会更加有意义。不仅仅是我们可以融合的数据来源和类型变多了，更重要的一点是其他来源的数据可能更容易抽取到信息，对比之前缺少信息的情况下，开发难度变低了。

不同实体的不同类型信息，但是可以通过复杂网络相关联的

这种类型的典型场景是不同社交网络的多源融合问题，用户的信息可以在不同网络之间进行迁移（ transfer ），国内像清华大学的唐杰老师，崔鹏老师，做过不少这部分的研究。

variety 对信息迁移的理解，在算法研究层面是不是还能有不一样的解读呢？个人意见，机器学习方法虽然不限特征来源，且能进行简单的非线性交叉，但是 deep learning 对各种特征做的更高层的 embbeding 和抽象，这种更高层特征的融合将 variety 在模型层面又提升了一个台阶，而 deep learning 的使用离不开大数据，没有超大数据根本无法训练大规模的深层网络。

Veracity 有些文献将 veracity 归结为 uncertain data ，窃以为不是特别准确。大数据有一些绕不过去的问题，比如高噪声，再比如一些异常信息淹没在可信数据的汪洋大海中，使得我们进行检测的难度变得极其大。但是长尾信息可能也淹没在这些海量的数据中，我们不需要惧怕这些问题，因为非纯净数据中同样蕴含着信息，只不过我们需要更加精细化的去深耕细作，甚至引入更大的数据和参数规模来刻画这些信息，相对于纯净数据甚至能取得更好的效果。

对此，俞老师也给出了一个角度的思考：发动群体智慧来进行抗噪或者异常检测。

对应此问题，我们也做了一些有意思的工作。比如朋友圈广告的评论数据，我们可以对这些评论进行情感倾向的量化，从而在点赞和点不喜欢之外，提供另外一个维度的用户反馈。但是我们也知道排除发小广告的，绝大部分评论都是非常短的文本内容。有些甚至是看似噪声的内容，比如小鲜肉最喜欢说的 “ 这是什么鬼 ” 。我们如何去发现这些数据中蕴含的信息呢？

我经常跟学术界小鲜肉说的是：你们搞高级算法，我们则利用社交网络的大数据优势（阴险的笑）。上面的问题简单描述一下思路：通过表情采样（要防止表情的 term 过拟合），得到一些朋友圈 UGC 内容的情感倾向的 label ，然后对这些文本内容通过 word embbeding 和卷积神经网络来引入上下文信息来学习语义情感倾向。而海量且每日更新的 UGC 内容，可以关联到大量的相关数据所蕴含的信息，比如 “ 这是什么鬼 ” ，从社交大数据出发，走群众路线解决上述问题。

VelocityVelocity ，直观翻译是高速，很多文献对应的应用场景直观的就是 streaming data 。但是我认为可以引申出更多种理解：数据的高速流转，我们想要的结论可以及时反馈；内部特质变化，能快速的反应在数据分布和特征上；当需要了解收集数据时，可以快速的获取最新鲜的数据，等等等。回到大数据的应用研究中，聚焦到业务目标最终体现的是模型的快速更新能力，快速捕捉训练数据中反映的变化。

比如当目标是广告 CTR 预估这样的应用点时， velocity 涉及到许多技术环节，诸如日志快速收集反馈，日志实时 Log Join ，流式计算等等。最终体现在 CTR 模型实时更新这一项技术上。 KM 也有相关业务介绍过快速模型更新带来的 CTR 效果提升相关工作 [11] 。

参考文献

[1] JIAWEI HAN, From Data to Knowledge: Construction and Exploration of Heterogeneous Information Networks

[2] 芮勇 , From Big Data to Knowledge Discovery

[3] PHILIP S. YU, Challenges and Opportunities on Mining Big Data

[4] https://en.wikipedia.org/wiki/Big_data

[5] http://wangmeng.baidu.com/news/2012-08-10/1347281356.html

[6] http://km.oa.com/group/18268/articles/show/218391

[7] Shuang-Hong Yang ， etc. ， Large-scale high-precision topic modeling on 推ter

[8] http://km.oa.com/group/propen/articles/show/231733

[9] Kevin Murphy ，《 Machine Learning: A Probabilistic Perspective 》

[10] http://km.oa.com/group/14352/articles/show/213192

2016-2-2 17:39 | 来自: 腾讯大数据

浅谈大数据应用研究的3个V

相关经验

目录