聊两句工作体会:大数据和推荐系统

jopen 9年前

本来这个博客只写我生活上的感悟,工作上我还有一个技术博客,这两句不该写在这里,不过,一方面,最近工作比较忙,生活也被工作挤占了不少,另一方面,接下来写的纯粹是感悟,“道”上的东西,不涉及具体技术细节——“术”,所以也就放这里了。


昨天跟我们团队的一个新人聊工作。新人进入团队有快一年了,个人努力、做事麻利、性格活泼,我一直想给他更大的机会、承担更加独立、重要的工作,让他能够尽快成长起来,独当一面。所以在询问他现在工作进度以后,结合他工作现状,聊了我个人对大数据和推荐系统的一点感悟。后来想,不如就放在这里,让大家都看到,包括我团队的其他人,也省的我一遍又一遍的在不同场合说。

1. 大数据和推荐系统在实际工业产品中的定位
一句话,绝大部分是锦上添花的作用,而不是关键、核心的作用。
这和我们的直觉相悖。大数据现在很火,网上舆论基本的调调就是:现在互联网上面有用户大量的行为数据,同时我们又有了大规模并行处理框架,再结合特定的算法,就能够从中挖掘出“智慧”。这个智慧貌似无所不能,从电影订票订座、到预测流感流行、到防止恐怖袭击。我想说:哥们儿醒醒,别大白天做梦了。电影票订票订座是可以个性化的,不过这依托于电影和电影院;流感流行也是可以预测的,不过这依托于很多人都会患上流感这一事实;恐怖袭击,这是偶然事件,大数据不适合处理这种偶然、突发的事件。
大数据和个性化推荐如果发生作用,一定是依赖于某种产品,而这种产品一定是瞄准了用户的某个需求,只有这样,大数据才有机会在原有的产品基础上给用户进行增值。产品就像是一个人,而大数据和推荐系统就像是这个人身上的一件漂亮衣服,能让这个人显得更有品味、更帅(或者更美)。如果人本身很丑,或者干脆完全抛开人、光看衣服,衣服再漂亮也是没有意义的。
很多人可能会反对。例如:亚马逊,通过个性化推荐,就提升了xxx营业额,大数据和个性化不是很有用么?是很有用。不过如果亚马逊网站的流量很少、或者亚马逊本身货物很少、物流很差,大数据和个性化还能发挥出这个作用么?——自己长的丑,穿的衣服再漂亮,也给自己提供不了多大的增值。相反,自身过硬的话,即便不加修饰,也可以让人刮目相看——你看人家某东,推荐算法貌似也挺烂的,不过也不能阻挡人家是电商巨头。

2. 大数据和推荐系统的作用发挥,很依赖与产品定位和产品形态
说上一点的时候,貌似已经把这一点说了。这里就再补充一个事实吧:在实际推荐系统中,产品形态的改进、或者交交互形态的改进、或者界面样式的改进,其实际的影响作用,往往都不亚于推荐算法的改进。所以,在做大数据和推荐的时候,一定要跳出算法的桎梏,从整个产品方面来看,多和产品经理去沟通,这样才有可能发挥出大数据最大的价值。

3. 大数据和推荐系统,数据的作用大于算法的作用
刚做大数据的员工,往往想到的名词就是“用户画像”;刚做推荐系统的员工,往往张口闭口就是“协同过滤”。且慢,在谈“用户画像”之前,是不是先考虑画出来之后要怎么用啊?在说“协同过滤”的时候,是不是考虑下要协同用户的什么东西啊?每个企业不一样,每个企业能获取的用户数据不一样,所以在谈具体方法之前,先看看手上有什么资源。往往是,手上的资源以及项目的目的决定了要采用的方法,而不是反过来。那些反过来想的,我觉得是学术界的思维——他们从来就没有为了数据而发过愁(学术界的实验性的、小规模的数据还是很多的)。

4. 咏春拳?还是八卦掌?
做推荐系统,要提升用户点击率,新人的做法往往想是找一本书,把书上所有算法都尝试一遍,然后回过头告诉我:老板,我尝试了所有的方法,就当前这个效果最好,这件事我做完了。
这个样子是不对的。
说不对,关键点在于:这个新人对实际所在的问题、需求,缺乏理解。首先,还是从前说的,要跳出算法的桎梏,要从产品本身的定位、用户的需求来考虑,推荐系统到底在这个产品里面扮演怎样的作用?是提升点击率,还是提升赚钱的流水,亦或是提升用户的留存率?再者,要从手上的数据来考虑,如何完成产品的预期:有的数据能够准确地刻画用户某一方面,不过很难获得;有的数据虽然比较粗糙,但是获取容易;有的数据使用要结合某种先决条件,只有在这种条件下,这个数据才能用。第三,要考虑如何定期的有产出成果——我们这是在企业,在企业工作就是为了给企业创造价值,如果一个东西很有价值,但是做出来需要一年的时间,成功的几率只有50%,那么我们宁可做另一个价值只有70%,但是只需要三个月的时间,成功几率有80%的事情。这么说的有点理想化、绝对化了。不过实际情况是,我们不是“平行的”、或者“并列的”再尝试N种方法,而是做出一点儿尝试,取得一个阶段性成果,再在这个基础之上进行下一步尝试,去的下一个阶段性成果......直到最终达到一个比较理想的效果。这一步步走来,就像打拳的套路,有先有后,步步为营,承上启下,而又拳拳带血(出成果)。至于打的是咏春拳,还是八卦掌,每个人有每个人的套路。我觉得,这也是我们这些人的核心价值所在——如果都是把教科书上的方法尝试一遍就能交差,那还要什么经验积累,刚毕业的同学、甚至只要是会编程、能有高等数学基础的同学,就都能做的很好。

5. 即便是锦上添花的作用,也还是能够做的惊艳的、进一步成为核心的
既然是锦上添花的,怎么又成为核心的了?自相矛盾么?!
我这么说的前提是,现在的互联网是一片“红海”,大家都有钱、有人,做的项目都不差。当某个产品,基本功能满足了的时候,其竞争力就看那些差异化的功能、或者是内容了。而大数据挖掘、个性化,天生就是为了差异化服务的。所以,在这个时候,如何能让产品胜出,可能还真要靠大数据和个性化了。

啰啰嗦嗦说了这么多,不是我的风格啊。

完。


来自:http://weibo.com/p/230418556a94a80102vb0c