为了紧抓大数据命脉,百度不远万里到硅谷设立研究院

jopen 11年前

为了紧抓大数据命脉,百度不远万里到硅谷设立研究院

        当美国的“创客”纷纷来到中国深圳,呼吸着华强北浑浊空气的同时,中国最大的搜索引擎百度前往美国硅谷设立研究院。

        根据连线的报道,百度的研究院坐落于苹果总部的所在地 Cupertino,名为 Institute of Deep Learning,简称为 IDL。

        实际上,今年 1 月 19 日,李彦宏在百度年会上提出了将于今年专注于 Deep Learning 领域的研究院,他希望这个研究院能够达到贝尔实验室、Xerox PARC 的高度。百度的动作很快,从春节放假回来起算,成立研究院只不过用了两个月的时间。

        如果我们要讨论 IDL 成立的意义,就必须讨论它的研究课题,以及它与百度之间的关系。所以,必须问这两个问题:什么是“Deep Learning”呢?它能帮助百度什么呢?

        Deep Learning 是“机器学习”的新领域,最近一两年十分流行,它是 20 年前红火的研究领域“神经网络”的后续发展,特点在于能够比较好地处理图像、语音这种特征不明显的数据——按照邓侃所说,”借助于 Deep Learning 算法,人类终于找到了如何处理 ‘抽象概念’这个亘古难题的方法。”

        比如,让电脑认识什么是猫。

        去年 6 月,Google X 实验室的一个项目,通过“机器学习”的方法,在 1000 台电脑的帮助下,创造了一个多达 10 亿个连接的“神经网络”,就为了让电脑知道,什么是“猫”。而最终在大量数据的支持下,电脑终于认识到“猫”是一种怎样的动物,并成功地在 1000 万张略缩图中,找到“猫”的照片,识别率为 81.7%。而领导这个项目的人,正是在 Google 内部推动 Deep Learning 算法应用的 Andrew Y. Ng。

        但不止 Google 紧盯着大数据,苹果、IBM 等科技公司同样强烈渴望早点在这个领域树立自己丰碑。百度也是搜索引擎,在中文搜索世界里,积累了大量相关的数据。它也要紧握大数据的果实——让电脑认识 抽象概念,能够提高机器的智能,让人们在与机器交互的时候,变得更加自然。从整体来看,在“Deep Learning”上的进步,能够帮助搜索引擎提高搜索结果的精度,语音识别、图像识别的精度,为以后更自然的交互做好准备。

        两个星期前,百度上线了“头像搜索”,未尝不能视为“Deep Learning ”的实际应用,不过也可以看出,它的搜索结果并不精确。我在百度上搜索百度多媒体部副总监余凯的头像,得到的全部都是别人的头像。当然,按照“机器学习” 的特性,当数据量越来越多,那么得到的结果也将越精确,百度头像搜索上线不过两个星期,数据量可能仍然不够大。

        我不知道余凯未来会不会保留“多媒体部副总监”的头衔,因为很显然,这一次 IDL 的创立离不开他的帮助。为何这么说呢?因为在去年 6 月,余凯参加了纽约大学的 2012 电脑视觉及图形辨识会议,并作出演讲,内容与“Deep Learning 在视觉上的应用”相关,幻灯片可以在这里下载。此外,百度的头像搜索和语音识别,是他带领团队所开发的产品。

        余凯对连线说,“我们心怀伟大的梦想,希望通过‘Deep Learning’,能够模拟人类大脑的能力、能量、理解力。”现在,在硅谷,他已经找到第一名研究人员。

        题图来自 wired