李飞飞：我把今天AI所处的发展阶段称为“AI in vivo”

jopen 7年前
   <p style="text-align:center"><img alt="李飞飞：我把今天AI所处的发展阶段称为“AI in vivo”" src="https://simg.open-open.com/show/f1ea39fa56ef6c94460547d7422a7109.jpg" /></p>    <p>按：在谷歌  I/O 2017 的最后一日，主场馆海岸线圆形剧场迎来了本届 I/O 最具重量级的机器学习讲座：由四位分属不同领域的 AI 女性大牛展开巅峰对话，漫谈 AI 的过去、现在与将来。四位嘉宾分别是<strong>语音识别、计算机视觉、数据可视化和生物计算</strong>领域的顶级 AI 学者与工程师。而本场对话无关技术，纯是几位杰出科学家对各自领域深度学习发展历程的反思，以及对将来趋势的思考。</p>    <p>四位嘉宾是：</p>    <ul>     <li> <p>Francoise Beaufays，谷歌语音识别技术研发带头人</p> </li>     <li> <p>李飞飞，谷歌云首席科学家，斯坦福 AI 实验室负责人</p> </li>     <li> <p>Fernanda Viegas，计算式设计（computational design）专家，谷歌 Big Picture 数据可视化部门负责人之一</p> </li>     <li> <p>Daphne Kolller，Calico Labs 首席计算官，Coursera 联合创始人</p> </li>    </ul>    <p>本讲座由谷歌云副总裁 Diane Greene 主持（以下称”主持人“），分为三个环节，每个环节的话题分别对应 AI 的过去、现在与将来。</p>    <p><strong>话题一：AI 技术是如何发展到深度学习时代，走到今天这一步的？</strong></p>    <p>Daphne Kolller：我认为，深度学习革命让我们得以解决当今各领域的许多现实难题，它让这一切成为可能。</p>    <p>这场革命，是一系列机器学习研究进展的结果——深度学习来临之前，大约有 10 到 15 年相当艰辛的研究，用于研发人工设计的模型。构建这些模型需要大量其它领域的专业知识，以及深入细致的思虑考量。研究人员需要人工雕琢模型的大量细节，由于缺乏数据，往往要用我们的直觉判断作为构建模型的依据。</p>    <p>而当我们得到更多数据，尤其在文字、图像、语音领域，就逐渐开始用数据来替代这些主观洞察力。但是，过去这 10 到 15 年间的技术研究成果，在今天仍然很有价值。这里有两个方面：</p>    <ul>     <li> <p>在研究方法上，优化算法便是那时发明出来的，是深度学习得以成功的关键技术之一。</p> </li>     <li> <p>另一方面，如今我们一厢情愿得相信，大数据是解决一切的方案。但这仅仅对应部分领域。对其它领域而言，我们掌握的数据量充其量不过是中等，有的甚至可说是小规模。因而，仍需要在人类直觉和数据之间做平衡，充分利用两者的长处。</p> </li>    </ul>    <p>李飞飞：我来稍微谈一谈历史背景。在所有人类的科学领域里，AI 是一门相当年轻的学科，大约有 60 岁。但在我的观点里，AI 启蒙思想的根源，即对于智能的求索，可追溯到人类文明诞生的黎明时期。</p>    <p>大约 60 年前，机器刚刚能处理简单的算术。但以计算机科学之父阿兰-图灵为代表的思想家，已开始提出挑战人类社会的问题：“机器是否能思考？机器是否能拥有智能？那时，马文·明斯基、John McCarthy 等计算机先驱聚到一起，创立了如今的人工智能学科。AI 之父们眼中的 AI，在技术上讲，与今天十分不同。但核心的愿望是一致的：让机器能学习、思考、感知、有逻辑，能开口说话，与我们交流。</p>    <p>AI 已经经历了几波技术发展：从一阶逻辑（first-order logic），到专家系统（expert systems），然后是早期机器学习，再到如今的深度学习革命。</p>    <p>过去的 60 年，我把它称为”in-vitro AI“，或者“AI in vitro”（雷锋网注：可理解为“试管阶段的 AI”）。这一阶段为 AI 研究的基础问题以及众多子学科打下了基石。后者包括机器人、计算机视觉、自然语言处理、语音处理、生物保护学（conbio）等等。这同样是一个研究人员们不断理解数据、寻找工具集的过程。</p>    <p>而 2010 年左右是一个分水岭。这时，三个不同领域的进步终于达到了一个前所未有的里程碑高度：统计机器学习领域工具的成熟、互联网和传感器带来的大数据、摩尔定律预测的硬件计算性能提升。这三者的合力，把 AI 从 “in vitro”阶段，推上了一个被我称为 “in vivo” （雷锋网注：可理解为“胚胎阶段的 AI”）的全新阶段。</p>    <p>“AI in vivo”，是一个 AI 技术向世界做出实际贡献的阶段。当下这个时间点，还仅仅只是个开头——“It‘s just the begining”。我们在谷歌云所观察到的每一个行业，都在数据、AI、机器学习的推动下经历着革命性的转变。在我眼里，这是一个历史性的时刻：AI 终于开始发挥现实影响力，改造无数个行业。</p>    <p>我想要再强调一遍：一切刚刚开始。现在 AI 领域的工具和革命性技术，仅仅是广袤海洋中的几滴水。剩下的可探索空间，即我们能借助 AI 实现的事情，几乎是无限的，再怎么夸大也不为过。对此，如果你感到兴奋激动，或许是应该的——有许多工作等着我们去做，来实现 “AI in vivo”。</p>    <p style="text-align:center"><img alt="李飞飞：我把今天AI所处的发展阶段称为“AI in vivo”" src="https://simg.open-open.com/show/f7e12338a70cf134257ad00d02cd8847.jpg" /></p>    <p><strong>主持人：Francoise，你处在语音识别研究的最前沿。当下，语音识别技术已经普及开来，能否向我们介绍下这一发展历程？</strong></p>    <p>Francoise Beaufays：当然。12 年前我加入谷歌，那时，我们都想用语音识别技术做点有用、好玩的事。但这相当得难——当时语音的质量完全不能和现在比。因此，我们从极其有限的产品着手，这样识别一个人说的话并不过于复杂，然后一点一点地突破极限。我们需要做的，是打造一个成功的产品，让用户愿意使用；然后以此为基础，不断收集新数据导入模型、不断迭代，每次提高一点点。</p>    <p>按照该思路，我们开发了 GOOG-411，我不知道有多少人还记得它。它是一个手机 APP：你拨打一个号码，它会问你：查询哪个城市或州？回答之后，它接着问：“查询哪家公司？”说出名字之后，它会拨通该公司的电话。请注意，12 年前，没有 iPhone 也没有安卓，大家用的还是功能机。所以 GOOG-411 的功能也很基础。幸运的是，谷歌高层对该技术的前景抱有憧憬，支持我们尽可能得打破技术极限。</p>    <p>当时我们很成功。然后 iOS 和安卓诞生，一切都变了——用户有了视觉反馈。于是我们开始构想其他的 APP 产品，那便是 Voice Searchv 用语音进行谷歌搜索。我们开始做语音转录，把麦克风整合进手机功能的各个入口，让用户可以用语音做任何事。</p>    <p>更后来，我们试图把语音识别技术带到家庭场景，比如 Google Home 这样的设备。用语音来处理日常任务，是一个呼声很高的诉求。我们认为智能助手是一个很好的入口。相比用口头命令做简单的事，智能助手可以用日常的自然语言与用户问答，而不是麻烦的键盘打字输入，使谷歌真正成为用户的个人助手。</p>    <p><strong>主持人：Fernanda，你曾表示要让数据可视化民主化。如何才能实现？必要性在哪里？数据可视化分析又是如何进化的？</strong></p>    <p>Fernanda Viegas：十多年前，我已经在从事数据可视化。当时的情况很不一样：研究非常困难，设备和现在不能比，能获得的数据也很少，大多数并不公开。</p>    <p>这情况逐渐改善，现在，数据可视化已可说是无处不在。比如，媒体也喜欢在数据可视化的帮助下，用统计数字表达复杂的新闻事件。我们喜欢的一个玩笑是：<strong>“对于统计，数据可视化是一道毒品”</strong>——你可能都不会意识到自己在做统计，因为数据可视化是如此善于在视觉上找规律、找异常。</p>    <p>数据可视化一直在一条更加民主化的轨道上。长久以来，AI、机器学习有一项重大挑战：如何让我们人类理解超高维数据。这方面，Geoffrey Hinton 和同事们搞出的 t-SNE，堪称是 AI 领域的革命性数据可视化工具。它在数据可视化发展史上是一项相当关键的里程碑。我和飞飞有类似的感觉：我们正处于如何利用数据可视化技术推动 AI 进步的起点。</p>    <p><strong>话题二：AI 在当下面临的技术挑战</strong></p>    <p>Francoise Beaufays：<strong>语音识别从来都是基于机器学习，与更早期无关机器学习的技术没什么关系。</strong>过去三十年间，机器学习技术一直在进化，语音识别也不断进步，其中一个大转折点是神经网络的采用。这距今不到八年，但基于神经网络的语音识别研究在很久以前就已开始。只是由于计算能力的限制，这条路在产生大量成果之后被学界放弃，直到几年前重新采用。这期间，语音识别基于更基础的技术，仍然在发展提升，例如 Gaussian 混合模型。</p>    <p>在技术上，采用深度学习确是一项较艰巨的工作，牵扯到延迟、规模、训练能力等问题。当基于深度学习的语音识别技术在生产环境部署，这打开了一扇崭新的大门，背后是一系列的提升。另外，由于有了强大的计算硬件支持，我们能快速地从一个神经网络架构转换到另一个。因此，我们开始探索 RNN（比如 LSTM）、CNN、基于 CTC 的序列建模等其他模型。简而言之，采用神经网络，为我们开启了在支撑谷歌产品的核心技术上不断创新的新空间。</p>    <p style="text-align:center"><img alt="李飞飞：我把今天AI所处的发展阶段称为“AI in vivo”" src="https://simg.open-open.com/show/f3e85b2c88398f53b9701bf765d329c9.jpg" /></p>    <p><strong>主持人：这是用于语音识别的神经网路，我们再来听听能延长寿命、让我们更健康的神经网络。Daphne，给我们讲讲为什么 Calico Labs 需要你这位世界最顶级的分子生物学与机器学习专家之一，你在那做什么？</strong></p>    <p>Daphne Kolller：很多人可能没听说过 Calico，我们的曝光很少。做个简介，Calico 是最早剥离谷歌，直接归属 Alphabet 的子公司。Calico 的目标是理解衰老，帮助人们活得更长、更健康。</p>    <p>衰老其实是我们所面临的最大的死亡风险，没有之一。这对几乎所有 40 岁之前发生的疾病都成立：当患者一年一年老去，死于该病的风险会指数级得增长，糖尿病、心脑血管疾病、癌症均是如此。</p>    <p>但讽刺的是，没人真正知道为什么。</p>    <p>没人知道为什么在 40 岁之后，每一年过去，都会给我们增加死于这些疾病的风险。为了对此进行理解，我们很有必要研究导致衰老的生物系统机制，从分子层面一直到系统层面。虽然我不认为我们能永生，但也许通过技术手段介入，我们能活得更久更健康。</p>    <p>Calico 早期有一名研究人员，其研究显示：<strong>仅仅某单个基因的变异，就能延长机体 30%-50% 的寿命。</strong>而且，我们不仅会活得更长，还会以更年轻的面貌、更饱满的健康状态生活。</p>    <p>但实现这些需要搞清楚许多尚不明了的东西，还需要收集所有生物系统在所有年龄状态下的海量数据，包括酵母、虫子、苍蝇、老鼠、人——为什么这些不同物种在分子层面发生着同样的事？</p>    <p>幸运的是，过去二十年间，科学家们发明出一整套衡量机制与方法，收集数据并试着帮我们理解衰老中的机体。这包括基因测序技术、微流体、跟踪设备，记录机体如何随衰老发生变化。但是，没人能把这些不同测量机制所产生的、从微分子层面一直到人口学层面的数据整合到一起。</p>    <p>如何整合所有信息，精确描绘出人体如何衰老的过程？</p>    <p>这就需要生物学家和机器学习专家之间的合作，后者能建立模型，整合所有信息。</p>    <p>我属于少数极幸运的人，能在该领域的萌芽时期就投身进来：在 2000s 年早些时候开始从事计算生物学（computational biology）。如果说，我的机器学习算是母语造诣，我的生物学就在“流利”水平。这使我能够与 Calico 的科学家们共事，<strong>在两门学科之间建立真正的合作纽带，开发能结合两个世界的优点——大数据和人类直觉的模型。</strong></p>    <p>由于生物机体的复杂度实在太高，即便是今天这个量级的数据，我也不认为仅用数据就能重建生物体从头到尾的完整模型。正如我在讲座的开头所讲:数据，和顶级科学家的直觉，我们都需要；用以最终建立对衰老的深度理解，并预测有效的干预方式。</p>    <p><strong><img alt="李飞飞：我把今天AI所处的发展阶段称为“AI in vivo”" src="https://simg.open-open.com/show/98607ba427c0bd3f35ed47535e5d03e2.jpg" /></strong></p>    <p><strong>主持人：下面聊聊计算机视觉（CV）。飞飞，有次在  TechCrunch，你说 CV 是 AI 的杀手级应用，你想表达什么？你一直提倡的 AI 民主化又是什么意思？这跟云计算有什么联系？</strong></p>    <p>李飞飞：我当时是想推动更多人认识到这一点。我坚信这一点。当时的原话是：<strong>“很多人问 CV 的杀手级应用是什么？我会说：CV 本身就是杀手级应用，AI 的杀手应用。”</strong></p>    <p>我会这么说，有两个理由：</p>    <ol>     <li> <p>五亿四千万年前，生物进化史上发生了浓墨重彩的一笔：由于某些不知名的原因，地球上的物种种类从极少，一下子爆发为极多。这被看作是进化史上的宇宙大爆炸——被称为寒武纪大爆发。对其背后的原因，生物学家迷惑了许多年。直到最近，一个非常有说服力的理论浮出水面。这个猜想是：那时，生物进化出了眼睛。一下子，动物的生存变得主动：有了猎食者，有了被猎食者，整个物种进化轨迹从此天翻地覆。</p> <p>今天，人类是最智能的视觉动物。大自然把我们脑容量的一半都分配给了视觉图像处理，正是由于其重要性。</p> </li>     <li> <p>至于第二个理由，据估计，互联网上超过 80% 的内容，为视觉内容。另外，传感器收集的第一大数据形式，是由可见光或不可见光组成的图像数据。无论在哪里，对于公司、消费者来说，以像素形式出现的数据都是最珍贵的。</p> </li>    </ol>    <p>和语音识别类似，有了深度神经网络之后，CV 实现了多项突破和长足进步。在我看来，从 2010 到 2017 的七年间，CV 最主要的进步发生在基础的感知任务领域（perception task）：物体识别、图像标注、物体检测等。我们也已经有了应用产品——谷歌照片（Google Photos）、自动驾驶汽车的行人检测系统等。</p>    <p>我认为，下一波对 CV 的投资，将集中于 “Vision+X”，即 CV 和其他领域的结合应用。比如说，视觉在沟通、语言中是如此重要，CV 和语言的结合，会非常有意思。医疗、生物领域的视觉应用更不必说。机器人是另一个有无限潜力的 CV 应用领域。人类研究机器人的历史几乎和 AI 一样久，但现在，机器人仍处在一个非常原始的阶段。究其原因，这在很大程度上是由于其原始的感知系统（想想寒武纪大爆炸）。</p>    <p>简而言之，我的确认为视觉是机器智能最重要的构成要素之一。</p>    <p><strong>话题三：AI 在将来有什么趋势？有哪些可供展望的愿景？</strong></p>    <p><strong><img alt="李飞飞：我把今天AI所处的发展阶段称为“AI in vivo”" src="https://simg.open-open.com/show/64e87b10fcc2bbafcc52066dd85a7a48.jpg" /></strong></p>    <p><strong>主持人：我们时间不多了，Fernanda，能否讲讲你眼中数据可视化的未来在哪里？</strong></p>    <p>Fernanda Viegas：当然。顺着刚才飞飞的思路，既然人类有这么复杂的视觉系统，我们不妨用它来理解机器做的事。机器学习运行于海量的数据、统计数字、概率，在某种意义上，可视化是帮助我们理解这些东西的秘密武器。</p>    <p>为什么我们应该重视数据可视化？这有三点：</p>    <ul>     <li> <p>可解释性。你是否能解释模型输出的东西？</p> </li>     <li> <p>漏洞可修补性。更好地理解模型，能帮助你修补漏洞。</p> </li>     <li> <p>教育。可视化在机器学习教学中扮演了重要角色。另外，如果我们利用可视化更好地理解了机器学习系统，我们能否从这些系统中学习，提升职业水平？</p> </li>    </ul>    <p>最后，我想讲一个有意思的例子，我们用数据可视化发现了机器学习系统中原本并不知道的东西。前段时间，谷歌实现了 zero-shot 翻译，即谷歌翻译能处理未遇到过的语言组。研究人员对此产生了一个疑问：该系统的多语种数据空间是按照何种规律分布的？比如说，数据是按语种划分？还是，系统把不同语种混到一起，“学到”了一些语法、语义的规律？</p>    <p>于是，我们开发了一个数据可视化工具来进行查看。结果发现，不同语种但相同语义的句子，组成同一个簇。不同句子形成一个个不同的簇，而无分语种。某种程度上，这可以说是世界通用语言的雏形，我们把这成为“interlingual”，即“跨语言的”。另外，我们发现，哪些相对更隔离的簇，都是翻译质量不高的语句。这告诉了我们，数据空间的几何分布是有涵义的。</p>    <p>目前为止，AI 仍让人感觉到强烈的工程导向属性。我很期待在将来，艺术家、UI 设计师、科学家会为 AI 带来什么，有哪些我们全未想到过的可能性？这些会很值得探索。</p>    <p><strong>主持人：Francoise，我想问你数据可视化会如何帮助语音识别（笑）。但我同样想问你：如今数据越来越复杂，比如训练模型的标记数据，还有越来越多的个性化，语音识别技术在走向何方？又有哪些令人兴奋激动的挑战？</strong></p>    <p>Francoise Beaufays：在语音识别领域，每当遭遇一个新难题，我们必须要专注在它上面。我们开发 油Tube 儿童频道的时候，就必须要专注于孩子的声音——他们的说话方式、音域、断句方式都和成年人不一样。最终，我们找到了把学习成果加入通用模型的方法。因而 Google Home 现在能与儿童正常交互。</p>    <p>对于我们而言，Google Home 又是一个新环境，我们需要收集新数据。有了新数据之后，将其导入模型进行训练就变得简单直接。但是，第一次发布 Google Home 的时候，并没有用户数据。因此，我们做了许多模拟：采集数据，添加不同类型的噪音，在数据上做不同类型的混响（reverberation）。事实上，我们用的数据足以称得上是海量。我们转录了数万小时的语音，然后与模拟叠加增殖，最后导入模型的数据，相当于是数个世纪的语音。</p>    <p>世界上有如此之多的语言，语言学家说，光是使用人数在 10 万人以上的，就有 1342 种。我们如何向如此之多的语种服务？这是一个需要在机器学习领域发挥很多创造性的难题。</p>    <p>李飞飞：我相信 AI 是第四次工业革命的驱动力量之一。我从一个哲学家那里听来的、一句我最喜欢的话是这样的：“独立的机器价值观并不存在，人类价值观就是机器价值观”。我很期待在将来，来自各门学科的技术专家在 AI 领域发挥所长，只有这样，才能真正为全人类开发 AI，而不是为一部分人而研发。</p>    <p>Daphne：作为一名顶级机器学习专家，如果在五年前，有人问我五年后机器是否能像人类一样准确用文字注解图像，我会说不可能，二十年后还差不多。但由于飞飞等科学家的努力，这一天比我预想的早很多就到来了。</p>    <p>我离开 Coursera 重回生物领域的原因，是因为我认为生物技术现在已经到了指数级增长曲线的那个拐点。如果我们看看人类基因测序的历史趋势，其指数每七个月就翻倍，增长速度是摩尔定律的两倍。按照该趋势预测 2025 年的接受了基因测序的人口数量，保守估计是 1 亿，正常估计是 20 亿。而这只是测序，还没有包含 RNA、蛋白质组、人体成像、细胞成像等等。 </p>    <p>人体，是人类迄今所遇见的最复杂系统。我认为，我们正处于理解这一系统的开端——到底是什么让我们活着？什么让我们迈向死亡？我认为，有今天这一量级的数据以及不断进步的机器学习技术，我们完全有机会用 AI 革新科学。</p>    <p>来自: <a href="/misc/goto?guid=4959008320624693006" id="link_source2">雷锋网</a></p>
李飞飞：我把今天AI所处的发展阶段称为“AI in vivo”

相关资讯