会听、会说、会聊天：人工智能语音识别技术的漫漫长路

jopen 11年前

原文 http://blog.sina.com.cn/s/blog_4caedc7a0102w247.html

会听、会说、会聊天：人工智能语音识别技术的漫漫长路 Fil Alleva和黄学东

坐在俯瞰华盛顿贝尔维尤市中心的办公室里，微软的 Fil Alleva 正聊起包括他在内的专家们在语音识别探索过程中走过的漫长而艰辛的道路 —— 从 20 世纪 70 年代的早期研究一直聊到了技术的现状。现在，你只需转过头对电脑说： “ 小娜，我想来张披萨饼 ” ，接下来你就可以等着吃了。

随着谈话逐步深入， Alleva 也聊到了实现上述情境背后的技术。接着， Alleva 停顿了一下。 “ 现在出现在我们脑海里的 —— 无论我们是否说出来 —— 肯定是 C-3PO” 他笑着坦白。

《星球大战》里风度翩翩的主人公们能够理解和使用无数种宇宙语言 —— 但这些全球顶尖的研究员们的灵感源泉可能还不止于此：有人还会提起《星际迷航》里十分抢眼的通用翻译器也激发了他们的梦想。

但对于无论是《星球大战》或《星际迷航》的忠实粉丝来说，至少有一点是确定的：多年来，制造出像人类一样能够理解自然语言的的计算机的追求是如此的困难和不可思议，似乎只有科幻小说才能实现如此神奇的事情。

近年来，能够理解语音命令的游戏控制台，可以实时翻译对话的应用，以及能够提供附近比披萨店电话号码的虚拟助手，都已经从虚构变成了现实。

这些系统不仅已经变为现实，而且每一天都在进步 —— 当然，这要归功于数据的可用性、计算机的运算能力的提升和 “ 机器学习 ” 这一人工智能子领域的飞速发展。在这个过程中，系统能够通过获取更多数据来学习和自我提升。

短短几年过去了，研究员们坚信，总有一天，这些技术会让计算机能够像人类一样，毫无差别地理解别人的谈话。

“ 我们已经到了一个拐点， ” 微软杰出工程师，顶级语音专家黄学东说道。他与 Alleva 一样，都是微软语音研究和产品部署的先锋军。

这些技术进步将从根本上改变我们的生活方式。正如我们在高速公路上使用 GPS 导航时，我们更愿意口述我们目的地而不是用拇指输入一样，在未来，语音将极大程度上代替键盘，成为我们与计算机交流的方式。

微软的虚拟助理小娜（ Cortana ）现在已经坐在了 Windows 10“ 前台 ” 的中间位置，她会主动邀请用户 “ 问我点什么 ” 。小娜也正成为微软首席执行官萨提亚 · 纳德拉（ SatyaNadella ）所提到的 “ 第三运行时 ” 。这也圆了黄学东博士自 1993 年加入微软开始研究语音以来的最大梦想。

“ 一切是那么的自然 ”

语音识别取得成功的最大标志或许是我们已经开始本能地、不假思索地使用语音识别功能，而且理所当然地享受它们提供的服务。

“ 当机器学习处于最佳状态，人们看到的是结果，而非过程 ” 主管微软技术与研究部门的微软全球执行副总裁沈向洋说。

语音识别毫无疑问能让我们的生活变得简单，例如促进沟通和提高生产力。

可以回想一下，直到不久之前，如果一个以英语为母语的人，他一句普通话也不懂，当他想和一位土生土长的中国人交谈。他面临的选择有两个，要么他开始艰难的学习，直到掌握足够多的中文；要么他就得雇另一个人来帮他翻译对话了。

现在，他们可以利用 Skype Translator 进行实时无障碍的对话！ Skype Translator 能让双方在两种不同的语言之间进行对话，还能让你通过视频看到对方的表情和手势。这也是变得越来越主流的 Skype 实时翻译最常见的几种使用场景之一。

“ 对于主流语种和常见的使用场景而言，语言障碍将在四年内基本销声匿迹， ” 微软研究院机器翻译团队负责人 Arul Menezes 说。

这个想法让人振奋，这也是很多年来语音专家们一直在翘首期盼的。当 Menezes 开始着手研究 Microsoft Translator 的第一个版本时，他女儿刚刚问世。而现在，她已经在念高中了。

“ 我们每个人都知道要目标在哪里，只是没想到实现它要花这么长的时间， ” 他说。

百般辛苦，一点突破

不积跬步，无以致千里。几十年来，无数科研人员和工程师们在语音识别领域不断辛勤耕耘，而 Menezes 只是其中的一员。

另一位专家是黄学东博士。 20 世纪 80 年代初，当他还在国内念研究生时，第一批个人电脑刚刚进入中国，但中文用户就遇到一个重大阻碍。中文本身拥有众多音节和偏旁部首，传统字母键盘的使用成了一件难事。

黄学东

在许多人眼中，黄学东是一个天性乐观的人 —— 他认为，想出一个解决措施应该不太难。

“ 当时，我认为自己在读博士期间就能解决这个问题 —— 只要在电脑上运行一个不错的中文听写引擎即可。 ” 学东说。

从某种程度上讲，学东至今仍在试图解决自己学生时代的相同问题，但他比以往任何时候都更为乐观，因为解决办法已经触手可及了。

“ 现在的语音技术水平已如此接近于人类的表现， ” 他说。 “ 我相信，未来三年内，计算机和人类的语音能力差别将微乎其微。 ”

如果要问黄学东、 Alleva 或沈向洋，语音识别模型为什么会有如此巨大的进步，他们绝不会对你讲述一个 “ 灵光闪现 ” 的故事。相反，他们会告诉你的故事都是关于，这里儿有一处改善，那里有一点突破；以及取得重要突破时的兴奋回忆。

“ 特别是对于科研来说，我们不妨把眼光放长远一些， ” 沈向洋说。 “ 做研究就是一场马拉松。 ”

数据、计算能力和机器学习

几十年前黄学东、 Alleva 和沈向洋在卡内基梅隆大学（ CMU ）学习期间第一次聚首，从那时起直到现在，实现语音识别的基本要素并没有发生太大变化 —— 但它们已得到显著改善。

第一个要素就是数据。计算机要学会识别声音，它需要很多很多可供借鉴的例子。随着越来越多的人使用 SkypeTranslator 或微软小娜（ Cortana ）等工具，这些工具就能变得越来越好，因为它们有了更多的例子可以借鉴。黄学东把这些工具的普及比作推动语音识别改进的 “ 氧气 ” 。

第二个要素是计算能力。就在不久以前，语音识别它还受限于个人电脑或移动设备自身的运算能力。而现在，由于云计算的普及，语音识别获得了远超以往任何时候的计算能力 —— 即使对你而言云计算是隐形的。

最后，你需要强大的机器学习算法。多年来，语音专家们曾将多种工具用于机器学习 —— 听听这些充满异国情调的名字吧：高斯混合模型和隐性马尔可夫模型等等。几年前，微软和其他科学家们想到了使用一种称为 “ 深层神经网络 ” 的工具来训练计算机，以便更好地理解语音。

深层神经网络本身并不是新鲜事物，但对它的使用方式却是前所未有的。这项技术的成效非常突出，现在研究人员正在把同样的技术用于的其他领域 —— 如计算机视觉、机器翻译、图像识别和图片自动标注等等。

好。好？壕！

研究人员认为，要让计算机像人类那样理解言语，眼下最大的障碍在于复杂多变的环境和仍有待完善的技术。

“ 在一些条件下，我们已经实现了高质量的语音识别， ” 微软研究院语音和对话组的负责人 Geoffrey Zweige 说。 “ 但在其他情况下，我们还有很长的路要走。 ”

语音识别工具仍然不能胜任嘈杂、拥挤或回声缭绕的地方；如果硬件比较差 —— 如低质量的麦克风，也会影响它们的表现。如果人们说话过快、过轻或带口音时，它们会运行得 “ 磕磕绊绊 ” 。它有时也很难让计算机理解儿童和老人的语音。

微软正试图利用微软牛津计划中的 “ 定制语音识别智能服务 ” 等技术来解决这些问题，这个即将对外发布的工具可以让开发人员构建应对上述诸种挑战的产品。

随之而来的是更大的障碍：理解。

理解人们话语的意义，与判断一个人语音中的细微差别，是迥然相异的两码事。研究人员完善语言理解的同时，他们也在研究更细致入微的问题：帮助计算机确定一个中文用户说“Hao”的时候，他的意思是表示肯定的“好”，还是表示疑问的“好？”，还是表示感叹的“壕！”。

“ 正常情况下，人们想到语音识别时，往往希望 ‘ 毕其功于一役 ’ ， ” 微软亚洲研究院院长洪小文说，洪小文博士也是一位著名的语音研究学者， “ 人们不仅希望计算机能够识别，还希望理解语音，甚至让计算机据此采取对应行动。 ”

洪小文博士说这意味着你不仅要解决语音识别问题，更需要解决自然语言理解、文本到语音、反馈计划和执行。洪小文把这套系统称之为一套完整的人工智能系统 (AI complete) 。

至少到目前为止，人类在理解这些微妙暗示方面的能力远胜于计算机。微软和世界其他地方的计算机科学家们正在向自然语言处理难关发起攻击 —— 包括收集数据，帮助计算机从数据中学习技能 —— 采取同解决语音识别中的难题一样的方式。

不过，这是一个更大的挑战，其中部分原因在于自然语言理解的规则是模糊不清的。正如洪小文所精准指出的，人们并不总是直抒胸臆的。事实上，有人可能会说，做人最难的事情之一就是搞清楚其他人向自己表达的意思，并让别人弄明白自己想表达的意思。

“ 很多时候，我们会觉得即使跟我们最亲近的人都不能完全理解我们。 ” 洪小文说。

不仅要听懂，还要看见 —— 也不能忘记最老土的键盘输入

无论语音理解工具发展多完善，没人指望大家要完全放弃键盘。这是因为语音也有其局限性：例如，它的私密性不好，而且曾尝试过口述文章的人都会知道，这种方式通常并不利于创作。

此外，它还不能完全反映人类真正的沟通方式 —— 不仅通过词汇，还要借助非语言线索，比如面部表情和手势等。

语音专家在继续努力解决语音理解问题的同时，正在更深入地思考语音对于一项更宏伟目标所发挥的作用：打造一项技术，不仅能理解语言，而且还会识别面部情绪和回应手势。

“ 这很在很大程度上将取决于能否从系统的角度上开发语音能力， ”Alleva 说。 “ 这些东西在相互孤立的情况下会有一些用途，但如果把它们连接在一起，它们的用途将会成倍增加。 ”

Fil Alleva

欢迎关注

微软亚洲研究院官方网站：http://www.msra.cn

微软亚洲研究院人人网主页：http://page.renren.com/600674137

微软亚洲研究院微博：http://t.sina.com.cn/msra

微软亚洲研究院微信：搜索“微软研究院“或扫描下方二维码: