苹果终于能让Siri像人类一样说话了!

jopen 2年前
   <p style="text-align:center"><img alt="苹果终于能让Siri像人类一样说话了!" src="https://simg.open-open.com/show/9e767ff0463295030486d97a5d4bab96.jpg" /></p>    <p>美国《连线》杂志近日撰文,介绍了苹果 Siri 语音助手的幕后团队如何对其进行改进,使之通过更自然的发音与用户互动。</p>    <p><strong>以下为 AI 世代编译整理的原文内容:</strong></p>    <p>亚历克斯·阿赛洛(Alexa Acero)第一次看电影《她》(Her)的时候,心态完全是个正常人。但第二次看的时候,他根本没睁眼睛。作为负责 Siri 技术的苹果高管,他当时闭着眼睛仔细聆听斯嘉丽·约翰逊(Scarlett Johansson)给个人工智能角色萨曼莎(Smantha)的配音。</p>    <p>他的重点是萨曼莎跟乔奎因·菲尼克斯(Joaquin Phoenix)扮演的西奥多·托姆布雷(Theodore Twombly)说话的方式,以及托姆布雷的回应方式。阿赛洛希望搞清楚萨曼莎为什么能让别人在看不到她的情况下爱上她。</p>    <p>当我问阿赛洛,他觉得这个声音为什么效果那么好时,他笑了起来,因为答案显而易见。“它很自然!”他说,“完全没有机器人的痕迹!”这对阿赛洛来说根本算不上什么发现。这基本确认了他在苹果领导的团队过去几年找对了目标:让 Siri 的声音更像人类。</p>    <p>今年秋天,当 iOS 11 安装到全球数以百万的 iPhone 和 iPad 上时,这套新系统将给 Siri 带来新的声音。它不会包含太多新功能,讲的笑话也不比以前幽默,但你肯定会注意到它的变化。</p>    <p>Siri 现在会在句子里增加更多的停顿,还会在停顿之前拉长音节,甚至在说话过程中抑扬顿挫。Siri 的发音将更加流畅,掌握的语言也更多。听它说话,或者跟它对话,会让人更加舒心。</p>    <p>苹果多年以来一直在调整 Siri 的后台技术,将它从一个虚拟助手变成你手机上所有人工智能技术的统称。它已经急速扩张到新的国家,掌握了新的语言(虽然存在种种缺陷,但 Siri 却是目前全球化程度最高的虚拟助手)。尽管起初较慢,但苹果最近正在加快 Siri 的布局速度。</p>    <p>Siri 的负责人也刚刚变成了苹果软件主管克雷格·费德里奇(Craig Federighi),表明 Siri 现在对苹果的重要性与 iOS 相当。</p>    <p>不过,它现在还远远不能让你与自己的虚拟助手坠入爱河。但阿赛洛和他的团队认为,他们已经实现了巨大进步。他坚信,如果能减少 Siri 语音中的机器人成分,使之更像是你所认识和信任的人,那么即使偶尔失效,他们依然能把 Siri 打造成一款伟大的产品。而在人工智能和语音技术发展的初期,这或许是最佳场景。</p>    <p><strong>Siri 成长史</strong></p>    <p>如果你想通过生动的案例了解苹果有多么喜欢控制自己产品的方方面面,那就看看 Siri。从很多方面来看,已经发布 6 年的 Siri 都已经在虚拟助手大战中落后。亚马逊 Alexa 获得了更多开发者的支持,Google Assistant 掌握了更多知识,它们也都兼容了很多第三方设备。</p>    <p>苹果表示,这并不是它的错。当 Siri 发布时,是另外一家公司为其提供后台语音识别技术。所有迹象都表明,Nuance 就是这家公司——尽管双方都没有证实这种合作。但无论对方是谁,苹果都把 Siri 早期的问题推到了这家公司身上。</p>    <p>“这就像跑步比赛,但却有人拖了我们的后腿。”苹果产品营销副总裁格雷格·乔斯维亚克(Greg Joswiak)说。他表示,苹果一直都对 Siri 寄予厚望,“我们希望虚拟助手能够在手机上跟你说话,还能通过更加简单的方式为你做一些事情。”但技术还不够好。“你知道,进来的数据没用,出去的也没用。”他说。</p>    <p>几年前,阿赛洛领导的苹果团队控制了 Siri 的后台,调整了它的使用体验。它现在的技术是基于深度学习和人工智能搭建的,效果比以往有了很大进步。Siri 的原始语音识别能力碾压所有对手,可以正确识别 95% 的用户语音。</p>    <p>人工智能存在于这套系统的两个关键部分:语音转文本和文本转语音,前者负责帮助 Siri 理解你说了什么,后者则负责帮助 Siri 说话。</p>    <p>Siri 最重要的工作之一就是把你的声音与其他人区分开来,尤其是当这些系统的个性化程度提升时。Siri 掌握的数据越多,苹果的模型就越好,也就越能区分不同人的声音,甚至听懂浓重的口音。</p>    <p>但这其中也蕴含着一些安全担忧:研究人员最近发现,他们可以用人类无法听到的高频声音与 Siri 交流,使得黑客在不知不觉间展开攻击。Siri 需要把人类与机器人的语音区分开来,还要分辨出你跟其他人的声音有何不同。</p>    <p><strong>学说话</strong></p>    <p>想要理解这些系统的运作方式,可以首先了解苹果是如何教给 Siri 掌握一门新的语言的。当把 Siri 引入新的市场(以上海为例),该团队首先会找到现成的方言数据库。他们会聘请当地的配音员对其进行补充,让他们阅读书籍、报纸、网文等内容。</p>    <p>苹果的团队将这些录音转录下来,把文字与声音一一匹配——更重要的是识别音素和组成所有语音的每个声音。他们试图以所有能够想象的方式捕捉这些音素:单词结尾的弱音、开头的强音、停顿前的拖延、提问时的升调。</p>    <p>每一种表达所对应的声波都略有不同,而苹果的算法则会通过分析寻找最适合某个句子的表达方式。Siri 的每个句子都包含几十或几百个音素,就像从杂志上剪下文字后拼成勒索信一样。当你听到 Siri 说话时,可能其中没有一个单词是按照最终输出的效果录制的。</p>    <p>阿赛洛举了个例子:“You want to watch this?”(你想看看这个吗?)和“I like your watch.”(我喜欢你的手表)。阿赛洛在第一句话里说到“watch”时的声调会自然上扬,但第二句则会降调。“单词虽然相同,但念法却截然不同。”他说。他无法通过同一个“watch”录音来表达这两句话——甚至无法使用相同的音素。老款的 GPS 导航仪中经常能够听到语调怪异的声音,导致我们很难听清——如果系统一次性说好几个字,这种现象就尤为明显。</p>    <p>就算是几年前,电脑和服务器也无法提供足够的处理能力,从庞大的数据库中为每一次调用和响应寻找完美的合音。但现在可以做到了,所以阿赛洛和他的团队希望获取尽可能多的数据。</p>    <p>于是,当他们开发了一个初步模型后,便以他们所谓的“纯口述模式”推出 Siri。你不能跟 Siri 说话,但却可以按住麦克风按钮,然后让其编写短信或搜索网络。这帮助苹果的机器收集了许多口音,涉及的麦克风质量和所处的环境也各有不同,这都让 Siri 可以更好地服务于更多的用户。</p>    <p>苹果匿名收集数据后,便会将这些数据转录下来,用于改进算法,训练网络。之后用带有地域特色的数据和语音习俗对其进行补充,然后继续提炼系统,直到 Siri 能够完美地理解上海话的内容和表达方式。</p>    <p>与此同时,苹果还在大量寻找合适的配音员。最初找到了几百人,让他们根据 Siri 可能表达的内容录制样本。阿赛洛之后与苹果设计师和用户界面团队进行合作,从中挑选他们最喜欢的语音。这一部分的艺术性高于科学性——他们需要倾听一些难以用语言表达的感受,包括有爱互助,勇敢坚定而不突兀,幸福快乐但却不能让人感觉像动画片。</p>    <p>接下来的部分完全是科学。“有很多声音很好的配音员。”阿赛洛说,“但这并不表示他们的声音适合在从文本转换成语音时使用。”他们通过自己的模型来运行语音,寻找所谓的音素变化——从本质上讲,就是每个细微的发声的左右两侧之间的声波差异。一个音素内的变化越多,就越难将很多这样的音素以自然的方式拼凑起来,但你在听它们说话时永远听不出问题。</p>    <p>只有电脑能够发现这种差异。“这就像在墙上贴壁纸的时候,必须通过接缝来确保它们紧密贴合。”阿赛洛说。</p>    <p>当他们找到同时适合人类和电脑的人声后,苹果就会针对其录制几个月的声音,之后就变成了 Siri 的声音。Siri 支持的 21 种语言都采用了这种方式,而且针对 36 个国家进行了优化——超过所有竞争对手的总和。</p>    <p>每月总共有 3.75 亿人使用 Siri。这是个庞大的数字,尤其是对于一个因为存在许多严重缺陷而广受批评的语音助手而言。</p>    <p>不过,相比于十亿多苹果设备用户来说,3.75 亿已然相形见绌。并非所有的苹果硬件都内置 Siri——除了 iPhone 外,他们还出售 Apple Watch、MacBook 和 Apple TV 等设备。但分析师估计,要不了多久,活跃的 iPhone 数量就将超过 10 亿台。</p>    <p>Siri 是一项重要而广受欢迎的功能,但普及范围还不算广。而对多数人来说,它显然也算不上必不可少:Siri 显然不是手机那样的必需品。现在,苹果有了一个信任的助手,它还必须教给人们如何使用。</p>    <p><strong>什么都能问</strong></p>    <p>关于苹果开发 Siri 的意图,只要看过他们请道恩·强森(Dwayne Johnson)拍的一则广告就明白了。整个广告展示了 Siri 在强森生活中发挥的各种作用:他修剪花草时用 Siri 查看日程和提醒事项;他还用 Siri 叫了一辆 Lyft 专车——当然是他自己开车;高速行驶时用 Siri 了解天气状况;然后在西斯廷教堂绘画时用 Siri 查看邮件;腾不出手时用 Siri 换算容量单位;还能使用 Siri 启动 FaceTime,甚至在太空自拍。Siri 管强森叫“大块头、光头、美男子”,希望这种方式能降低你使用 iOS 11 时的不适感。</p>    <p>乔斯维亚克表示,苹果一开始希望 Siri 是一个能处理任务的机器。但当人们通过各种繁琐的问题来对比虚拟助手时,他感到非常抓狂,因为 Siri 在这些情况下的表现似乎很糟糕。“我们没想过把这个东西变成问答游戏。”他说。</p>    <p>相反,乔斯维亚克仍然集中精力用一个自动化程序帮助人们做更多事情。他指出,Siri 可以在 Mac 上完成复杂的文件搜索,或者在即将发布的 HomePod 音箱上展示出深厚的音乐知识。还有一个例子是在我们见面几天后发生的,Siri 当时因为出色的语音搜索和控制功能获得了科技艾美奖。你可以对系统说,“嘿,Siri,往回倒两分钟。”就可以轻松实现回放,这实在太方便了。</p>    <p>Siri 并非无所不能,它做不到的事情还有很多。它最大的用处就是让你可以少点击几下屏幕,少输入几个文字,而不是解决复杂的问题,或者对我们是否生活在模拟空间展开辩论。不过,由于 Siri 没有任何限制,你可以随意向其提问,所以用户会尝试各种各样的问题。</p>    <p>“让用户知道他们能说什么并非小事。”阿赛洛说。他的工作之一就是帮助 Siri 提升交流技巧,在无法回答问题时也可以保持优雅。“我们需要为 Siri 赋予这种能力,让它知道自己究竟有什么不知道。”他说,“但这是个棘手问题。”苹果的网站,甚至它的广告都是为了帮助人们更好地理解 Siri 能做什么,不能做什么。</p>    <p>另外一项挑战是让人们记住 Siri 的存在。“人们做某件事情的时候都有自己的习惯,”阿赛洛说,“如果他们习惯了打字,想要突然改变,就需要一段时间。”所以,苹果向着正确的方向鼓励人们。</p>    <p>在 iOS 11 中,Siri 的曝光度将大幅加强,也将比以往更加主动。它会观察你的浏览网页的过程,然后向你推荐适合阅读的 Apple News 文章,或者在你通过 Groupon 预约按摩后帮你添加提醒日志。新的 Siri 可以在不同的设备间同步设置,所以无论你使用的是什么电子产品,Siri 都对你了如指掌。</p>    <p>过去几年,苹果没有加快进度让开发者整合 Siri。Alexa 和触角相对狭窄的 Google Assistant 都鼓励第三方开发与之兼容的应用,而 Siri 却始终与世隔绝。</p>    <p>事实上,强森在广告里所做的一切都只能通过苹果自己的应用完成。它不会调用你手机上的谷歌地图或 Outlook,也肯定无法开启不支持 HomeKit 的灯泡。去年,该公司谨慎地面向更多开发者开放,允许用户使用 Siri 拨打 WhatsApp 电话,呼叫 Uber 专车,或者用 Venmo 汇款。iOS 11 的大门将进一步敞开,但幅度却很小。</p>    <p>这种缓慢的进度导致苹果在吸引力方面丧失了领先优势,因为亚马逊和谷歌都在加大对开发者的支持,并且相互比拼功能。至少乔斯亚维克仍然很有耐心。他表示,问题不在于 Siri 能做多少事情。“而在于‘怎样才能做对?’因为我们不想变得太死板。”</p>    <p>他对亚马逊和谷歌那种严格的句法结构不屑一顾。在这用这两款服务时,你必须按照这样的句法来表达:“Alexa,问问 Daily Horoscopes 关于金牛座的情况。”或者“OK Google,让我跟 Todoist 说话。”他更希望等到你可以随心所欲地表达时再这样做。与以往一样,苹果还是保持着宁缺毋滥的态度。</p>    <p>句法问题最终还要回归到阿赛洛听到萨曼莎和托姆布雷在屏幕上坠入爱河时得出的结论。即便是在科幻电影里,最好的电脑也应该能像人一样自然说话。“它可以正确地停顿,使用正确的语调和平缓的语音。”他说,“声音里有一点金属味。”他希望开发这样一款产品,让所有人都能使用它。每当你要查看进度时,直接问 Siri 就行了。</p>    <p>来自: <a href="/misc/goto?guid=4959010677589070992" id="link_source2">腾讯科技</a></p>