IBM使用深度学习技术达成了语音识别领域的一个新的里程碑

jopen 7年前
   <p style="text-align: center;"><a href="/misc/goto?guid=4958996742577646022" title="IBM"><img alt="IBM使用深度学习技术达成了语音识别领域的一个新的里程碑" src="https://simg.open-open.com/show/c413fa504c187c7fe243788733616a09.gif" /></a></p>    <p>英文原文: <a href="/misc/goto?guid=4959005592998161218">Using Deep Learning Technologies IBM Reaches a New Milestone in Speech Recognition</a></p>    <p>最近,IBM 的一个研究团队<a href="/misc/goto?guid=4959005593094391040">宣布</a>他们在语音识别上创造了一个新的业界纪录,在使用 <a href="/misc/goto?guid=4959005593201182145">SWITCHBOARD 语料库</a>的情况下词错误率为 5.5%,接近于人类的错误率 5.1%。人们一般会在所听到的 20 个单词中遗失其中的一到两个。在一次五分钟左右的对话中,大约会遗失 80 个词。</p>    <p><a href="/misc/goto?guid=4959005593290322407">研究计划</a>中包括<a href="/misc/goto?guid=4959005593387967845">深度学习</a>技术的应用和<a href="/misc/goto?guid=4959005593479486157">声学模型</a>的集成。其中语音识别模型使用了<a href="/misc/goto?guid=4959005593587133001">长短期记忆</a>(LSTM,Long Short Term Memory)和 <a href="/misc/goto?guid=4959005593715728409">WaveNet</a> 语言模型。在声学模型上,他们使用了三个模型的分数融合(Score Fusion)。第一个模型是有多特征输入的 LSTM,第二个模型是经过说话者对抗多任务学习(Speaker-adversarial Multi-task Learning)训练后的 LSTM。第三个模型是具有 25 个卷积层与时间扩张(Time-dilated)卷积的残差网络(ResNet)。最后一个模型不仅从正向的例子中学习,而且也使用了负向的例子,因此当类似的语音模式重现时,会具有更好的表现。</p>    <p>来自蒙特利尔大学蒙特利尔学习算法实验室(Montreal Institute for Learning Algorithms )的 <a href="/misc/goto?guid=4959005593846630177">Yoshua Bengio</a> 对语音识别技术是如此评论的:</p>    <blockquote>     <p>在过去的几年中,尽管在语音识别或物体识别等人工智能领域取得了巨大的进展,技术上也已经接近于人类的水平,但在科学上依然存在着挑战。诚然,标准的基准测试并非总能揭示真实数据的多样性和复杂度。例如,不同的数据集对于不同的任务会呈现出不一样的敏感性,而且结果十分依赖于如何对被测试人员进行评估,比如使用专业的誊写员进行语音识别测试。</p>    </blockquote>    <p>他也指出,IBM 的这项研究将声学模型与语言模型应用于神经网络与深度学习,有助于推进语音识别技术的发展。</p>    <p>另据一些语音识别相关的新闻报道,IBM 已将 <a href="/misc/goto?guid=4959005593964888160">Diarization</a> 添加到他们的“<a href="/misc/goto?guid=4959005594073082013">Watson 语音转文本</a>”服务中。这一技术有助于一些用例的实现,例如识别交谈中的各方发言者。所有这些成就所带来的技术有助于解决人类耳朵、声音和大脑交互复杂性的问题。</p>    <p>来自: <a href="/misc/goto?guid=4959005594174930857" id="link_source2">InfoQ</a></p>