机器如何学会听懂人说话？(2)

从单词转到词组并不容易。"句子里的单词会交汇起来，你会弄不清楚，不知道单词从哪里开始，到哪里结束。于是，你会得到'euthanasia'这样的东西，而它可能是'youth in Asia'。"韦贝尔说，"或者，当你说'Give me a new display'时，它可能会被理解为'give me a nudist play'。"

Harpy一共能识别1011个单词，这大概是一个普通的三岁小孩的词汇量。它的准确率也相当不错，所以实现了Darpa最初的目标。"它成了现代语音识别系统真正的祖先，"卡内基梅隆大学语言技术所的所长杰米·卡博内尔（Jaime Carbonell）说，"它是第一个成功利用语言模型判断哪些单词放在一起会产生意义的系统，因此它能够降低语音识别的错误。"

在之后的一些年里，语音识别系统进一步发展。在二十世纪八十年代，IBM制造了语音激活的打字机Tangora，它能够处理20000个单词的词汇量。IBM的方法是基于隐马尔可夫模型（hidden Markov model），把统计学纳入数字信号处理技术。这一方法让我们有可能预测哪些音素最有可能出现在某一给定音素的后面。

IBM的竞争对手Dragon Systems提出了自己的方法。此时，技术取得了长足的进步，语音识别终于能够应用到实际生活中——比如可以让儿童训练讲话的玩偶。虽然取得了很多成就，但是当时的所有程序都采用了不连续听写，这意味着用户必须在每个单词后停顿一下。1990年，Dragon Systems发布了第一款消费语音识别产品Dragon Dictate，9000美元的售价令人咂舌。然后，在1997年，Dragon NaturallySpeaking 问世——这是第一款连续语音识别产品。

"在那以前，语音识别产品局限在不连续的话语，这就意味着它们一次只能识别一个单词，" Nuance Communications公司高级副总裁、Dragon的总经理彼得·马奥尼（Peter Mahoney）说，"Dragon是连续语音识别的先锋，它首次实现了实用的语音识别，可用来创建文件。"Dragon NaturallySpeaking每分钟能够识别100个单词的话语——时至今日，它仍在使用。比如美国和英国的很多医生用它来归档医疗记录。

Image copyright iStock Image caption 微软的个人智能助理小娜（Cortana）是数十年实验的成果（图片来源：iStock）

在过去的十年间，大致基于人脑工作模式的机器学习技术让计算机能够接受大量语音的训练，从而成功识别不同人的不同口音。

然而，直至谷歌发布了用于苹果手机的谷歌语音搜索应用"Google Voice Search"，技术才又继续向前发展。谷歌的方法是使用云计算处理应用收到的数据。突然间，大众可以获得的语音识别拥有了大规模计算的能力。谷歌能够运行大规模的数据分析，匹配用户的单词和数十亿个搜索词条中积累的大量人类语音的例子。2010年，谷歌为安卓手机的语音搜索添加了"个性化识别"。2011年中期，又把语音搜索加入Chrome浏览器。苹果也很快推出了它自己的版本，名为Siri，而微软的语音识别功能名为AI Cortana，名字来自流行的光环系列游戏（Halo）中的一个人物。

所以，下一步会发生什么？"在语音处理领域，最成熟的技术就是语音合成，"奥戈尔曼说，"机器语音和人类语音现在已经基本上无法区分。但是在很多情况下，自动语音识别与人耳相比仍有较大差距。"虽然在一个几乎没有噪音的环境下，一个人只要讲话清晰就能被自动识别，但是当发生所谓的"鸡尾酒会效应"（人类能够在嘈杂的聚会中听到某一个人说的话）时，最新技术仍束手无策。就连Alexa也是这样，如果房间里很吵闹，你就必须靠近黑色圆柱体，清楚大声的对它讲话。

亚马逊在语音识别方面的尝试是受到了《星际迷航》（Star Trek）中计算机的启发，凡德·穆勒恩说。亚马逊的目标是制造一个完全可由语音控制的云端计算机——这样你就可以自然的与它交谈。当然，好莱坞的魔法仍然领先于今日的科技。但是，凡德·穆勒恩说："我们正处于机器学习和人工智能的黄金时代。让机器按照人类的方式做事仍然遥不可及，但是我们每天都在解决一些难以置信的复杂问题。"