语音识别:你的智能手机变得更智能
当我们还是个孩子的时候,我和我的朋友经常玩一个游戏,在那里我们幻想星际迷航的哪些技术最有可能是我们生命中的现实世界发明。 传送器和经纱驱动器-不太可能。 但是通信器、语音控制计算机和通用翻译器很有可能。
当语音识别出现在计算机桌面上时,这似乎是一个很好的想法-但对大多数人来说,它不是键盘和鼠标的替代品。 现在,语音识别技术正在一个全新的环境中使用:手机。 它的存在进一步推动了它在桌面上的使用和发展。
语音识别最初是在20世纪50年代作为一种原始技术出现的,只不过是一种好奇心。 在20世纪60年代初,IBM的鞋盒设备可以识别16个口语单词,并能响应简单的数学请求,如“三加四总计”。
龙系统公司(Dragon Systems)的Dictate可能是PC的第一个语音识别程序,该程序于20世纪80年代初为DOS计算机发布。 它只能识别个别的单词,一次说一个。 随着时间的推移,它演变成了龙自然说话的产品(现在版本11,由Nuance Communications拥有),它可以用正常的会话声音和速度转录所说的文本。
桌面上的语音识别有两个很大的局限性。 首先,为了使程序具有高度的准确性,必须对其进行训练,以识别用户的语音模式。 Windows Vista和Windows7的原生语音对文本技术,以及龙自然演讲等第三方产品,仍然需要一个用户培训期才能有用。
第二个限制是键盘的流行。 大多数人已经习惯于打字,而不是说话,因此语音控制面临着与Dvorak键盘布局相同的艰难障碍。 为什么要学会使用德沃夏克,当普通的旧QWERTY是现成的,工作良好?
负责为多种环境开发语音识别技术的微软TellMe团队的高级产品经理Abhi释放也同意这一点:“在桌面环境中,用户可以很容易地使用其他交互方式,即键盘和鼠标,因此使用语音主要针对语音爱好者。
更广泛的应用所需要的语音控制计算是两件事-更好的开箱即用和一个演讲已经是王道的场所。 有一个这样的场所长期以来一直在上升:手机。
Nuance的产品管理和营销副总裁Matt Revis解释了桌面和移动环境之间的差异:“桌面是一个完全集中在桌面用例上的静止环境,因此桌面的语音遵循任务流程:支持办公应用程序、Web浏览、通信等。 在移动领域,演讲更多的是为了支持各种生活方式:专业人士的外出、外出游玩、免提(呼叫)等等。
Gartner的分析师阮元(Tuong Nguyen)也认为,在移动环境下,声音更有意义。 “从使用角度看,”他说,“在手持设备上语音识别的价值要大得多。 它增加了一种方便用户、直观的输入方法。
Nguyen补充说,这当然是正确的,如果说一个简单的声明语句的替代方法是通过大量的菜单挖掘或与微小的屏幕键盘斗争:“随着越来越多地采用只触摸设备(没有物理键),语音识别被用来增强数据输入/输入。 它还支持免提要求或立法“。
(故事继续在下一页)
语音识别是通过建立口语统计模型来实现的。 “为了识别口语词,”谷歌产品经理Amir Mane说,“我们将输入语音与语言的统计模型进行比较,并试图找到最接近的匹配-系统对用户所说的话的最佳猜测。”
语言的统计模型需要大量的存储才能实用。 “[它们]必须涵盖语言的所有基本声音(音素),所有的单词,以及所有不同的方式,这些单词可以用口语连接在一起,”Mane说。 除此之外,还有口音、性别和年龄差异、区域发音、单词选择(“苏打水”对“可乐”对“流行”)等等。
曼指出,谷歌语音搜索的统计模型需要三个要素:声学模型、语言模型和词汇。 他说:“一个声学模型是通过对语音录音和所说内容的转录来创建的,并利用这两个来创建一个电话的表示,这是特定语言中所有单词的基本组成部分。
语言模型包括找出哪些单词可能跟随其他单词,并将其用作提高识别精度的方法。 “‘帝国反击战’这个词后面会跟着‘国家’或‘罢工’(如《帝国反击战》),而不是后面跟着‘多样化’或‘瓜瓦’,”Mane解释道。 从该领域收集数据有助于不断改进语言模型和词汇。
谷歌并不是唯一一家众包公司。 语音识别应用程序Vlingo在用户手机上放置cookie,根据用户自己的反馈,结合基于类似扬声器的模型,不断构建语音模型。