谷歌Duo音频增强不会让你挂在电话上
“很高兴听到你的声音,你知道已经很久了,如果我没有接到你的电话,那么一切都会变糟……你的声音在电话那头给了我一种奇怪的感觉”——Blondie,“挂在电话上”
1978年,黛比·哈里(Debbie Harry)将她的新浪潮乐队Blondie推上了音乐排行榜的首位,她讲述了一个悲伤的故事:渴望听到远方男友的声音,坚持不要让她“挂在电话上”。
但问题出现了:如果是在2020年,她通过VOIP讲话时出现断续的包丢失、音频抖动、网络延迟和包传输顺序混乱怎么办?
我们永远不会知道。
但谷歌本周宣布了其广受欢迎的语音和视频应用程序的新技术细节,这将有助于确保更流畅的语音传输,并减少有时会破坏互联网连接的短暂间隙。我们想黛比会同意的。
我们都经历过网络音频抖动。当包含音频指令流的一个或多个指令包在调用者和监听者之间被延迟或打乱顺序时,就会发生这种情况。使用语音包缓冲区和人工智能的方法通常可以在20毫秒或更少的时间内平滑抖动。但是当丢失的数据包加起来达到60毫秒甚至更多时,中断就变得更加明显了。
谷歌说几乎所有的电话都经历了一些数据包丢失:五分之一的电话丢失了3%的音频,十分之一的电话丢失了8%。
本周,来自DeepMind部门的谷歌研究人员报告说,他们已经开始使用一个名为WaveNetEQ的程序来解决这些问题。该算法擅长于用合成的但听起来很自然的语音元素来填补暂时的声音空白。WaveNetEQ依靠大量的语音数据,填补了长达120毫秒的声音空白。这种声音比特交换被称为包丢失隐藏(PLC)。
“WaveNetEQ是一种基于DeepMind的WaveRNN技术的生成模型,”谷歌的人工智能博客4月1日报道说,“它使用大量的语音数据进行训练,实际地继续短语音片段,使其能够充分合成缺失语音的原始波形。”
该项目分析了来自48种语言的100名使用者的声音,聚焦于“人类语言的一般特征,而不是特定语言的属性,”报告解释道。
此外,声音分析还在各种背景噪音的环境中进行了测试,以帮助确保在繁忙的城市人行道、火车站或自助餐厅的扬声器准确识别声音。
所有WaveNetEQ处理都必须在接收方的手机上运行,这样加密服务就不会受到影响。但是谷歌断言,对处理速度的额外需求是最小的。WaveNetEQ“速度足够快,可以在手机上运行,而且与目前使用的其他系统相比,它还能提供最先进的音频质量和更自然的PLC声音。”
说明音频抖动和WabeNetEQ改进的声音样本发布在谷歌博客报告中。