谷歌使用机器学习来提高Duo的通话质量
谷歌推出了一项新技术,以提高多电话的音频质量,当服务无法保持稳定的连接,称为波网EQ。 它是基于谷歌深层思维部门的技术,旨在用人工噪声取代音频抖动,这种噪声听起来就像人类的语音,使用机器学习产生。
如果你曾经通过互联网打过电话,你很可能经历过音频抖动。 当作为呼叫的一部分发送的音频数据包在途中丢失或以其他方式延迟或以错误的顺序到达时,就会发生这种情况。 谷歌说,99%的多打电话都会经历丢包:其中20%的人失去了3%以上的音频,10%的人失去了8%以上。 这是很多音频要替换。
每个呼叫应用程序都必须以某种方式处理这种丢包,但谷歌说,这些丢包隐藏(P LC)过程可能很难填补60ms或更多的空白,而不需要听起来像机器人或重复。 波网EQ的解决方案是基于DeepMind的神经网络技术,并对来自100多名发言者的48种不同语言的数据进行了培训。
这里有一些音频样本来自谷歌比较波网EQ与网络EQ,一种常用的PLC技术。 这是当它试图取代60毫秒的丢包时的声音:
这是一个比较,当一个呼叫正在经历包丢失120毫秒:
然而,系统可以替换多少音频是有限制的。 谷歌的技术旨在取代短音,而不是整个单词。 所以120毫秒后,它消失并产生沉默。 谷歌表示,它对该系统进行了评估,以确保它没有引入任何重要的新声音。 此外,所有的处理也需要在设备上进行,因为GoogleDuo调用默认是端到端加密的。 一旦呼叫的真实音频恢复,浪潮网络情商将无缝地淡出现实。
这是一个整洁的技术,应该使电话更容易理解,当互联网失败。 这项技术已经可以用于像素4手机上的多次通话,这要归功于手机12月的功能下降,谷歌表示,它正在将其推广到其他未命名的手机上。