工程师将脑信号直接转换为语音
在科学上,哥伦比亚的神经工程人员创建了一个系统,将思想转换为可理解的,可识别的语音。通过监视某人的大脑活动,该技术可以以前所未有的清晰度重建一个人听到的单词。利用语音合成器和人工智能的力量的这一突破,可能会导致计算机与大脑直接通信的新方式。它还为帮助无法说话的人(例如患有肌萎缩性侧索硬化症(ALS)或中风后康复的人)恢复与外界交流的能力奠定了基础。
这些发现今天发表在《科学报告》上。
该论文的资深作者,首席研究员尼玛·梅斯加拉尼(Nima Mesgarani)博士说:“我们的声音有助于将我们与我们的朋友,家人和周围的世界联系起来,这就是为什么由于受伤或疾病而失去自己的声音的能力如此具有破坏性的原因。”在哥伦比亚大学的Mortimer B. Zuckerman心理大脑行为研究所。“通过今天的研究,我们有一种恢复这种力量的潜在方法。我们已经证明,使用正确的技术,任何听众都可以对这些人的思想进行解码和理解。”
数十年的研究表明,当人们讲话甚至幻想讲话时,大脑中就会出现活动的讲述模式。当我们听某人说话或想象听时,也会出现不同(但可识别)的信号模式。试图记录和解码这些模式的专家们看到了一个未来,即思想不必隐藏在大脑内部,而是可以随意翻译成口头讲话。
但事实证明,完成这一壮举具有挑战性。Mesgarani博士和其他人早期对脑信号进行解码的努力集中在分析频谱图的简单计算机模型上,频谱图是声频的视觉表示。
但是由于这种方法无法产生任何类似于语音的语音,因此Mesgarani博士的团队转向了声码器,这是一种计算机算法,可以在对讲话人的录音进行训练后合成语音。
Mesgarani博士说:“这与Amazon Echo和Apple Siri用来对我们的问题进行口头答复的技术相同。” Mesgarani博士也是哥伦比亚富基金会工程与应用科学学院电气工程副教授。
为了教声码器解释大脑的活动,Mesgarani博士与Northwell Health Physician Partners神经科学研究所的神经外科医师Ashesh Dinesh Mehta博士合作,他是今天论文的合著者。Mehta博士为癫痫患者提供治疗,其中一些患者必须接受定期手术。
Mesgarani博士说:“与Mehta博士合作,我们让已经接受脑外科手术的癫痫患者听不同人所说的句子,同时我们测量了大脑活动的方式。”“这些神经模式训练了声码器。”
接下来,研究人员要求那些同样的病人听说话者背诵0到9之间的数字,同时记录可以通过声码器运行的大脑信号。由声码器响应这些信号而产生的声音,通过神经网络进行了分析和清理,神经网络是一种模拟生物大脑中神经元结构的人工智能。
最终的结果是朗读一系列数字的机器人声音。为了测试录音的准确性,Mesgarani博士及其团队要求个人聆听录音并报告所听到的内容。
Mesgarani博士说:“我们发现人们可以在大约75%的时间内理解并重复声音,这远远超出了以往的任何尝试。”当将新录音与早期基于频谱图的尝试进行比较时,清晰度的提高尤其明显。“灵敏的声码器和强大的神经网络以惊人的准确性代表了患者最初听的声音。”
Mesgarani博士和他的团队计划下一步测试更复杂的单词和句子,他们希望对一个人讲话或想象中讲话时发出的脑信号进行相同的测试。最终,他们希望他们的系统可以成为植入物的一部分,类似于某些癫痫患者所佩戴的植入物,从而将佩戴者的思想直接转化为文字。