告别“霍金音”:华裔科学家首次利用AI直接从大脑中合成语音 | 广东省智能创新协会

发布日期:2019-04-26 09:38
       这是人类历史上第一次,直接从大脑中输出完整的口语句子。  
       4月25日, Nature杂志发表了一项新成果, 神经科学家设计了一种可以将大脑信号转换为语音的设备。通过最先进的脑机界面,根据大脑活动控制的虚拟声道来产生自然合成的合成语音。简单来说,就是通过解码人类嘴唇、下巴、舌头和喉头等脑信号,将其转换成患者想表达的语音。
     “这是第一次,我们可以根据个人的大脑活动生成完整的口语句子。” 加州大学旧金山分校神经外科教授,也是该成果的主要研究员Edward Chang说。  


华裔教授Edward Chang,加州大学旧金山分校神经外科教授,重点研究方向为言语、运动和人类情感的大脑机制。

      语音障碍者广泛存在。由于各类事故、中风或神经退行性疾病(如肌萎缩侧索硬化症或肌萎缩侧索硬化症)中受伤而导致言语能力丧失,成千上万的人无法进行正常的交流。  
       用外部设备生成辅助语音输出早已有之。我们之前所熟知的,例如霍金使用的语音合成器,是通过人类眼睛和面部动作来拼写单词,在理想情况下,可以帮助瘫痪者每分钟输出多达 8 个单词。    



       这些技术已经给失语患者带来了一些生活改善,但与自然语音每分钟150 个单词的平均速度比起来,通过外部接口进行输出的速度还是太慢了。  
       Nature最新发布的这项实验成果则将沟通恢复能力直接提升了一个层级:直接读取大脑信号合成语音。相比逐字录入,更加高效,并且可以解决现有技术语音输出的很多问题,比如靠单个音节蹦字导致的语音语调缺失。如果可以应用到临床,可以大大改善语音障碍患者的沟通能力。  
       尽管脑电波产生的内容相比自然语音依然颇为模糊,但是已经是整句的输出,并且保留了句子的断句感和语调。据该研究称,多达70%的英语母语测试者认为可以听懂相关内容。 
       其实去年年初,Science杂志也报道过Edward Chang团队在脑机接口上作出的重要进展,当时的研究还停留在单个数字的记录上:研究者让测试者听口述数字,并基于其听到数字时脑活动的记录,进行电脑重建语音。当时的数字虽然也可辨认,但是只停留在单个词语的输出。  
       而对比最新放出的音频,仅仅一年多的时间,已经可以输出完整的语句了。据Edward Chang称,这一技术目前已经“触手可及”,“我们应该能够在失去语言能力的患者中,构建一种具有临床可行性的设备。”    



       解读大脑意图,然后生成语音   
       对于因神经损伤而无法沟通的人来说,将神经活动转化为语言的技术将具有变革性的意义。  
       从神经活动中解码语音是具有挑战性的,因为说话需要对声道咬合架进行非常精确和快速的多维控制。Chang教授他们设计的神经解码器,明确地利用人类皮质活动中编码的运动和声音表示来合成可听语音。递归神经网络首先将记录的皮质活动直接解码为关节运动的表示,然后将这些表示转换为语音声学。   


 
       在封闭的词汇测试中,听众可以很容易地识别和转录从皮层活动合成的语音。即使数据有限,中间关节动力学也能提高性能。这些发现提高了使用语音神经假体技术恢复口语交流的临床可行性。虽然,此次实验是在具有完整语言功能的志愿者中进行,但在未来,该技术有望恢复由于瘫痪和其他形式的神经损伤而失去说话能力的人的声音。