谷歌Translatotron实现语音在不同语言间的转换 | 广东省智能创新协会

发布日期:2019-05-16 10:00
谷歌Translatotron让你说另一种语言变得更加容易。

近日,谷歌正在展示Translatotron,这是一种独一无二的翻译模式,可以直接将语音从一种语言转换为另一种语言,同时保持说话者的声音和节奏。该工具放弃了将语音翻译成文本和返回语音的通常步骤,这通常会导致错误。相反,端到端技术直接将说话者的声音转换为另一种语言。该公司希望该开发将使用人工智能直接翻译模型开拓未来发展。

根据谷歌的说法,Translatotron使用序列到序列的网络模型,它采用语音输入,将其作为频谱图处理 - 频率的直观表示 - 并以目标语言生成新的频谱图。结果是翻译速度更快,一路上丢失的可能性更小。该工具还可与可选的扬声器编码器组件配合使用,该组件可用于保持扬声器的声音。翻译后的语音仍然是合成的,听起来有点机器人,但可以有效地保持说话者声音的某些元素。您可以收听Translatotron在Google Research的GitHub页面上完成翻译时保持演讲者声音的样本。有些肯定比其他人好,但这是一个开始。


Translatotron的模型结构

谷歌最近几个月一直在微调其翻译。去年,该公司推出的谷歌翻译的口音,可以说各种各样的基于区域的发音语言和增加了更多的汉语语音的实时翻译功能。今年早些时候,Google 智能助理为26种语言的智能显示器和扬声器提供了“ 翻译模式 ”。