Meta AI 推出“无缝”翻译器,通用语音翻译器从科幻小说概念转变为现实

Meta AI 研究人员周四宣布,他们已经开发了一套名为“无缝通信”的新人工智能模型,旨在实现更自然、更真实的跨语言交流——从根本上使通用语音翻译的概念成为现实。这些模型于本周与研究论文和随附数据一起公开发布。

这款名为 Seamless 的旗舰模型将其他三个模型(SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2)的功能合并到一个统一的系统中。根据该研究论文,Seamless是“第一个公开可用的系统,可以实时解锁富有表现力的跨语言交流。

Seamless 如何作为通用实时翻译器


无缝翻译器代表了使用 AI 进行博客交流的新领域。它结合了三个复杂的神经网络模,可实现 100 多种口语和书面语言之间的实时翻译,同时保留说话者声音的声乐风格、情感和韵律。

SeamlessExpressive 专注于在语言之间翻译时保留说话者声音的声乐风格和情感细微差别。正如论文中所描述的,“翻译应该捕捉到人类表达的细微差别。虽然现有的翻译工具擅长捕捉对话中的内容,但它们通常依赖于单调的机器人文本转语音系统来输出。

SeamlessStreaming 可实现近乎实时的翻译,延迟仅为约 2 秒。研究人员表示,这是“第一个大规模多语言模型”,可以在近100种口语和书面语言中提供如此快的翻译速度。

第三个模型 SeamlessM4T v2 是其他两个模型的基础。它是去年发布的原始SeamlessM4T型号的升级版。据该论文称,新架构提供了“改进的文本和语音输出之间的一致性”。

“总而言之,Seamless让我们看到了将通用语音翻译器从科幻小说概念转变为现实世界技术所需的技术基础,”研究人员写道。

改变全球通信的潜力

这些模型的功能可以实现新的基于语音的通信体验,从使用智能眼镜的实时多语言对话到自动配音的视频和播客。研究人员认为,它还可以帮助打破移民和其他沟通困难者的语言障碍。

“通过公开发布我们的工作,我们希望研究人员和开发人员能够通过构建旨在在日益相互联系和相互依存的世界中弥合多语言联系的技术来扩大我们贡献的影响,”该论文指出。


然而,研究人员承认,该技术也可能被滥用于语音网络钓鱼诈骗、深度伪和其他有害应用。为了促进模型的安全性和负责任的使用,他们实施了多项措施,包括音频水印和减少幻觉有毒输出的新技术。


Hugging Face上公开发布的模型

为了履行 Meta 对开放研究和合作的承诺,无缝通信模型已在 Hugging Face 和 Github 上公开发布。

该集合包括 Seamless、SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2 模型以及随附的元数据。

通过免费提供这些最先进的自然语言处理模型,Meta 希望使其他研究人员和开发人员能够建立和扩展这项工作,以帮助将不同语言和文化的人们联系起来。该版本突显了 Meta 在开源 AI 领域的领导地位,并为研究界提供了宝贵的新资源。

“总的来说,无缝可能产生的多维体验可能会导致机器辅助跨语言交流方式的逐步变化,”研究人员总结道。

发表回复