“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了（seamless-communication）

你是否遇到过这样的情况：

你想和一个说不同语言的人交流，但是你不会他的语言！

你想把一段语音转成文字，或者把一段文字转成语音，但是你不知道怎么操作！

你想把一种语言的语音或文字直接转换成另一种语言的语音或文字，但是你需要用多个工具，而且效果不理想！

如果你有这样的困扰，那么你一定会对meta的开源AI模型seamless-communication感兴趣。

这是一个由meta（原Facebook）开发的人工智能模型，这是一个致力于让人们可以跨语言交流、消除语言障碍的AI大模型。它可以实现多种语音和文字之间的转换和翻译，而且只需要一个模型，就可以支持近百种语言，效果也非常出色。

SeamlessStreaming是一个基于深度学习的模型，它可以完成以下几种任务：

语音到语音翻译（S2ST）、语音到文字翻译（S2TT）、文字到语音翻译（T2ST）、文字到文字翻译（T2TT）、自动语音识别（ASR）。

这些任务都可以用一个模型来完成，而且模型可以自动识别输入的语言，不需要用户指定。模型支持的语言也非常多，包括：语音输入（101种语言）；文字输入/输出（96种语言）；语音输出（35种语言）。

它有哪些绝活？

1、保留情感，无缝表达

现有的翻译工具能够熟练地捕获对话中的内容，但它们通常依赖于单调的机器人文本转语音系统来进行输出。SeamlessExpressive 旨在保留语音的复杂性；例如停顿和语速，以及声音风格和情绪基调。下面是官方示例

英文输入：耳语。

请把音量调小。我们只是让宝宝睡觉。

耳语,AI变革指南,3秒

英文输入：悲伤

请不要离开。我讨厌独自一人在这里。

2、接近实时的语音翻译！

SeamlessStreaming 是第一个大规模多语言模型，它提供大约两秒延迟的翻译，并且与离线模型几乎具有相同的准确性。SeamlessStreaming支持近 100 种输入语言和 36 种输出语言的语音到语音翻译。下图为官方介绍:

seamless-communication如何做到的？

seamless-communication是基于神经网络的模型，它使用了多种技术，融合了SeamlessM4T v2 多语言性、SeamlessStreaming 的低延迟性、 SeamlessExpressive 的表达保存功能。这是第一个同时保持声音风格和韵律的流式翻译模型。

最后的结束语

看了Meta最新AI的效果，你觉得开始所说的翻译会被AI取代是个笑话吗？也许目前看它还不够优秀，无法替代专业的翻译。但是随着技术不断迭代进步，日常生活的大多数场景我相信AI都会胜任。而且只需要一个模型，就可以支持近百种语言，效果也非常出色。在广度上，任何人类都无法和AI相比。

说起来很有趣，我们最初以为AI会代替那些人类不爱做的工作，比如清洁和体力活。结果AI浪潮来了之后，率先被影响的竟然是绘画等高薪岗位。

好了，今天就聊到这。有感兴趣的可以去官网体验，下载。
代码地址：

https://github.com/facebookresearch/seamless_communication

论文地址：

https://ai.meta.com/research/publications/seamless-multilingual-expressive-and-streaming-speech-translation/

在线体验：

https://seamless.metademolab.com/expressive/?utm_source=metaai&utm_medium=web&utm_campaign=seamless&utm_content=technical_page

官网介绍：

https://ai.meta.com/blog/seamless-communication/