“实时”语音翻译!AI语音具有“情绪”!最强开源AI大模型来了(seamless-communication)
你是否遇到过这样的情况:
你想和一个说不同语言的人交流,但是你不会他的语言!
你想把一段语音转成文字,或者把一段文字转成语音,但是你不知道怎么操作!
你想把一种语言的语音或文字直接转换成另一种语言的语音或文字,但是你需要用多个工具,而且效果不理想!
如果你有这样的困扰,那么你一定会对meta的开源AI模型seamless-communication感兴趣。
这是一个由meta(原Facebook)开发的人工智能模型,这是一个致力于让人们可以跨语言交流、消除语言障碍的AI大模型。它可以实现多种语音和文字之间的转换和翻译,而且只需要一个模型,就可以支持近百种语言,效果也非常出色。
SeamlessStreaming是一个基于深度学习的模型,它可以完成以下几种任务:
语音到语音翻译(S2ST)、语音到文字翻译(S2TT)、文字到语音翻译(T2ST)、文字到文字翻译(T2TT)、自动语音识别(ASR)。
这些任务都可以用一个模型来完成,而且模型可以自动识别输入的语言,不需要用户指定。模型支持的语言也非常多,包括:语音输入(101种语言);文字输入/输出(96种语言);语音输出(35种语言)。
它有哪些绝活?
1、保留情感,无缝表达
现有的翻译工具能够熟练地捕获对话中的内容,但它们通常依赖于单调的机器人文本转语音系统来进行输出。SeamlessExpressive 旨在保留语音的复杂性;例如停顿和语速,以及声音风格和情绪基调。下面是官方示例
英文输入:耳语。
请把音量调小。我们只是让宝宝睡觉。
耳语,AI变革指南,3秒
英文输入:悲伤
请不要离开。我讨厌独自一人在这里。
2、接近实时的语音翻译!
SeamlessStreaming 是第一个大规模多语言模型,它提供大约两秒延迟的翻译,并且与离线模型几乎具有相同的准确性。SeamlessStreaming支持近 100 种输入语言和 36 种输出语言的语音到语音翻译。下图为官方介绍:
seamless-communication如何做到的?
seamless-communication是基于神经网络的模型,它使用了多种技术,融合了SeamlessM4T v2 多语言性、SeamlessStreaming 的低延迟性、 SeamlessExpressive 的表达保存功能。这是第一个同时保持声音风格和韵律的流式翻译模型。
最后的结束语
看了Meta最新AI的效果,你觉得开始所说的翻译会被AI取代是个笑话吗?也许目前看它还不够优秀,无法替代专业的翻译。但是随着技术不断迭代进步,日常生活的大多数场景我相信AI都会胜任。而且只需要一个模型,就可以支持近百种语言,效果也非常出色。在广度上,任何人类都无法和AI相比。
说起来很有趣,我们最初以为AI会代替那些人类不爱做的工作,比如清洁和体力活。结果AI浪潮来了之后,率先被影响的竟然是绘画等高薪岗位。
好了,今天就聊到这。有感兴趣的可以去官网体验,下载。
代码地址:
论文地址:
在线体验:
官网介绍: