跳至正文

阿里云AI语音技术再升级:开源两款基座模型

阿里云通义千问开源两款语音基座模型

近日,我国领先的云计算服务提供商阿里云宣布开源两款全新语音基座模型:SenseVoice 和 CosyVoice。这两款模型是通义千问团队针对语音识别和语音生成领域的研究成果,旨在为用户提供更准确、流畅的语音交互体验。

据悉,SenseVoice 专注于高精度多语言语音识别、情感分析和音频事件检测。经过超过 40 万小时的模型训练,SenseVoice 能够支持超过 50 种语言,识别效果优异。此外,它还具备优秀的情感识别能力,在情感分析方面可以达到和超过目前最佳情感识别模型的效果。同时,SenseVoice 具备声音事件检测能力,可以实时监测音频中的各种事件,如音乐、掌声、笑声、哭声、咳嗽、喷嚏等,实现人机交互的智能化。在推理效率方面,SenseVoice-Small 模型采用非自回归端到端框架,推理延迟极低,10s 音频推理仅耗时 70ms,比同类产品快 15 倍。此外,SenseVoice 模型支持微调定制,便于用户根据业务场景调整模型参数,提升识别效果。

与此同时,CosyVoice 模型同样支持多语言、音色和情感控制,适用于多种语音应用场景。在多语言语音方面,CosyVoice 表现出色的性能;在零样本语音生成方面,CosyVoice 可实现从无到有的语音输出;在跨语言语音克隆方面,它可以实现将一个语言的语音转换成另一个语言的语音;在指令跟随方面,CosyVoice 能够实现对用户语音指令的实时响应。

作为阿里云通义千问团队的代表作品,SenseVoice 和 CosyVoice 的开源将为语音技术的发展和创新提供有力支持。未来,阿里云将继续发挥其在人工智能领域的领先优势,推动语音技术的进步,为广大用户提供更加便捷、智能的语音交互体验。

发表回复