“Whisper模型大升级:转录速度翻倍不失真”

10月3日,OpenAI在DevDay活动日上正式发布了Whisper large-v3-turbo语音转录模型。这一新模型在保持高质量的同时,转录速度相较于之前的large-v3版本实现了显著提升,速度提升了8倍。

Whisper large-v3-turbo是large-v3的优化升级版,其参数数量为8.09亿,略高于medium版本的7.69亿,但远低于large版本的15.5亿。值得注意的是,Whisper large-v3-turbo仅采用了4层解码器层,而large-v3则拥有32层,这使得新模型在体积上更为紧凑。

在性能方面,Whisper large-v3-turbo的速度提升尤为明显。OpenAI透露,该模型的速度比large模型快8倍,同时所需的VRAM也降低了,从10GB减少到6GB。此外,Whisper large-v3-turbo模型的大小仅为1.6GB,这对于优化资源使用具有重要意义。

OpenAI依然按照MIT许可证提供Whisper,包括代码和模型权重。根据Awni Hannun的测试结果,在M2 Ultra处理器上,12分钟的内容可以被快速转录为14秒,效率显著提高。

模型下载链接:https://github.com/openai/whisper/discussions/2363
模型下载地址:https://huggingface.co/openai/whisper-large-v3-turbo
在线体验地址:https://huggingface.co/spaces/hf-audio/whisper-large-v3-turbo

发表回复