“Whisper模型大升级：转录速度翻倍不失真”

3 10 月 2024

“Whisper模型大升级：转录速度翻倍不失真”

10月3日，OpenAI在DevDay活动日上正式发布了Whisper large-v3-turbo语音转录模型。这一新模型在保持高质量的同时，转录速度相较于之前的large-v3版本实现了显著提升，速度提升了8倍。

Whisper large-v3-turbo是large-v3的优化升级版，其参数数量为8.09亿，略高于medium版本的7.69亿，但远低于large版本的15.5亿。值得注意的是，Whisper large-v3-turbo仅采用了4层解码器层，而large-v3则拥有32层，这使得新模型在体积上更为紧凑。

在性能方面，Whisper large-v3-turbo的速度提升尤为明显。OpenAI透露，该模型的速度比large模型快8倍，同时所需的VRAM也降低了，从10GB减少到6GB。此外，Whisper large-v3-turbo模型的大小仅为1.6GB，这对于优化资源使用具有重要意义。

OpenAI依然按照MIT许可证提供Whisper，包括代码和模型权重。根据Awni Hannun的测试结果，在M2 Ultra处理器上，12分钟的内容可以被快速转录为14秒，效率显著提高。

模型下载链接：https://github.com/openai/whisper/discussions/2363
模型下载地址：https://huggingface.co/openai/whisper-large-v3-turbo
在线体验地址：https://huggingface.co/spaces/hf-audio/whisper-large-v3-turbo

分秒AI研究院

分秒AI研究院

“Whisper模型大升级：转录速度翻倍不失真”

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

“Whisper模型大升级：转录速度翻倍不失真”

“Whisper模型大升级：转录速度翻倍不失真”

分秒AI

发表回复 取消回复

发表回复取消回复