“20亿参数新模型SmolVLM：Hugging Face推轻量AI端侧推理

27 11 月 2024

“20亿参数新模型SmolVLM：Hugging Face推轻量AI端侧推理

11月27日，业界知名的人工智能技术平台Hugging Face宣布，其新开发的SmolVLM视觉语言模型（VLM）已正式对外发布。这款视觉语言模型体积小巧，仅拥有20亿参数，专为设备端推理而设计，凭借其极低的内存占用优势，在众多同类模型中脱颖而出。

据Hugging Face官方介绍，SmolVLM具有体积小、速度快、内存高效等显著优点，且所有模型检查点、VLM数据集、训练配方和工具均在Apache 2.0许可证下公开发布，确保了模型的完全开源。SmolVLM共有三个版本：SmolVLM-Base（用于下游微调）、SmolVLM-Synthetic（基于合成数据微调）和SmolVLM-Instruct（指令微调版本，可直接应用于交互式应用）。

SmolVLM的架构设计是其最大的亮点之一。该模型借鉴了Idefics3的设计理念，使用了SmolLM2 1.7B作为语言主干，并采用像素混洗策略将视觉信息的压缩率提高到9倍。在训练数据集方面，SmolVLM使用了Cauldron和Docmatix，并对SmolLM2进行了上下文扩展，使其能够处理更长的文本序列和多张图像。通过优化图像编码和推理过程，SmolVLM有效降低了内存占用，解决了以往大型模型在普通设备上运行缓慢甚至崩溃的问题。

在图像编码方面，SmolVLM将384×384像素的图像块编码为81个tokens，因此在相同测试图片下，SmolVLM仅使用1200个tokens，而Qwen2-VL则需要1.6万个tokens。在吞吐量方面，SmolVLM在MMMU、MathVista、MMStar、DocVQA和TextVQA等多个基准测试中表现出色，处理速度相较于Qwen2-VL，预填充（prefill）吞吐量快3.3到4.5倍，生成吞吐量快7.5到16倍。

Hugging Face此次推出的SmolVLM视觉语言模型，以其小巧的体积、高效的内存占用和出色的性能，为设备端推理带来了全新的解决方案。相信在未来的发展中，SmolVLM将在人工智能领域发挥重要作用。

分秒AI研究院

分秒AI研究院

“20亿参数新模型SmolVLM：Hugging Face推轻量AI端侧推理

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

“20亿参数新模型SmolVLM：Hugging Face推轻量AI端侧推理

“20亿参数新模型SmolVLM：Hugging Face推轻量AI端侧推理

分秒AI

发表回复 取消回复

发表回复取消回复