“20亿参数新模型SmolVLM:Hugging Face推轻量AI端侧推理
11月27日,业界知名的人工智能技术平台Hugging Face宣布,其新开发的SmolVLM视觉语言模型(VLM)已正式对外发布。这款视觉语言模型体积小巧,仅拥有20亿参数,专为设备端推理而设计,凭借其极低的内存占用优势,在众多同类模型中脱颖而出。
据Hugging Face官方介绍,SmolVLM具有体积小、速度快、内存高效等显著优点,且所有模型检查点、VLM数据集、训练配方和工具均在Apache 2.0许可证下公开发布,确保了模型的完全开源。SmolVLM共有三个版本:SmolVLM-Base(用于下游微调)、SmolVLM-Synthetic(基于合成数据微调)和SmolVLM-Instruct(指令微调版本,可直接应用于交互式应用)。
SmolVLM的架构设计是其最大的亮点之一。该模型借鉴了Idefics3的设计理念,使用了SmolLM2 1.7B作为语言主干,并采用像素混洗策略将视觉信息的压缩率提高到9倍。在训练数据集方面,SmolVLM使用了Cauldron和Docmatix,并对SmolLM2进行了上下文扩展,使其能够处理更长的文本序列和多张图像。通过优化图像编码和推理过程,SmolVLM有效降低了内存占用,解决了以往大型模型在普通设备上运行缓慢甚至崩溃的问题。
在图像编码方面,SmolVLM将384×384像素的图像块编码为81个tokens,因此在相同测试图片下,SmolVLM仅使用1200个tokens,而Qwen2-VL则需要1.6万个tokens。在吞吐量方面,SmolVLM在MMMU、MathVista、MMStar、DocVQA和TextVQA等多个基准测试中表现出色,处理速度相较于Qwen2-VL,预填充(prefill)吞吐量快3.3到4.5倍,生成吞吐量快7.5到16倍。
Hugging Face此次推出的SmolVLM视觉语言模型,以其小巧的体积、高效的内存占用和出色的性能,为设备端推理带来了全新的解决方案。相信在未来的发展中,SmolVLM将在人工智能领域发挥重要作用。