“DeepSeek-VL2开源:多图处理新利器!”
近日,DeepSeek官方公众号发布重要公告,正式宣布开源DeepSeek-VL2模型。这款模型在多个评测指标上展现出卓越性能,标志着DeepSeek视觉模型正式进入混合专家模型(Mixture of Experts,简称MoE)的新时代。IT之家根据官方新闻稿整理,以下是DeepSeek-VL2的主要亮点:
一、数据方面
DeepSeek-VL2在数据集上实现了显著突破,相较于前一代DeepSeek-VL,新增了一倍以上的优质训练数据。同时,模型引入了梗图理解、视觉定位、视觉故事生成等新能力,为模型带来了更加丰富的视觉处理能力。
二、架构方面
在视觉处理部分,DeepSeek-VL2采用切图策略,支持动态分辨率图像。语言处理部分则采用了MoE架构,以低成本、高性能的方式实现模型训练。
三、训练方面
DeepSeek-VL2继承了DeepSeek-VL的三阶段训练流程,并针对图像切片数量不定的难题进行了负载均衡适配。此外,模型对图像和文本数据采用了不同的流水并行策略,同时对MoE语言模型引入了专家并行,实现了高效的训练过程。
四、动态分辨率支持
DeepSeek-VL2支持动态分辨率图像,仅使用SigLIP-SO400M作为图像编码器。通过将图像切分为多张子图和一张全局缩略图,该模型最多可支持1152×1152的分辨率以及1:9或9:1的极端长宽比,适用于更多应用场景。
五、科研图表理解
DeepSeek-VL2在更多科研文档数据的学习基础上,能够轻松理解各种科研图表。通过Plot2Code技术,该模型可以根据图像生成相应的Python代码。
目前,DeepSeek-VL2模型及其论文已正式对外发布。模型下载链接:https://huggingface.co/deepseek-ai;GitHub主页:https://github.com/deepseek-ai/DeepSeek-VL2。