阿里开源AI大模型Qwen2-VL:支持任意分辨率图像

AI领域研究团队发布新型视觉语言模型:Qwen2-VL实现动态分辨率支持及多模态融合

近日,我国AI领域的研究团队通义千问团队对Qwen-VL模型进行了升级,推出了全新的Qwen2-VL模型。这一关键性的架构改进主要体现在动态分辨率支持的实现以及Multimodal Rotary Position Embedding(M-ROPE)的多模态融合。

据悉,Qwen2-VL的关键架构改进之一是实现了动态分辨率支持(Naive Dynamic Resolution support)。这意味着,Qwen2-VL可以处理任意分辨率的图像,无需将其分割成块,从而保证了模型输入与图像固有信息的一致性。这种方法更接近地模拟了人类的视觉感知,使得模型能够处理各种清晰度和大小的图像。

另一个重要的架构改进是Multimodal Rotary Position Embedding(M-ROPE)。通过将原始旋转嵌入分解为代表时间、空间(高度和宽度)信息的三个部分,M-ROPE使得大型语言模型能够同时捕捉和集成一维文本、二维视觉和三维视频的位置信息。这使得大型语言模型具备了多模态处理和推理的能力。

在7亿规模的模型中,Qwen2-VL-7B保留了图像、多图像和视频输入的支持,提供了“具有竞争力”的性能,同时保持了较高的成本效益。而Qwen2-VL-2B模型则针对移动部署进行了优化,虽然参数量仅有2亿,但在图像、视频和多语言理解方面表现出色。

总之,Qwen2-VL模型的推出展示了我国AI技术在视觉语言领域的最新研究成果,有望在未来的应用场景中发挥重要作用。

发表回复