英伟达发布NVLM 1.0：多模态AI新时代

21 9 月 2024

英伟达发布NVLM 1.0：多模态AI新时代

英伟达推出多模态大语言模型NVLM 1.0：图像和文本处理能力的提升

近日，英伟达发布了最新的研究成果——多模态大语言模型（Multimodal Large Language Model, MLLM）系列产品NVLM 1.0。这一系列模型采用了先进的架构和高效的算法，能够实现对文本和图像等多模态数据的智能化解析，有效弥补了自然语言理解和视觉理解之间的鸿沟。

NVLM 1.0家族包含了三种主要的架构：NVLM-D、NVLM-X和NVLM-H。这些模型不仅能够实现纯文本的解码，还能够高效处理高分辨率的图像数据。此外，NVLM 1.0模型还采用了高质量纯文本监督微调（Static Fine-tuning）的数据，使得模型在处理视觉语言任务时，不仅具有出色的性能，而且还能保持甚至提高纯文本的性能。

据研究人员介绍，NVLM 1.0模型在多个基准测试中都取得了优异的成绩。在纯文本任务上，NVLM-D1.0 72B模型比其纯文本骨干提高了4.3分；在视觉问答和推理任务上，这些模型在VQAv2数据集上的准确率达到93.6%，在AI2D数据集上的准确率达到87.4%。在OCR相关任务中，NVLM模型的表现更是明显优于现有系统，在DocVQA和ChartQA数据集上的准确率分别达到了87.4%和81.7%。

NVLM 1.0模型的推出，标志着多模态大型语言模型在图像和文本处理能力方面的重大突破。这一成果为自动驾驶、智能家居等领域的应用提供了可能，使人工智能系统向更复杂、更智能的方向发展。

分秒AI研究院

分秒AI研究院

英伟达发布NVLM 1.0：多模态AI新时代

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

英伟达发布NVLM 1.0：多模态AI新时代

英伟达发布NVLM 1.0：多模态AI新时代

分秒AI

发表回复 取消回复

发表回复取消回复