中科大突破：无图大模型答对视觉问题

7 4 月 2024

中科大突破：无图大模型答对视觉问题

中科大、香港中文大学、上海AI Lab研究团队发现大模型可仅凭文本解决问题

近期，我国科研团队在中科大、香港中文大学、上海AI Lab的合作下，意外地发现了一种现象：一些大型语言模型（LVLMs）在处理多模态问题时，不需要查看相关图像，仅通过理解和分析问题及其选项文本，就可以得出满意的结果。这一发现引起了业内广泛关注，并引发了对现有评估方法合理性的质疑。

研究人员指出，这一现象可能源于现有的评估样本和评估过程存在一定的问题。部分评估样本并未充分考虑到视觉内容的重要性，导致部分LVLMs在不需要查看图像的情况下仍能取得良好的成绩。此外，现有评估过程中并未充分考虑到语言和多模态LVLMs训练过程中的数据泄露问题，这可能导致某些LVLMs之间无法进行公平的比较。

为解决这些问题，研究人员设计了一个名为“多模态评估基准”的新评估体系，该体系包含1,500个具有视觉依赖性的高质量评估样本，覆盖了样本均衡的粗略感知、精细感知，实例推理、逻辑推理、科学技术、数学等多个核心能力和细节能力维度。同时，研究者们提出了两个评估指标：多模态增益（MG）和多模态泄露（ML），以反映LVLMs在多模训练过程中的真实性能增益和数据泄露程度。

实验结果显示，使用新评估体系的22个LVLMs在多模态基准上表现不尽如人意，多数模型未能达到及格线。其中，GPT-4V在新型基准上仍未达标，仅取得57.1的平均性能。相比之下，一些多模态模型在MMStar基准上的表现要优于GPT-4V和GeminiPro-Vision。

总之，此次研究发现LVLMs在处理多模态问题时具有一定的局限性，同时也暴露出现有评估方法的不足。未来，研究者们需要进一步完善评估体系，以期更准确地衡量LVLMs在不同场景下的表现，并为提高其性能提供有力支持。

分秒AI研究院

分秒AI研究院

中科大突破：无图大模型答对视觉问题

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

中科大突破：无图大模型答对视觉问题

中科大突破：无图大模型答对视觉问题

分秒AI

发表回复 取消回复

发表回复取消回复