中科大突破:无图大模型答对视觉问题
中科大、香港中文大学、上海AI Lab研究团队发现大模型可仅凭文本解决问题
近期,我国科研团队在中科大、香港中文大学、上海AI Lab的合作下,意外地发现了一种现象:一些大型语言模型(LVLMs)在处理多模态问题时,不需要查看相关图像,仅通过理解和分析问题及其选项文本,就可以得出满意的结果。这一发现引起了业内广泛关注,并引发了对现有评估方法合理性的质疑。
研究人员指出,这一现象可能源于现有的评估样本和评估过程存在一定的问题。部分评估样本并未充分考虑到视觉内容的重要性,导致部分LVLMs在不需要查看图像的情况下仍能取得良好的成绩。此外,现有评估过程中并未充分考虑到语言和多模态LVLMs训练过程中的数据泄露问题,这可能导致某些LVLMs之间无法进行公平的比较。
为解决这些问题,研究人员设计了一个名为“多模态评估基准”的新评估体系,该体系包含1,500个具有视觉依赖性的高质量评估样本,覆盖了样本均衡的粗略感知、精细感知,实例推理、逻辑推理、科学技术、数学等多个核心能力和细节能力维度。同时,研究者们提出了两个评估指标:多模态增益(MG)和多模态泄露(ML),以反映LVLMs在多模训练过程中的真实性能增益和数据泄露程度。
实验结果显示,使用新评估体系的22个LVLMs在多模态基准上表现不尽如人意,多数模型未能达到及格线。其中,GPT-4V在新型基准上仍未达标,仅取得57.1的平均性能。相比之下,一些多模态模型在MMStar基准上的表现要优于GPT-4V和GeminiPro-Vision。
总之,此次研究发现LVLMs在处理多模态问题时具有一定的局限性,同时也暴露出现有评估方法的不足。未来,研究者们需要进一步完善评估体系,以期更准确地衡量LVLMs在不同场景下的表现,并为提高其性能提供有力支持。