北大清华推出LLaVA-o1,引领自发生成视觉AI新里程碑
11月19日,中国知名高校北京大学、清华大学,以及鹏城实验室、阿里巴巴达摩院和理海大学(Lehigh University)联合宣布,他们共同研发出一种名为LLaVA-o1的新型视觉语言模型。这是全球首个能够进行自主多阶段推理的模型,其性能与GPT-o1相当,标志着视觉语言模型(VLM)领域的一项重要突破。
LLaVA-o1拥有110亿个参数,基于Llama-3.2-Vision-Instruct模型开发,专门设计用于执行总结、描述、推理和结论等四个推理阶段。为了提升模型的性能,研发团队使用了一个名为LLaVA-o1-100k的数据集进行微调,该数据集融合了视觉问答(VQA)数据以及由GPT-4o生成的结构化推理注释。
该模型采用了阶段级束搜索(stage-level beam search)的推理时间Scaling技术,能够在每个推理阶段生成多个候选答案,并从中选择最优解。这一创新技术使得LLaVA-o1在处理复杂任务时展现出强大的能力,尤其在复杂视觉问答任务中,能够突破传统视觉语言模型的局限。
在多模态推理基准测试中,LLaVA-o1相较于基础模型,性能提升了8.9%,超越了众多大型且闭源的研究成果。这一成果不仅填补了文本和视觉问答模型之间的空白,还在多个基准测试中显示出结构化推理在视觉语言模型中的重要性。
值得一提的是,自发性人工智能(Spontaneous AI)的概念在LLaVA-o1的研发过程中也得到了应用。自发性人工智能旨在模拟动物的自发行为,通过机器学习和复杂的时间模式设计出具有自发行为的机器人或智能系统。
此次LLaVA-o1的发布,不仅展现了中国在人工智能领域的强大实力,也为视觉语言模型的发展开辟了新的方向。未来,LLaVA-o1有望在数学、科学等领域的视觉问题推理中发挥重要作用。