智源发布“百模”评测,多模态大模型性能大比拼
2024年12月19日,中国知名的人工智能研究机构——智源研究院,发布了涵盖国内外100余个开源和商业闭源大模型的最新综合评测结果。此次评测不仅对模型的综合能力进行了全面审视,还深入探讨了其在实际应用中的潜力。
报告显示,2024年下半年,大模型的发展更加注重综合能力的提升和实际应用的拓展。特别是多模态模型的发展势头迅猛,众多新的厂商和模型纷纷涌现,尽管语言模型的发展速度相对放缓。
在开源生态方面,不仅有持续坚定开源的国内外机构,还出现了新的开源贡献者,展现了开源社区的活力和多样性。
在语言模型的主观评测中,字节跳动的Doubao-pro-32k-preview和百度的ERNIE 4.0 Turbo分别位居前两名,显示出卓越的中文处理能力。而OpenAI的o1-preview-2024-09-12和Anthropic的Claude-3-5-sonnet-20241022也表现不俗,位列第三和第四。阿里巴巴的Qwen-Max-0919则以第五名的成绩展现了其在语言模型领域的竞争力。
在文生视频模型方面,国产模型在全球范围内领先。然而,在K12学科测验中,大模型与海淀学生的平均水平仍有差距,尤其在理科方面存在“文强理弱”的偏科现象。
本次评测在扩展和丰富任务解决能力内涵的基础上,新增了数据处理、高级编程和工具调用的相关能力与任务。同时,首次增加了面向真实金融量化交易场景的应用能力评估,以及基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解和语言表达等核心能力进行了深入分析。
智源研究院副院长兼总工程师林咏华在发布会上强调,FlagEval评测体系始终坚持科学、权威、公正、开放的原则,通过技术创新和平台建设,为评估模型能力提供了可靠的标准。展望未来,FlagEval评测体系将进一步提升动态评测和多任务能力评估体系,以更精准的评测结果感知大模型技术的发展趋势。
值得一提的是,智源研究院与全国十余家高校和机构合作,共同开发了AI辅助评测模型FlagJudge和灵活全面的多模态评测框架FlagEvalMM。同时,还构建了涵盖HalluDial幻觉评测集、CMMU多模态评测集、MG18多语言跨模态评测集、TACO复杂代码评测集和MLVU长视频理解评测集等在内的挑战性评测集,其中与北京大学共建的HalluDial是目前全球规模最大的对话场景下的幻觉评测集。
为了确保评测数据的准确性和安全性,智源研究院吸纳了近期发布的数据集,并对评测数据进行了动态更新,替换了98%的题目,并提高了题目的难度,有效规避了数据集泄露和数据集饱和度问题。