智源发布“百模”评测，多模态大模型性能大比拼

19 12 月 2024

智源发布“百模”评测，多模态大模型性能大比拼

2024年12月19日，中国知名的人工智能研究机构——智源研究院，发布了涵盖国内外100余个开源和商业闭源大模型的最新综合评测结果。此次评测不仅对模型的综合能力进行了全面审视，还深入探讨了其在实际应用中的潜力。

报告显示，2024年下半年，大模型的发展更加注重综合能力的提升和实际应用的拓展。特别是多模态模型的发展势头迅猛，众多新的厂商和模型纷纷涌现，尽管语言模型的发展速度相对放缓。

在开源生态方面，不仅有持续坚定开源的国内外机构，还出现了新的开源贡献者，展现了开源社区的活力和多样性。

在语言模型的主观评测中，字节跳动的Doubao-pro-32k-preview和百度的ERNIE 4.0 Turbo分别位居前两名，显示出卓越的中文处理能力。而OpenAI的o1-preview-2024-09-12和Anthropic的Claude-3-5-sonnet-20241022也表现不俗，位列第三和第四。阿里巴巴的Qwen-Max-0919则以第五名的成绩展现了其在语言模型领域的竞争力。

在文生视频模型方面，国产模型在全球范围内领先。然而，在K12学科测验中，大模型与海淀学生的平均水平仍有差距，尤其在理科方面存在“文强理弱”的偏科现象。

本次评测在扩展和丰富任务解决能力内涵的基础上，新增了数据处理、高级编程和工具调用的相关能力与任务。同时，首次增加了面向真实金融量化交易场景的应用能力评估，以及基于模型辩论的对比评估方式，对模型的逻辑推理、观点理解和语言表达等核心能力进行了深入分析。

智源研究院副院长兼总工程师林咏华在发布会上强调，FlagEval评测体系始终坚持科学、权威、公正、开放的原则，通过技术创新和平台建设，为评估模型能力提供了可靠的标准。展望未来，FlagEval评测体系将进一步提升动态评测和多任务能力评估体系，以更精准的评测结果感知大模型技术的发展趋势。

值得一提的是，智源研究院与全国十余家高校和机构合作，共同开发了AI辅助评测模型FlagJudge和灵活全面的多模态评测框架FlagEvalMM。同时，还构建了涵盖HalluDial幻觉评测集、CMMU多模态评测集、MG18多语言跨模态评测集、TACO复杂代码评测集和MLVU长视频理解评测集等在内的挑战性评测集，其中与北京大学共建的HalluDial是目前全球规模最大的对话场景下的幻觉评测集。

为了确保评测数据的准确性和安全性，智源研究院吸纳了近期发布的数据集，并对评测数据进行了动态更新，替换了98%的题目，并提高了题目的难度，有效规避了数据集泄露和数据集饱和度问题。

分秒AI研究院

分秒AI研究院

智源发布“百模”评测，多模态大模型性能大比拼

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

智源发布“百模”评测，多模态大模型性能大比拼

智源发布“百模”评测，多模态大模型性能大比拼

分秒AI

发表回复 取消回复

发表回复取消回复