“五大标准解码:大模型正确评测法”

近日,知名大模型初创公司Anthropic在其最新博客中,针对当前人工智能(AI)领域大模型评测的乱象,提出了一系列科学化的评测建议。该公司通过借鉴统计理论和其他科学领域的实验分析和规划研究,旨在推动AI大模型评测行业的健康发展。

Anthropic指出,目前业界基准测试繁多,但其中存在着诸多评测乱象。特别是在模型性能的比较中,评测结果往往受特定问题选择影响,使得模型间的差异难以准确反映。为解决这一问题,Anthropic提出以下五点建议:

一、应用中心极限定理:评测通常由数百或数千个不相关的问题组成。通过将评测问题视为从“问题世界”中抽取的样本,可使用统计理论来衡量模型的潜在“技能”,从而避免“运气”因素的影响。

二、聚类标准误差:针对某些评测中问题相关性较高的现象,建议以随机化单位对标准误差进行聚类,以更准确地反映模型性能。

三、减少问题内的差异:将模型在特定问题上的得分分解为平均分数和随机成分,并通过降低随机成分的方差,提高整体评测的统计精度。

四、分析配对差异:通过双样本t-test和配对差异检验等方法,消除问题难度差异,专注于模型答案的差异,从而更准确地评估模型性能。

五、使用效力分析:针对统计显著性,Anthropic提出效力分析的概念,帮助研究人员制定假设、计算评测所需问题数量,以确保评测的有效性。

Anthropic强调,评测是推动AI大模型行业发展的重要手段,但相关研究在实际应用中仍存在不足。通过引入统计学方法,提高评测的科学性和准确性,将有助于推动AI大模型行业的健康发展。

据悉,Anthropic相关研究成果已发表在预印本网站arXiv上,论文链接为:https://arxiv.org/abs/2411.00640。Anthropic希望,这些建议能够帮助AI研究人员更精确、清晰地计算、解释和传达评测结果,并鼓励他们探索实验设计中的更多技术,以更准确地理解所测量的内容。

发表回复