Meta自学评估器:无需人工注释提升AI大语言模型评审

Meta公司推出“自学评估器”以改进自然语言处理技术的评估方法

近日,Meta公司推出了一种名为“自学评估器”的技术,旨在解决当前自然语言处理(NLP)技术依赖人工注释评估AI模型的难题。这种新技术利用合成数据训练AI模型,以减轻对人工注释的需求。

随着大型语言模型(LLMs)的发展,如何更精确地执行复杂的语言相关任务,实现更加自然的人机交互成为了研究重点。然而,现有的模型评估方法严重依赖人工注释。虽然人工生成的数据对训练和验证模型至关重要,但收集这些数据既费时又费力,而且随着模型的改进,以前收集的注释可能需要更新,从而降低了它们在评估新模型时的效用。

为了解决这个问题,Meta公司的FAIR团队提出了一种全新的评估方法——“自学评估器”。该方法的关键步骤包括:首先,使用种子LLM为给定指令生成基线响应;其次,创建指令的修改版本,促使LLM生成质量低于原始响应的新响应。这些配对回答构成了训练数据的基础,而“自学评估器”则作为LLM-as-a-Judge,为这些配对生成推理轨迹和判断。通过反复这个过程,模型通过自我生成和自我评估的数据不断提高其判断的准确性,从而有效地形成了自我完善的循环。

研究人员在Llama-3-70B-Instruct模型上测试了“自学评估器”,并将准确率从75.4提高到了88.7,达到了甚至超过了使用人类注释训练的模型的性能。这表明,合成数据在加强模型评估方面具有有效性。此外,研究人员还进行了多次迭代,进一步完善了模型的功能。

总之,“自学评估器”是一种创新的评估方法,可以大幅降低对人工注释的需求,从而加速AI模型的发展和应用。

发表回复