谷歌DeepMind发布GenRM技术:微调LLM成为奖励模型

谷歌DeepMind团队推出新型生成式验证器:奖励模型提升生成式AI推理能力

近日,谷歌DeepMind团队在arXiv上发表论文,介绍了他们研发的新型生成式验证器——GenRM。该验证器采用奖励模型,创新性地提出了下一token预测目标,有效提升了生成式AI的推理能力。与当前主流的基于Best-of-N模式的验证器相比,GenRM具有多个优势,如无缝集成指令调整支持、支持思维链推理以及充分利用额外推理时间等。实验结果显示,使用GenRM的验证器相较于判别分类器和LLM-as-a-Judge验证器,在算法和小学数学推理任务中的表现更优,使用Best-of-N解决问题的百分比提高了16-64%。这一成果标志着人工智能奖励系统的重要进化,有助于防止新模型学习到的欺诈行为。

发表回复