NeurIPS2024:ReST-MCTS*让大模型“自我升级”

近日,来自清华大学知识工程研究室(KEG)和加州理工学院的联合研究团队,成功开发了一种名为ReST-MCTS*的新型强化自训练方法。该方法旨在解决大语言模型(LLM)自训练过程中遇到的难题,有望进一步提升LLM在微调复杂任务时的性能。

自训练是验证Scaling Law能否继续奏效的关键方法之一,但现有自训练方法往往因为错误或无用的中间奖励信号,导致微调训练集质量低下。为了解决这一问题,研究团队提出了ReST-MCTS*,通过树搜索MCTS*指导过程奖励,既可自动获取可靠的推理路径,又能有效利用奖励信号进行验证和LLM自训练。

ReST-MCTS*的核心优势在于其创新性的搜索算法。该算法基于蒙特卡洛树搜索(MCTS)的一个变体,使用每个推理步骤的质量值作为训练好的基于LLM的过程奖励模型的价值目标。这使得ReST-MCTS*能够在给定的Oracle最终正确答案下,通过估算每一步有助于得出正确答案的概率,推断出正确的过程奖励。

实验结果表明,ReST-MCTS*在相同的搜索预算下,比LLM推理基线(如CoT + Best-of-N和Tree-of-Thought)实现了更高的准确率。同时,将ReST-MCTS*搜索到的轨迹作为训练数据,在多次迭代中持续增强LLM,优于Self-Rewarding LM等其他自训练算法。

该研究还针对LLM自训练过程中的关键难点和挑战进行了深入探索,主要包括以下几个方面:

1. 构建了全新的搜索算法MCTS*,为MCTS提供指导,能够自动标注每个中间节点的过程奖励;
2. 提出了过程奖励模型(PRM),准确计算每个推理步骤的奖励值;
3. 将过程奖励引导与树搜索相结合,探索有效的解空间并合成高质量的轨迹;
4. 结合监督学习的微调技术,构建新的自训练方法,生成高质量的解决方案并进行自我提升。

尽管ReST-MCTS*在提升LLM微调性能方面取得了显著成果,但仍存在一些局限性。未来研究团队将致力于以下方面:

1. 证明ReST-MCTS*可以推广到数学以外的其他推理任务,以及没有ground-truth的任务;
2. 扩展价值模型的规模和多样性,提升其在更多领域的应用能力;
3. 进一步改进自训练数据过滤技术,确保生成高质量的训练集。

ReST-MCTS*的成功开发将为LLM自训练领域带来新的突破,有助于推动LLM在各个领域的应用发展。

发表回复