NeurIPS2024：ReST-MCTS*让大模型“自我升级”

5 11 月 2024

NeurIPS2024：ReST-MCTS*让大模型“自我升级”

近日，来自清华大学知识工程研究室（KEG）和加州理工学院的联合研究团队，成功开发了一种名为ReST-MCTS*的新型强化自训练方法。该方法旨在解决大语言模型（LLM）自训练过程中遇到的难题，有望进一步提升LLM在微调复杂任务时的性能。

自训练是验证Scaling Law能否继续奏效的关键方法之一，但现有自训练方法往往因为错误或无用的中间奖励信号，导致微调训练集质量低下。为了解决这一问题，研究团队提出了ReST-MCTS*，通过树搜索MCTS*指导过程奖励，既可自动获取可靠的推理路径，又能有效利用奖励信号进行验证和LLM自训练。

ReST-MCTS*的核心优势在于其创新性的搜索算法。该算法基于蒙特卡洛树搜索（MCTS）的一个变体，使用每个推理步骤的质量值作为训练好的基于LLM的过程奖励模型的价值目标。这使得ReST-MCTS*能够在给定的Oracle最终正确答案下，通过估算每一步有助于得出正确答案的概率，推断出正确的过程奖励。

实验结果表明，ReST-MCTS*在相同的搜索预算下，比LLM推理基线（如CoT + Best-of-N和Tree-of-Thought）实现了更高的准确率。同时，将ReST-MCTS*搜索到的轨迹作为训练数据，在多次迭代中持续增强LLM，优于Self-Rewarding LM等其他自训练算法。

该研究还针对LLM自训练过程中的关键难点和挑战进行了深入探索，主要包括以下几个方面：

1. 构建了全新的搜索算法MCTS*，为MCTS提供指导，能够自动标注每个中间节点的过程奖励；
2. 提出了过程奖励模型（PRM），准确计算每个推理步骤的奖励值；
3. 将过程奖励引导与树搜索相结合，探索有效的解空间并合成高质量的轨迹；
4. 结合监督学习的微调技术，构建新的自训练方法，生成高质量的解决方案并进行自我提升。

尽管ReST-MCTS*在提升LLM微调性能方面取得了显著成果，但仍存在一些局限性。未来研究团队将致力于以下方面：

1. 证明ReST-MCTS*可以推广到数学以外的其他推理任务，以及没有ground-truth的任务；
2. 扩展价值模型的规模和多样性，提升其在更多领域的应用能力；
3. 进一步改进自训练数据过滤技术，确保生成高质量的训练集。

ReST-MCTS*的成功开发将为LLM自训练领域带来新的突破，有助于推动LLM在各个领域的应用发展。

分秒AI研究院

分秒AI研究院

NeurIPS2024：ReST-MCTS*让大模型“自我升级”

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

NeurIPS2024：ReST-MCTS*让大模型“自我升级”

NeurIPS2024：ReST-MCTS*让大模型“自我升级”

分秒AI

发表回复 取消回复

发表回复取消回复