上海AI Lab发布Llama版o1大模型

5 11 月 2024

上海AI Lab发布Llama版o1大模型

近日，我国上海人工智能实验室团队在开源界传来重大喜讯，成功复刻了OpenAI的o1推理大模型，发布了名为LLaMA版本的o1项目。该团队在项目简介中明确指出，他们采用了蒙特卡洛树搜索、Self-Play强化学习、PPO算法以及AlphaGo Zero的双重策略范式，即先验策略与价值评估的结合，为提高大模型的数学能力做出了创新尝试。

据悉，自2024年6月OpenAI o1系列发布之前，上海AI Lab团队便开始探索如何运用蒙特卡洛树搜索来提升大模型的数学能力，并积累了相关经验。此次开源的最新代码在开发者社区中引发了热烈讨论。

在OpenAI o1系列发布后，该团队着手升级算法，专注于解决数学奥赛问题，将其作为OpenAI草莓项目的开源版本。10月初，团队上传了一篇新论文，介绍了一种名为成对优化（不直接给出绝对分数，而是比较两个答案的相对优劣）的方法，以提升LLaMA模型在数学奥赛问题上的能力。在AIME2024基准测试的30道难题中，经过优化的LLaMA-3.1-8B-Instruct模型做对了8道题，超越了除o1-preview和o1-mini之外的所有商业闭源方案。

值得一提的是，团队在基于AlphaGo Zero架构复刻OpenAI o1的过程中取得了重大突破。他们成功使模型在学习过程中通过与搜索树交互，获得高级思维能力，无需人工标注。这一进展不到一周便以开源的形式公布于众。

LLaMA版o1的最新开源内容包括预训练数据集、预训练模型和强化学习训练代码。OpenLongCoT-Pretrain数据集包含了10万条以上的长思维链数据，每条数据都包含一个完整的数学问题推理过程，包括思考内容、评分结果以及批评和验证内容。通过在这样一个数据集上预训练，模型能够读取并输出类似于o1的长思维链过程。目前预训练代码尚未发布，推荐使用LLaMAFactory进行替代。

令人感兴趣的是，尽管项目名为LLaMA-O1，但目前官方提供的预训练模型基于谷歌的Gemma 2。在预训练模型的基础上，可以继续进行强化学习训练。训练代码中使用了LoRA进行参数高效微调，采用PPO算法作为策略优化方法，并实现了GAE算法用于计算优势函数，同时利用优先经验回放来提高训练效率。

LLaMA-O1的代码已发布在GitHub上的SimpleBerry账号下，目前该账号并未透露更多关于自身的研究方向信息，显得较为神秘。值得一提的是，除了LLaMA-O1项目之外，上海交通大学团队也发布了名为O1-Journey的o1复刻项目。该团队在十月初发布了第一份进展报告，介绍了Journey Learning范式，以及成功将搜索和学习整合到数学推理中的模型。

更多关于LLaMA-O1的信息，可参考以下链接：https://github.com/SimpleBerry/LLaMA-O1 相关论文：https://arxiv.org/abs/2406.07394 https://arxiv.org/abs/2410.02884；关于O1-Journey的信息，可参考以下链接：https://github.com/GAIR-NLP/O1-Journey/。本文来源于微信公众号“量子位”，作者梦晨。

分秒AI研究院

分秒AI研究院

上海AI Lab发布Llama版o1大模型

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

上海AI Lab发布Llama版o1大模型

上海AI Lab发布Llama版o1大模型

分秒AI

发表回复 取消回复

发表回复取消回复