上海AI Lab发布Llama版o1大模型
近日,我国上海人工智能实验室团队在开源界传来重大喜讯,成功复刻了OpenAI的o1推理大模型,发布了名为LLaMA版本的o1项目。该团队在项目简介中明确指出,他们采用了蒙特卡洛树搜索、Self-Play强化学习、PPO算法以及AlphaGo Zero的双重策略范式,即先验策略与价值评估的结合,为提高大模型的数学能力做出了创新尝试。
据悉,自2024年6月OpenAI o1系列发布之前,上海AI Lab团队便开始探索如何运用蒙特卡洛树搜索来提升大模型的数学能力,并积累了相关经验。此次开源的最新代码在开发者社区中引发了热烈讨论。
在OpenAI o1系列发布后,该团队着手升级算法,专注于解决数学奥赛问题,将其作为OpenAI草莓项目的开源版本。10月初,团队上传了一篇新论文,介绍了一种名为成对优化(不直接给出绝对分数,而是比较两个答案的相对优劣)的方法,以提升LLaMA模型在数学奥赛问题上的能力。在AIME2024基准测试的30道难题中,经过优化的LLaMA-3.1-8B-Instruct模型做对了8道题,超越了除o1-preview和o1-mini之外的所有商业闭源方案。
值得一提的是,团队在基于AlphaGo Zero架构复刻OpenAI o1的过程中取得了重大突破。他们成功使模型在学习过程中通过与搜索树交互,获得高级思维能力,无需人工标注。这一进展不到一周便以开源的形式公布于众。
LLaMA版o1的最新开源内容包括预训练数据集、预训练模型和强化学习训练代码。OpenLongCoT-Pretrain数据集包含了10万条以上的长思维链数据,每条数据都包含一个完整的数学问题推理过程,包括思考内容、评分结果以及批评和验证内容。通过在这样一个数据集上预训练,模型能够读取并输出类似于o1的长思维链过程。目前预训练代码尚未发布,推荐使用LLaMAFactory进行替代。
令人感兴趣的是,尽管项目名为LLaMA-O1,但目前官方提供的预训练模型基于谷歌的Gemma 2。在预训练模型的基础上,可以继续进行强化学习训练。训练代码中使用了LoRA进行参数高效微调,采用PPO算法作为策略优化方法,并实现了GAE算法用于计算优势函数,同时利用优先经验回放来提高训练效率。
LLaMA-O1的代码已发布在GitHub上的SimpleBerry账号下,目前该账号并未透露更多关于自身的研究方向信息,显得较为神秘。值得一提的是,除了LLaMA-O1项目之外,上海交通大学团队也发布了名为O1-Journey的o1复刻项目。该团队在十月初发布了第一份进展报告,介绍了Journey Learning范式,以及成功将搜索和学习整合到数学推理中的模型。
更多关于LLaMA-O1的信息,可参考以下链接:https://github.com/SimpleBerry/LLaMA-O1 相关论文:https://arxiv.org/abs/2406.07394 https://arxiv.org/abs/2410.02884;关于O1-Journey的信息,可参考以下链接:https://github.com/GAIR-NLP/O1-Journey/。本文来源于微信公众号“量子位”,作者梦晨。