Stability AI新模型FreeWilly击败Llama 2，性能媲美ChatGPT，登顶开源模型第一

24 7 月 2023

Stability AI新模型FreeWilly击败Llama 2，性能媲美ChatGPT，登顶开源模型第一

7月21日，独角兽Stability AI联合CarperAI实验室发布基于Llama 2 70B微调的新模型FreeWilly 2，以及基于Llama 1 65B微调的新模型FreeWilly 1。

在最新的 HuggingFace 的 Open LLM 排行榜上，FreeWilly 2拿下开源模型第一，平均得分比Llama 2高了4个百分点。

排行榜链接：https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

模型地址：https://huggingface.co/stabilityai/FreeWilly2

模型地址：https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor

FreeWilly 模型采用了基于标准Alpaca格式，并经过监督微调（SFT）的全新合成数据集来进行训练。

根据官方的介绍，FreeWilly 2 在基准测试中表现优异，甚至有部分任务还超过了GPT-3.5。这样，FreeWilly 2 成了首个可以和 GPT-3.5 相抗衡的开源大模型，连前几天被称为「最强开源模型」的Llama 2也未达成。

PART 01FreeWilly 数据来源

Stability AI在官方博客中表示，FreeWilly 模型的训练方法是受到微软论文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》的直接启发。所以 FreeWilly 模型的数据生成过程与它相似，但两者的数据来源却存在差异。

论文链接：https://arxiv.org/pdf/2306.02707.pdf

FreeWilly 的数据集包含了 60 万个数据点（大约是原始 Orca 论文使用的数据集大小的 10%），它是通过以下由 Enrico Shippole 创建的高质量指令数据集来启发语言模型生成的：

COT Submix Original
NIV2 Submix Original
FLAN 2021 Submix Original
T0 Submix Original

通过这种方法，Stability AI用一个较简单的 LLM 模型生成了 500,000 个示例，又用一个较复杂的 LLM 模型生成了 100,000 个示例。为了确保比较的公平性，Stability AI对这些数据集进行了仔细筛选，删除了来自评估基准的示例。尽管训练的样本量只有原始 Orca 论文的十分之一，但所生成的 FreeWilly 模型在各种基准测试中都表现出了卓越的性能，这也验证了合成生成数据集方法的可行性。PART 02FreeWilly 性能评估

为了评估 FreeWilly 模型的性能，Stability AI的研究人员采用了 EleutherAI 的 lm-eval-harness 基准，并加入了AGIEval基准。
lm-eval-harness 基准

lm-eval-harness 基准：由 EleutherAI 非盈利人工智能研究实验室创建，是一个专门为 LLM 进行 few shot 任务测评的工具，包括了 200 多种指标的测评。HuggingFace Open LLM 排行榜就使用了该基准来进行指标（ ARC (25-s), HellaSwag (10-s), MMLU (5-s) 及 TruthfulQA (MC) ）计算。

AGIEval 基准

AGIEval 基准：由微软创建，专门用于评估基础模型在「以人为本」（human-centric）的标准化考试中，如高考、公务员考试、法学院入学考试、数学竞赛和律师资格考试中的表现。

论文链接：https://arxiv.org/pdf/2304.06364.pdf
数据链接：https://github.com/microsoft/AGIEval

FreeWilly 1 和 FreeWilly 2 在 lm-eval-harness 基准上的评估结果如下：

FreeWilly 1 和 FreeWilly 2 在 AGIEval 基准上的评估结果如下（全部是 0-shot）：

FreeWilly 1 和 FreeWilly 2 在 GPT4ALL 基准上的评估结果如下（全部是 0-shot）：

从结果上看，FreeWilly 1 和 FreeWilly 2在多个方面都表现优秀，包括复杂的推理、理解语言的微妙之处，以及回答与专业领域相关的复杂问题（如法律和数学问题解决）。显然，开源模型正在进一步缩小与ChatGPT等最领先闭源模型的差距。

不过，虽然两个模型都是开放获取的，但官方表示，这两款模型都是研究实验，是以非商业许可的形式发布的，仅可用于研究目。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友，扫下方二维码加入我们人工智能交流群

分秒AI研究院

分秒AI研究院

Stability AI新模型FreeWilly击败Llama 2，性能媲美ChatGPT，登顶开源模型第一

分秒AI研究院

发表回复取消回复

分秒AI研究院

分秒AI研究院

Stability AI新模型FreeWilly击败Llama 2，性能媲美ChatGPT，登顶开源模型第一

Stability AI新模型FreeWilly击败Llama 2，性能媲美ChatGPT，登顶开源模型第一

分秒AI研究院

发表回复 取消回复

发表回复取消回复