Meta发布开源大模型Llama 3,竞争GPT-4

Meta公司发布了其最新的开源大语言模型Llama 3,包括Llama 3 8B和Llama 3 70B两款模型,这两款模型将在主要云供应商上线。Llama 3 8B和Llama 3 70B的性能被描述为强大,这是得益于其在巨大的训练数据之上的训练。据Meta透露,Llama 3的训练数据规模高达15万亿个token,几乎相当于Llama 2的七倍。为了满足多语种需求,超过5%的预训练数据集由涵盖30多种语言的高质量非英语数据组成。

Meta公司在训练数据和训练效率方面进行了大量的优化和改进。其中包括提高数据规模和质量、数据并行化、模型并行化和管道并行化等。此外,Meta还改进了硬件可靠性和静默数据损坏检测机制,以及开发了新的可扩展存储系统。这些改进使得Llama 3的训练效率比Llama 2提高了约三倍。

在安全性方面,Meta采用了新的系统级方法来负责任地开发和部署Llama 3。他们将Llama 3视为更广泛系统的一部分,让开发人员能够完全掌握模型的主导权。指令微调在确保模型的安全性方面也发挥着重要作用。Meta的指令微调模型已经通过内部和外部的努力进行了安全红队测试。

尽管Llama 3的性能非常强大,但Meta公司并未对外公布其是否能够赶上OpenAI的GPT-4。看来,开源和闭源的争论远未结束。接下来,我们将密切关注OpenAI对此的回应。

发表回复