“Ministral超Meta Llama 3,开源AI新标杆现边缘AI新篇章”

在庆祝Mistral 7B发布一周年之际,法国人工智能初创公司Mistral再度发力,推出两款轻量级模型——Ministral 3B和Ministral 8B。这两款模型在性能上已超越了Llama 3 8B,显示出Mistral在人工智能领域的卓越实力。

Mistral 7B发布仅一周年,其小模型系列「les Ministraux」便在边缘模型领域崭露头角,击败了Mistral 7B,成为世界上最好的边缘模型。Ministral 3B和Ministral 8B是专为边缘设备设计的轻量级模型,现已正式加入Mixtral、Pixtral、Codestral、Mathstral等Mistral家族成员的行列。

尽管Ministral 3B和Ministral 8B的参数仅有30亿,但在指令跟随基准测试中,它们的性能已经完全超越了Llama 3 8B和Mistral 7B的前辈模型。在大模型竞技场中的测试中,两款模型均取得了与Gemma 2、Llama 3.1开源模型相当的成绩。Ministral 3B和Ministral 8B支持高达128k上下文,这一特性在vLLM中为32k,使得它们在知识、常识、推理、函数调用、效率等方面为低于10B参数的模型树立了新标杆。

特别值得一提的是,Ministral 8B还采用了滑动窗口注意机制(sliding-window attention),实现了更快和内存高效的推理。无论是管理复杂的AI智能体工作流,还是创建专门的任务助手,这两款模型都能够根据不同用例进行微调。

在多项基准测试中,包括知识与常识、代码、数学、多语言等四大方面,Les Minimrau的Mistral 3B取得了最优成绩。尽管在代码能力方面与Llama 3.1 8B和Mistral 7B相比略逊一筹,但其他方面的表现均为最佳。直观的柱状图显示,Ministral 8B在各项评测中位居首位。

在指令微调后,Ministral 3B在不同基准测试中都实现了最优成绩,而Ministral 8B在Wild bench上略逊于Gemma 2 9B。在代码、数学、函数调用方面,两款新模型的性能均大幅超越其他模型。

随着大模型在实际应用中越来越不如小模型来得实际,越来越多的用户希望对关键应用程序能够进行本地优先推理,如设备上的翻译、无需联网的智能助理、自动机器人等。Mistral的les Ministraux为这些场景提供了高计算效率、低延迟的解决方案。当与Mistral Large等更大的模型结合使用时,les Ministraux还可以作为多步智能体工作流中函数调用的中介。

据官方公布的价格显示,Ministral 8B的输入输出价格为每百万token 0.1美元,而Ministral 3B的价格则为每百万token 0.04美元。

Mistral自成立以来,曾以磁力链方式开源多款媲美OpenAI的模型,在AI社区中获得了广泛的认可。这家总部位于巴黎的公司由Meta、谷歌DeepMind前员工创立。不久前,Mistral完成了新一轮融资,估值达到了60亿美元,并推出了GPT-4级别的模型——Mistral Large 2。此外,今年还推出了Mixtral 8x22B专家混合模型,其中包含了编码模型Codestral和数学推理及科学发现模型。

然而,今年Mistral却引发了巨大的争议。有消息称,微软宣布收购Mistral的部分股份并对其进行投资,意味着其模型将在Azure AI进行托管。甚至有Reddit网友发现,Mistral已从官网中移除了致力于开源的承诺。在部分模型的调用上,Mistral也开始实行收费模式。对于一家初创公司来说,坚持开源代码是一个巨大的挑战。Mistral的转型也引发了网友的热议。

发表回复