《新型AI模型Liquid亮相,挑战Llama与Phi性能》
2023年10月2日,一家新兴公司Liquid AI在9月30日正式发布了其旗下三款Liquid基础模型(LFM),型号分别为LFM-1.3B、LFM-3.1B和LFM-40.3B。这些模型以非Transformer架构为核心,声称在多个基准测试中,其性能超越了同等规模的Transformer模型。
值得注意的是,在深度学习和自然语言处理领域,Transformer架构已成为主流,众多知名模型如OpenAI的GPT、Meta的BART和谷歌的T5均基于此架构。而Liquid AI却另辟蹊径,他们的LFM模型对传统架构进行了创新性设计,灵感源自“交通信号处理系统”和“数值线性代数”的理念,旨在实现模型的“通用性”。这一设计使得LFM模型能够对多种类型的数据进行建模,并支持处理视频、音频、文本、时间序列和交通信号等多样化内容。
据Liquid AI透露,与采用Transformer架构的模型相比,LFM模型的RAM占用更少。特别是对于长序列输入的处理,由于Transformer模型需要保存键值缓存,其RAM占用随着序列长度的增加而增加。而LFM模型则能有效压缩输入数据,降低硬件资源需求,在同等硬件条件下,能处理更长的序列。
在刚发布的模型中,LFM-1.3B针对资源受限的环境进行了优化;LFM-3.1B针对边缘计算进行了特定优化;LFM-40.3B则是一款专家混合模型(MoE),适用于数学计算和交通信号处理等场景。这些模型在通用知识和专业知识处理上表现出色,能够高效处理长文本任务,并进行数学和逻辑推理,目前主要支持英语,但也对中文、法语、德语、西班牙语、日语、韩语和阿拉伯语提供有限支持。
Liquid AI指出,LFM-1.3B在多项基准测试中击败了其他1B参数规模的领先模型,如苹果的OpenELM、Meta的Llama 3.2、微软的Phi 1.5以及Stability的Stable LM 2,这标志着非GPT架构的模型首次在性能上超越了Transformer模型。LFM-3.1B不仅在3B规模的各种Transformer模型、混合模型和RNN模型上表现出色,甚至在特定场景下超越了上一代的7B和13B规模模型,目前该模型已战胜谷歌的Gemma 2、苹果的AFM Edge、Meta的Llama 3.2和微软的Phi-3.5等。至于LFM-40.3B,它强调在模型规模和输出质量之间的平衡,虽然其拥有400亿个参数,但在推理时仅启用120亿个参数,Liquid AI表示,这样的限制有助于提升模型效率并降低硬件配置需求。