大模型厂商探索新Scaling Law路径
近日,关于大型语言模型(LLM)的“尺度定律”是否失效的讨论在业内引发热议。起因在于多家媒体爆出,包括OpenAI在内的AI巨头在LLM开发方面遭遇瓶颈,预示着“尺度定律”可能面临挑战。
据悉,OpenAI的GPT系列模型更新步伐放缓,新一代旗舰模型Orion虽然性能提升,但相较于GPT-3到GPT-4的迭代,改进幅度缩小。同时,谷歌、Anthropic等公司也面临着类似的问题,新模型的开发进度并未达到预期。
尽管OpenAI和微软等公司纷纷辟谣“尺度定律”并未失效,但业界普遍认为,LLM发展遇到瓶颈是事实。OpenAI的研究者Noam Brown曾公开表示,随着模型规模不断扩大,训练所需的数据量、算力和电力等资源将面临巨大挑战。
面对这一困境,业界开始寻找新的扩展定律。除了后训练扩展定律和推理扩展定律外,测试时计算被视为实现这些定律的关键手段。OpenAI的O1推理模型正是基于测试时计算,通过优化计算资源分配,在推理阶段提升模型性能。
国内AI企业也纷纷跟随OpenAI的步伐,推出自己的推理模型。DeepSeek的DeepSeek-R1-Lite-Preview模型在性能上已接近O1,背后同样得益于推理层的扩展定律。此外,月之暗面、阿里、昆仑万维等公司也上线了相关推理大模型产品。
虽然短期内AI发展可能会遇到瓶颈,但从长远来看,AI的软硬件能力仍将呈指数增长。这种增长将通过算法优化、硬件加速、新型计算架构等多种路径实现,共同推动AI技术的快速发展。