谷歌新研究:小模型可挑战大模型,实现Test-Time端新Scaling Law

近日,谷歌DeepMind公布了一项关于优化大模型推理计算策略的研究,引发业内热议。该研究表明,在大模型预训练阶段投入较少计算资源,而在推理阶段投入更多计算资源,可能比仅增加模型参数更具经济性和效率。这一策略或许能解释为何谷歌有望在未来两周内发布的全新模型“草莓”(Strawberry)在推理能力方面实现大幅提升。

谷歌DeepMind的研究团队提出了一种名为“计算最优”的扩展策略,可根据问题难度自适应分配测试时的计算资源。他们分析了两种主要机制:一是针对基于过程的密集验证器奖励模型(PRM)进行搜索;二是根据prompt自适应地更新模型的响应分布。

研究发现,这种策略在不同难度级别的问题上表现出明显差异。在修订场景中,与传统的best-of-N方法相比,计算最优扩展能在使用较少的测试计算资源的情况下实现更好的性能。然而,对于推理计算而言,增加预训练计算往往更为有效。

尽管这项研究揭示了一些现有测试时计算扩展方法的局限性,但并不能完全替代预训练扩展。不过,它在某些情况下展示出了优势,为探索更加高效的模型扩展方法提供了有益启示。

这一研究成果引发了业内外的广泛关注和讨论,部分网友甚至认为这一方法可能适用于解释OpenAI即将发布的全新模型“草莓”。尽管尚无确切证据证实这一猜测,但无疑为业界带来了更多关于模型设计和优化的新思路。

发表回复