AI效率双提升:DeepMind模型优化新突破

近日,谷歌DeepMind团队在人工智能领域取得重大突破,推出了一种名为“可微缓存增强”(Differentiable Cache Augmentation)的创新方法。该方法在不显著增加计算负担的情况下,显著提升了大型语言模型(LLMs)的推理性能。

随着计算技术的不断发展,大型语言模型在语言处理、数学和推理等领域发挥着越来越重要的作用。然而,如何让LLMs在固定计算预算内高效运行,同时保持高性能,一直是研究人员面临的挑战。传统方法在提升模型性能的同时,往往伴随着延迟和计算效率的降低,限制了LLMs执行复杂推理任务的能力。

“可微缓存增强”方法的核心在于引入一个经过训练的协处理器,通过潜在嵌入来增强LLMs的键值(kv)缓存,从而丰富模型的内部记忆。这一创新点在于,即使在保持基础LLM冻结的情况下,通过异步运行的协处理器进行训练,实现了对LLMs内部记忆的增强。

该方法分为三个阶段:首先,冻结的LLM从输入序列生成kv缓存;其次,协处理器使用可训练软令牌处理kv缓存,生成潜在嵌入;最后,增强的kv缓存反馈到LLM,生成更丰富的输出。

在Gemini-2 2B模型上进行的测试显示,该方法在多个基准测试中取得了显著成果。例如,在GSM8K数据集上,准确率提高了10.05%;在MMLU上,性能提升了4.70%。此外,该方法还降低了模型在多个标记位置的困惑度。

谷歌DeepMind的这项研究为增强LLMs的推理能力提供了新的思路。通过引入外部协处理器增强kv缓存,研究人员在保持计算效率的同时显著提高了模型性能,为LLMs处理更复杂的任务铺平了道路。这一创新成果有望推动人工智能领域的发展,为未来更强大的AI应用奠定基础。

发表回复