Transformer新升级:优化长文本处理,内存需求锐减

科技资讯(10月9日)——近日,谷歌公司宣布推出一种名为选择性注意(Selective Attention)的新型技术,该技术旨在提升基于Transformer架构的模型性能。Transformer架构自2017年由谷歌提出以来,在自然语言处理(NLP)等序列数据处理领域展现出革命性的应用潜力。

Transformer架构的核心机制是自注意力机制,该机制允许模型在处理序列数据时,捕捉到词与词之间的关联,从而实现对输入序列所有部分的关注,而不仅仅是局部信息。这种机制通过编码器和解码器的协同工作,能够高效地并行处理信息,从而显著提升模型的准确性和效率。

然而,Transformer架构在处理长文本序列时面临着效率低下的问题。由于每个标记都与序列中的其他标记进行相互作用,导致计算复杂度和内存需求随着序列长度的增加而呈指数增长。为了解决这个问题,研究人员尝试了稀疏注意力机制和上下文压缩技术等方法,但这些方法往往以牺牲性能为代价,可能会遗漏关键信息。

谷歌研究团队提出的选择性注意力技术,通过动态忽略不再相关的标记,有效提高了Transformer模型的效率。该技术利用软掩码矩阵来确定每个标记对未来标记的重要性,从而减少对不重要标记的关注。研究结果表明,采用选择性注意的Transformer模型在多个NLP任务中均表现出优异的性能,同时显著降低了内存和计算成本。

举例来说,在一款拥有1亿参数的Transformer模型中,通过引入选择性注意力机制,模型在上下文大小为512、1024和2048个tokens时,注意力模块的内存需求分别减少了至原来的1/16、1/25和1/47。此外,该方法在HellaSwag基准测试中,相较于传统Transformer模型,实现了高达5%的准确率提升,并允许构建更小、更高效的模型,在保证准确性的同时,大幅降低内存需求。

选择性注意技术的推出,标志着Transformer模型在效率和性能上的又一重大突破,有望为自然语言处理等领域的应用带来更为广阔的前景。

发表回复