“微软与清华革新Transformer:借鉴降噪耳机升级注意力机制”
近日,微软亚洲研究院和清华大学的研究团队联合推出了一项名为Differential Transformer(差分Transformer)的创新技术,旨在解决传统Transformer在处理信息时容易受到无关内容干扰的问题。这一新技术的提出,引发了业界的广泛关注和热议。
传统Transformer模型在自然语言处理领域取得了巨大成功,但其一个不容忽视的问题是,模型在注意力分配上容易受到噪声干扰,导致信噪比低。针对这一弊端,微软亚研院和清华团队借鉴了差分放大电路和降噪耳机的设计理念,提出了一种新的注意力机制。
在Differential Transformer中,研究人员在注意力层引入了Softmax函数,并通过两个Softmax函数的差值来滤除共模噪声。这一设计使得模型能够更加集中于关键信息,从而提高模型的准确性和上下文理解能力。
实验结果表明,Differential Transformer仅需约65%的模型大小或训练tokens,就能达到与传统Transformer相当的性能。在长上下文建模、关键信息检索、减少幻觉、提高上下文学习能力和减少激活异常值等多个指标上,新架构均优于传统Transformer架构。
具体来看,Differential Transformer在以下方面展现了卓越的性能:
1. 长上下文建模:随着上下文长度的增加,Differential Transformer的累计平均负对数似然(NLL)持续降低,且低于传统Transformer的NLL值,显示出其对不断增长上下文的有效利用能力。
2. 关键信息检索:在模拟不同复杂程度的信息检索场景中,Differential Transformer在不同上下文长度和答案针深度下均保持稳定性能,尤其在关键信息位于上下文前半部分时,其准确率优势更为明显。
3. 上下文学习能力:在多样本分类和上下文学习稳健性两个维度上,Differential Transformer的准确率始终高于传统Transformer,且结果方差远小于后者。
4. 上下文幻觉减少:在检测模型是否存在幻觉方面,Differential Transformer在不同数据集上的准确率更高,幻觉更少。
5. 激活异常值分析:Differential Transformer在降低激活异常值方面表现出色,尤其是在进行比特宽度量化时,仍能保持较高的性能。
随着Differential Transformer技术的不断发展,其在自然语言处理领域的应用前景将更加广阔。目前,该研究论文已上传至arXiv平台,吸引了众多学者关注和讨论。一作Tianzhu Ye也正积极在线解答相关问题。