xLSTM神经网络AI架构问世:并行化处理Token,挑战Transformer

IT之家5月13日电,研究人员Sepp Hochreiter与Jürgen Schmidhuber于1997年共同提出了长短期记忆(Long Short-Term Memory, LSTM)神经网络结构,用于解决循环神经网络(Recurrent Neural Network, RNN)长期记忆能力不足的问题。近期,Sepp Hochreiter在arXiv上发表了一篇题为《扩展长短期记忆》(Extended LSTM)的论文,提出了一种名为xLSTM的新型架构,旨在解决LSTM长期以来“仅能按时间顺序处理信息”的局限性,挑战当下热门的Transformer架构。据IT之家了解,该研究团队使用基于xLSTM和Transformer架构的两款模型进行了150亿个Token的训练和测试。结果表明,xLSTM在性能上优于Transformer,特别是在“语言能力”方面表现出明显优势。因此,研究人员预测xLSTM未来有可能与Transformer展开竞争。

发表回复