研究人员推出xLSTM神经网络AI架构：并行化处理Token、有望迎战Transformer

显示全部楼层 · 2024-5-14 23:20:57|发表时间：2024-5-14 23:20:57

1997年，Sepp Hochreiter和Jürgen Schmidhuber共同提出了长短期记忆（Long Short-Term Memory，LSTM）神经网络结构，以解决循环神经网络（RNN）长期记忆能力不足的问题。然而最近，Hochreuter在《arXiv》上发表了一篇论文，提出了一种名为xLSTM（Extended LSTM）的新架构。
据论文介绍，在新的xLSTM架构中采用了指数型门控循环网络，并引入了“sLSTM”和“mLSTM”两项记忆规则，使得相关神经网络结构能够有效地利用RAM并实现类Transformer的并行化操作。此外，团队还使用了150亿个Token对基于xLSTM及Transformer架构的两款模型进行测试，在评估后发现xLSTM表现最好，尤其是在“语言能力”方面。
根据研究人员的评估结果，“xLSTM有望与Transformer一战”。虽然目前尚不清楚这项技术是否会在未来实际应用到产品开发中，但可以肯定的是这种新型神经网络结构为人工智能领域带来了新的可能性。