研究人员推出xLSTM神经网络AI架构:并行化处理Token、有望迎战Transformer

[复制链接]
查看304 | 回复0 | 2024-5-14 23:20:57|发表时间:2024-5-14 23:20:57| 显示全部楼层 |阅读模式
1997年,Sepp Hochreiter和Jürgen Schmidhuber共同提出了长短期记忆(Long Short-Term Memory,LSTM)神经网络结构,以解决循环神经网络(RNN)长期记忆能力不足的问题。然而最近,Hochreuter在《arXiv》上发表了一篇论文,提出了一种名为xLSTM(Extended LSTM)的新架构。
据论文介绍,在新的xLSTM架构中采用了指数型门控循环网络,并引入了“sLSTM”和“mLSTM”两项记忆规则,使得相关神经网络结构能够有效地利用RAM并实现类Transformer的并行化操作。此外,团队还使用了150亿个Token对基于xLSTM及Transformer架构的两款模型进行测试,在评估后发现xLSTM表现最好,尤其是在“语言能力”方面。
根据研究人员的评估结果,“xLSTM有望与Transformer一战”。虽然目前尚不清楚这项技术是否会在未来实际应用到产品开发中,但可以肯定的是这种新型神经网络结构为人工智能领域带来了新的可能性。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则