从2017年Google Brain团队推出Transformer架构逐步取代长短期记忆(LSTM)等“循环神经网络(RNN)模型”成为首选模型,到后来首个线性时间序列架构Mamba推出又对Transformer架构构成挑战,大语言模型底层架构的迭代正在迅速改变人们对于AI的认知和理解。 美东时间周一(7月8日),一种全新的大语言模型(LLM)架构有望代替至今在AI领域如日中天的Transformer,性能也比Mamba更好。 在预印本网站arXiv上发布的一篇论文中,斯坦福大学、加州大学伯克利分校、加州大学圣地亚哥分校和Meta的学者提出了一种全新架构,希望能用机器学习模型取代RNN的隐藏状态。这个架构通过对输入token进行梯度下降来压缩上下文,被称为“测试时间训练层(Test-Time-Training layers,简称TTT层)”。“共同一作”加州大学伯克利分校的Karen Dalal表示,我相信这将从根本上改变语言模型。 但对于该论文,也有人提出质疑,认为只有30亿~70亿参数的可用演示模型才足以了解其实用性。 从根本上改变语言模型!全新架构TTT超越Transformer......