全新大语言模型架构 TTT 匹敌Transformer和Mamba，12人团队半数为华人，有哪些突破？ - 知乎热榜 - 知乎

知乎

知乎热榜

36万热度

2024/10/24 20:41:48

AI 摘要

从2017年Google Brain团队推出Transformer架构逐步取代长短期记忆（LSTM）等“循环神经网络（RNN）模型”成为首选模型，到后来首个线性时间序列架构Mamba推出又对Transformer架构构成挑战，大语言模型底层架构的迭代正在迅速改变人们对于AI的认知和理解。美东时间周一（7月8日）,一种全新的大语言模型（LLM）架构有望代替至今在AI领域如日中天的Transformer，性能也比Mamba更好。在预印本网站arXiv上发布的一篇论文中，斯坦福大学、加州大学伯克利分校、加州大学圣地亚哥分校和Meta的学者提出了一种全新架构，希望能用机器学习模型取代RNN的隐藏状态。这个架构通过对输入token进行梯度下降来压缩上下文，被称为“测试时间训练层（Test-Time-Training layers，简称TTT层）”。“共同一作”加州大学伯克利分校的Karen Dalal表示，我相信这将从根本上改变语言模型。但对于该论文，也有人提出质疑，认为只有30亿~70亿参数的可用演示模型才足以了解其实用性。从根本上改变语言模型！全新架构TTT超越Transformer......

相关资讯

全新大语言模型架构 TTT 匹敌Transformer和Mamba，12人团队半数为华人，有哪些突破？

AI 摘要

36万热度

知乎热榜

知乎

2024年10月24日

前往原文

如何评价大语言模型架构 TTT ？Transformer这次真的要没了？

AI 摘要

全新的大语言模型（LLM）架构TTT发布，据传有望代替至今在AI领域如日中天的Transformer，性能也比Mamba更好,它真的能替代Transformer吗？

5.9万热度

2024年10月24日

2024年10月24日

为什么基于 Transformer 的大模型在开发中处于主导地位？

AI 摘要

在当前的 AI 和 NLP 领域，基于 Transformer 的大模型为何如此流行，并且它们相比其他类型的神经网络架构（如 RNN、LSTM 等）有哪些显著优势？同时，是否还有其他类型的大模型正在被研究和开发，它们各自有哪些特点和应用场景？

36万热度

2024年10月24日

AI 摘要

2023年12月至2024年5月，Anthropic发布的三篇论文不仅证明大语言模型会'说谎'，更揭示了一个堪比人类心理的四层心智架构——而这可能是人工意识的起点。要回答大语言模型是否有意识，我们得回到动机上看。

80W

要闻热榜

腾讯新闻

2025年4月24日

前往原文

明星 AI 独角兽 Mistral AI 亮出大模型新王炸，如何评价该大模型？

AI 摘要

智东西7月17日消息，昨日据VentureBeat报道，法国AI创企Mistral AI近日推出了两款新AI模型，一个是面向程序员和开发人员的代码生成模型Codestral Mamba 7B，另一个是专为数学相关推理和科学发现而设计的AI模型Mathstral 7B。 Codestral Mamba 7B具有更快的推理速度和更长的上下文，即使在输入文本较长的情况下也能提供快速响应时间。同时，该模型可处理多达256000个token的输入......

35万热度

2024年10月24日

AI 摘要

都说大模型训练很难，动辄耗费巨额资金和算力，万亿规模的大模型训练起来更是难上加难。但是了解这些难点，不仅可以帮助我们更好地理解大模型背后的技术挑战，也能让我们更加理性地看待大模型发展趋势，避免盲目追捧。

18万热度

知乎热榜

知乎

2024年10月24日