36万热度
·
·
·
2024/10/24 20:41:48
·
AI 摘要
前往原文
从2017年Google Brain团队推出Transformer架构逐步取代长短期记忆(LSTM)等“循环神经网络(RNN)模型”成为首选模型,到后来首个线性时间序列架构Mamba推出又对Transformer架构构成挑战,大语言模型底层架构的迭代正在迅速改变人们对于AI的认知和理解。 美东时间周一(7月8日),一种全新的大语言模型(LLM)架构有望代替至今在AI领域如日中天的Transformer,性能也比Mamba更好。 在预印本网站arXiv上发布的一篇论文中,斯坦福大学、加州大学伯克利分校、加州大学圣地亚哥分校和Meta的学者提出了一种全新架构,希望能用机器学习模型取代RNN的隐藏状态。这个架构通过对输入token进行梯度下降来压缩上下文,被称为“测试时间训练层(Test-Time-Training layers,简称TTT层)”。“共同一作”加州大学伯克利分校的Karen Dalal表示,我相信这将从根本上改变语言模型。 但对于该论文,也有人提出质疑,认为只有30亿~70亿参数的可用演示模型才足以了解其实用性。 从根本上改变语言模型!全新架构TTT超越Transformer......
相关资讯
AI 摘要
从2017年Google Brain团队推出Transformer架构逐步取代长短期记忆(LSTM)等“循环神经网络(RNN)模型”成为首选模型,到后来首个线性时间序列架构Mamba推出又对Transformer架构构成挑战,大语言模型底层架构的迭代正在迅速改变人们对于AI的认知和理解。 美东时间周一(7月8日),一种全新的大语言模型(LLM)架构有望代替至今在AI领域如日中天的Transformer,性能也比Mamba更好。 在预印本......
36万热度
·
·
·
2024年10月24日
·
AI 摘要
全新的大语言模型(LLM)架构TTT发布,据传有望代替至今在AI领域如日中天的Transformer,性能也比Mamba更好,它真的能替代Transformer吗?
5.9万热度
·
·
·
2024年10月24日
·
AI 摘要
在当前的 AI 和 NLP 领域,基于 Transformer 的大模型为何如此流行,并且它们相比其他类型的神经网络架构(如 RNN、LSTM 等)有哪些显著优势?同时,是否还有其他类型的大模型正在被研究和开发,它们各自有哪些特点和应用场景?
36万热度
·
·
·
2024年10月24日
·
AI 摘要
智东西7月17日消息,昨日据VentureBeat报道,法国AI创企Mistral AI近日推出了两款新AI模型,一个是面向程序员和开发人员的代码生成模型Codestral Mamba 7B,另一个是专为数学相关推理和科学发现而设计的AI模型Mathstral 7B。 Codestral Mamba 7B具有更快的推理速度和更长的上下文,即使在输入文本较长的情况下也能提供快速响应时间。同时,该模型可处理多达256000个token的输入......
35万热度
·
·
·
2024年10月24日
·
AI 摘要
都说大模型训练很难,动辄耗费巨额资金和算力,万亿规模的大模型训练起来更是难上加难。但是了解这些难点,不仅可以帮助我们更好地理解大模型背后的技术挑战,也能让我们更加理性地看待大模型发展趋势,避免盲目追捧。
18万热度
·
·
·
2024年10月24日
·
AI 摘要
根据Cox Automotive追踪的数据,2024年上半年,竞争对手汽车制造商在美国的...
AI 摘要
在校学生,最近看ChatGPT这么火也想学习一下,GPT-2的模型稍微看懂了。然后看开源的模型很多,ChatGLM,CPM,Llama,bloom等,从哪个模型开始学习比较好?
热度累计中
·
·
·
2024年10月24日
·
AI 摘要
11和9.9哪个更大?大部分大模型在问答中都错误地比较了小数点后的数字,认为9.11大于9.9,考虑到数字涉及的语境问题,记者将其限定为在数学语境下,如ChatGPT这样的大模型也照样答错。
107W
·
·
·
2024年10月24日
·
相关榜单
热点推荐
换一批