18万热度
·
·
·
2024/08/27 16:34:43
·
AI 摘要
前往原文
都说大模型训练很难,动辄耗费巨额资金和算力,万亿规模的大模型训练起来更是难上加难。但是了解这些难点,不仅可以帮助我们更好地理解大模型背后的技术挑战,也能让我们更加理性地看待大模型发展趋势,避免盲目追捧。
相关资讯
AI 摘要
都说大模型训练很难,动辄耗费巨额资金和算力,万亿规模的大模型训练起来更是难上加难。但是了解这些难点,不仅可以帮助我们更好地理解大模型背后的技术挑战,也能让我们更加理性地看待大模型发展趋势,避免盲目追捧。
18万热度
·
·
·
2024年8月27日
·
AI 摘要
今年4月发布8B和70B两个版本的Llama 3模型时,Meta预告,该模型最大参数规模超4000亿,训练token超15万亿。本周五媒体获悉,4050亿参数的Llama 3也将是多模态模型,未透露是否开源。
AI 摘要
阿里推出了基础模型Qwen2.5、专用于编码Qwen2.5-Coder和数学的Qwen2.5-Math,三大类模型共有10多个版本,Qwen2.5在多个基准测试中击败了Llama-3.1指令微调模型,该系列预训练数据大幅度增长达18万亿tokens。
AI 摘要
Microsoft发布全新的 AI 大语言模型SpreadsheetLLM,将广泛使用于理解并处理复杂的电子表格数据,如在Excel、谷歌 Sheets中自动生成财务报告、识别数据中的异常或趋势、提供个性化产品或服务推荐等。网友调侃:“凯伦的工作很快就会被人工智能取代”。
AI 摘要
大模型产业有自己的流水线
0W
·
·
·
2024年8月09日
·
AI 摘要
在当前的 AI 和 NLP 领域,基于 Transformer 的大模型为何如此流行,并且它们相比其他类型的神经网络架构(如 RNN、LSTM 等)有哪些显著优势?同时,是否还有其他类型的大模型正在被研究和开发,它们各自有哪些特点和应用场景?
36万热度
·
·
·
2024年7月16日
·
AI 摘要
从2017年Google Brain团队推出Transformer架构逐步取代长短期记忆(LSTM)等“循环神经网络(RNN)模型”成为首选模型,到后来首个线性时间序列架构Mamba推出又对Transformer架构构成挑战,大语言模型底层架构的迭代正在迅速改变人们对于AI的认知和理解。 美东时间周一(7月8日),一种全新的大语言模型(LLM)架构有望代替至今在AI领域如日中天的Transformer,性能也比Mamba更好。 在预印本......
36万热度
·
·
·
2024年7月11日
·
AI 摘要
苹果论文披露,在8192块谷歌TPUv4 芯片上训练一个大型服务器语言模型——服务器苹果基础模型(AFM),进行6.3万亿token训练;端侧AFM在2048块TPUv5p 芯片训练;AFM和AFM服务是在“云TPU 集群”上训练。
AI 摘要
Joe表示,Llama 3.1 405B 真正关注的是推动规模化(它使用16000个GPU在15万亿个token上进行训练),他对它将实现的零样本工具使用以及它在提炼和生成合成数据以教授较小模型方面的作用感到兴奋。
相关榜单
热点推荐
换一批