AI 摘要
前往原文
月之暗面推出了一个全新的优化器Muon,并基于此训练出了3B/16B参数的混合专家模型 (MoE)——Moonlight。Moonlight在训练效率上实现了200%倍提升,并且一举突破了现有大语言模型的性能边界,Muon扩展的关键秘诀包括加入权重衰减 (Weight Decay)、精细调整参数更新尺度。
相关资讯
AI 摘要
月之暗面推出了一个全新的优化器Muon,并基于此训练出了3B/16B参数的混合专家模型 (MoE)——Moonlight。Moonlight在训练效率上实现了200%倍提升,并且一举突破了现有大语言模型的性能边界,Muon扩展的关键秘诀包括加入权重衰减 (Weight Decay)、精细调整参数更新尺度。
AI 摘要
据介绍,DeepEP是全球首个专为混合专家模型(MoE)和专家并行(EP)定制的开源高性能通信库,旨在解决大规模AI模型训练与推理中的通信瓶颈问题。
AI 摘要
我对开源的理解,最早源于Linux开源和CFD开源模型(如Open Foam),对计算机领域,特别是大模型LLM领域的开源不太了解。我认为的开源主要强调代码透明性和社区协作!但是DeepSeek官方说自己开源模型权重(今天,我们正式发布 DeepSeek-R1,并同步开源模型权重。DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。)。news media却说是开源,但我未找到任何关于De......
11万热度
·
·
·
2025年2月01日
·
AI 摘要
11月16日,月之暗面Kimi Chat宣布推出新一代数学推理模型k0-math。 基准测试显示,Kimi k0-math的数学能力可对标全球领先的OpenAI o1系列可公开使用的两个模型:o1-mini和o1-preview。在中考、高考、考研以及包含入门竞赛题的MATH等4个数学基准测试中,k0-math初代模型成绩超过o1-mini和o1-preview模型。在两个难度更大的竞赛级别的数学题库OMNI-MATH和AIME基准测试......
11万热度
·
·
·
2024年11月18日
·
AI 摘要
随着阿里入局,腾讯也紧随而至,资金实力大涨的Kimi才得以放开手脚,最终走向出圈。分析认为,“双方矛盾主要基于月之暗面估值大涨,但几家机构未能参投的落差”。最后的结果大概率是彼此商量出一个满意的赔偿金额或者赔偿股份,了结这场纷争。
相关榜单
热点推荐
换一批