代码论文全开源！月之暗面发布重磅技术报告：模型训练效率翻倍 - 资讯最新 - 华尔街见闻

相关资讯

AI 摘要

月之暗面推出了一个全新的优化器Muon，并基于此训练出了3B/16B参数的混合专家模型 (MoE)——Moonlight。Moonlight在训练效率上实现了200%倍提升，并且一举突破了现有大语言模型的性能边界，Muon扩展的关键秘诀包括加入权重衰减 (Weight Decay)、精细调整参数更新尺度。

2025年2月23日

AI 摘要

AI竞赛。

资讯最新

华尔街见闻

2024年10月24日

前往原文

MoE模型训练效率飞跃！DeepSeek开源周第二日：开源EP通信库

AI 摘要

据介绍，DeepEP是全球首个专为混合专家模型（MoE）和专家并行（EP）定制的开源高性能通信库，旨在解决大规模AI模型训练与推理中的通信瓶颈问题。

资讯最新

华尔街见闻

2025年2月25日

前往原文

如何评价DeepSeek自称开源？但似乎并未开源（Open Source），仅为Open Model?

AI 摘要

我对开源的理解，最早源于Linux开源和CFD开源模型（如Open Foam），对计算机领域，特别是大模型LLM领域的开源不太了解。我认为的开源主要强调代码透明性和社区协作！但是DeepSeek官方说自己开源模型权重（今天，我们正式发布 DeepSeek-R1，并同步开源模型权重。DeepSeek-R1 遵循 MIT License，允许用户通过蒸馏技术借助 R1 训练其他模型。）。news media却说是开源，但我未找到任何关于De......

11万热度

知乎热榜

知乎

2025年2月01日

前往原文

如何看待月之暗面发布对标 OpenAI o1 的推理模型 k0-math？

AI 摘要

11月16日，月之暗面Kimi Chat宣布推出新一代数学推理模型k0-math。基准测试显示，Kimi k0-math的数学能力可对标全球领先的OpenAI o1系列可公开使用的两个模型：o1-mini和o1-preview。在中考、高考、考研以及包含入门竞赛题的MATH等4个数学基准测试中，k0-math初代模型成绩超过o1-mini和o1-preview模型。在两个难度更大的竞赛级别的数学题库OMNI-MATH和AIME基准测试......

11万热度

知乎热榜

知乎

2024年11月18日

前往原文

月之暗面事件透析，如果 Kimi 没出圈？

AI 摘要

随着阿里入局，腾讯也紧随而至，资金实力大涨的Kimi才得以放开手脚，最终走向出圈。分析认为，“双方矛盾主要基于月之暗面估值大涨，但几家机构未能参投的落差”。最后的结果大概率是彼此商量出一个满意的赔偿金额或者赔偿股份，了结这场纷争。

资讯最新

华尔街见闻

2024年12月10日

前往原文