161W
·
·
·
2025/02/04 14:30:21
·
AI 摘要
前往原文
如何复现o1大推理模型?DeepSeek R1技术路线和训练流程有哪些亮点?为什么DeepSeek能做到轰动全球?DeepSeek通过哪些优化策略有效降低成本?DeepSeek的写作能力为何飞跃?MoE架构会是最优解吗?PTX是否真正做到了绕开CUDA的垄断?
相关资讯
AI 摘要
如何复现o1大推理模型?DeepSeek R1技术路线和训练流程有哪些亮点?为什么DeepSeek能做到轰动全球?DeepSeek通过哪些优化策略有效降低成本?DeepSeek的写作能力为何飞跃?MoE架构会是最优解吗?PTX是否真正做到了绕开CUDA的垄断?
161W
·
·
·
2025年2月04日
·
AI 摘要
在Deepseek R1发布后,北大联合香港科技大学团队基于自研框架align-anything,在一周之内迅速地将Deepseek R1系列模型扩展至图文模态,并取得了优越的视觉理解表现。
87W
·
·
·
2025年2月06日
·
相关榜单
热点推荐
换一批