前往原文
全网热点
综合
热点
娱乐
财经
科技
游戏
社区
购物
开发
区块链
知乎
.
知乎热榜
29
万亿规模的大模型训练有哪些难点?
18万热度
·
知乎热榜
·
知乎
·
2024/08/27 16:34:43
·
前往原文
AI 摘要
前往原文
都说大模型训练很难,动辄耗费巨额资金和算力,万亿规模的大模型训练起来更是难上加难。但是了解这些难点,不仅可以帮助我们更好地理解大模型背后的技术挑战,也能让我们更加理性地看待大模型发展趋势,避免盲目追捧。
前往原文
相关资讯
万亿规模的大模型训练有哪些难点?
AI 摘要
都说大模型训练很难,动辄耗费巨额资金和算力,万亿规模的大模型训练起来更是难上加难。但是了解这些难点,不仅可以帮助我们更好地理解大模型背后的技术挑战,也能让我们更加理性地看待大模型发展趋势,避免盲目追捧。
18万热度
·
知乎热榜
·
知乎
·
2024年8月27日
·
前往原文
4050亿参数!Meta或将7月23日发布迄今最强大Llama 3模型
AI 摘要
今年4月发布8B和70B两个版本的Llama 3模型时,Meta预告,该模型最大参数规模超4000亿,训练token超15万亿。本周五媒体获悉,4050亿参数的Llama 3也将是多模态模型,未透露是否开源。
资讯最新
·
华尔街见闻
·
2024年7月13日
·
前往原文
阿里史上最大规模开源发布,超GPT-4o 、Llama-3.1!
AI 摘要
阿里推出了基础模型Qwen2.5、专用于编码Qwen2.5-Coder和数学的Qwen2.5-Math,三大类模型共有10多个版本,Qwen2.5在多个基准测试中击败了Llama-3.1指令微调模型,该系列预训练数据大幅度增长达18万亿tokens。
资讯最新
·
华尔街见闻
·
2024年9月19日
·
前往原文
专为Excel而生的大模型来了!
AI 摘要
Microsoft发布全新的 AI 大语言模型SpreadsheetLLM,将广泛使用于理解并处理复杂的电子表格数据,如在Excel、谷歌 Sheets中自动生成财务报告、识别数据中的异常或趋势、提供个性化产品或服务推荐等。网友调侃:“凯伦的工作很快就会被人工智能取代”。
资讯最新
·
华尔街见闻
·
2024年7月16日
·
前往原文
大模型的中场战事:CoE or MoE ?
AI 摘要
大模型产业有自己的流水线
0W
·
七日热门
·
极客公园
·
2024年8月09日
·
前往原文
为什么基于 Transformer 的大模型在开发中处于主导地位?
AI 摘要
在当前的 AI 和 NLP 领域,基于 Transformer 的大模型为何如此流行,并且它们相比其他类型的神经网络架构(如 RNN、LSTM 等)有哪些显著优势?同时,是否还有其他类型的大模型正在被研究和开发,它们各自有哪些特点和应用场景?
36万热度
·
知乎热榜
·
知乎
·
2024年7月16日
·
前往原文
全新大语言模型架构 TTT 匹敌Transformer和Mamba,12人团队半数为华人,有哪些突破?
AI 摘要
从2017年Google Brain团队推出Transformer架构逐步取代长短期记忆(LSTM)等“循环神经网络(RNN)模型”成为首选模型,到后来首个线性时间序列架构Mamba推出又对Transformer架构构成挑战,大语言模型底层架构的迭代正在迅速改变人们对于AI的认知和理解。 美东时间周一(7月8日),一种全新的大语言模型(LLM)架构有望代替至今在AI领域如日中天的Transformer,性能也比Mamba更好。 在预印本......
36万热度
·
知乎热榜
·
知乎
·
2024年7月11日
·
前往原文
通过 UTXO 模型实现并行执行:FuelVM 有哪些独特优势?
10W
·
24小时热文
·
金色财经
·
2024年8月03日
·
前往原文
苹果官宣:支持Apple Intelligence的模型在谷歌定制芯片上训练
AI 摘要
苹果论文披露,在8192块谷歌TPUv4 芯片上训练一个大型服务器语言模型——服务器苹果基础模型(AFM),进行6.3万亿token训练;端侧AFM在2048块TPUv5p 芯片训练;AFM和AFM服务是在“云TPU 集群”上训练。
资讯最新
·
华尔街见闻
·
2024年7月30日
·
前往原文
Llama 3.1 405B--大力出奇迹
AI 摘要
Joe表示,Llama 3.1 405B 真正关注的是推动规模化(它使用16000个GPU在15万亿个token上进行训练),他对它将实现的零样本工具使用以及它在提炼和生成合成数据以教授较小模型方面的作用感到兴奋。
资讯最新
·
华尔街见闻
·
2024年8月05日
·
前往原文
知乎
相关榜单
知乎热榜
热点推荐
换一批
1
曝黎爆炸寻呼机制造商为以情报部门
热
2
美联储降息后1万亿美元会回流中国吗
热
3
数字背后折射“流动中国”的蓬勃活力
4
心脏骤停前1个月身体就有迹象
5
美联储降息对中国经济有何影响
热
6
女子网上9.9元买了一箱“大闸蟹”
7
媒体:苹果手机行情已大不如从前
8
特朗普质疑美联储降息
热
9
传呼机危机发酵 这些公司有苦说不出
热
10
黎爆炸对讲机系日本制造?企业回应
热
11
美联储降息跟外资撤离中国有关系吗
热
12
乐道L60上市售20.69万元起
13
苹果手机微信朋友圈可发实况照片
14
合肥辟谣肥东地震致高楼开裂
15
美联储四年来首次降息意味着什么
热
16
肥东地震亲历者:澡没洗完抱娃逃出
17
俄一军火库遭袭 3万吨弹药炸到天亮
18
以色列无差别攻击引发国际社会谴责
19
张雨绮疑似否认被换角
20
广西一地有卫星残骸掉落
21
律师:女子PPT曝男友嫖娼或构成侵权
22
美国在世最年长的前总统将满100岁
23
黎巴嫩居民陷入“电子设备恐慌”中
24
挪威专家:为何中国能打破美国遏制
25
社保断缴一次待遇就清零?假的
26
传呼机爆炸比“斩首”行动更猛
27
2024国庆放假安排来了
28
夫妻打离婚官司 老公扛起老婆就跑
29
学者:黎巴嫩袭击赔上西方供应链信誉
30
美联储主席称美国经济并未衰退
31
电动自行车强制性国标再修订
32
象棋协会:王天一等2人被终身禁赛
33
中金:美国经济软着陆可能性将上升
34
苹果iPhone 16维修性大升级
35
今年北方雨水为何这么多
36
女子3个月瘦35公斤患上胆囊结石
37
外媒:以渗透到爆炸寻呼机生产环节
38
女生分享妈妈帮自己拍照的过程
39
医院陪护床只能租不能带?院方回应
40
海南多家酒店台风期大幅涨价被罚
41
女生称取快递被男生多次猥亵
42
合肥地震来临 男子家狗狗上蹿下跳
43
菲高官扬言:想让中国“夜不能寐”
44
男子挤破身上痘痘住进ICU
45
6个不良生活习惯让你悄悄变胖
46
8月人民币保持全球第4支付货币地位
47
曝iPhone16系列已开放员工购买通道
48
乐道L60续航1000公里+版本正在规划
49
安徽合肥超市老板公开地震瞬间监控
50
大熊猫丁丁扑倒饲养员 动物园回应