54万热度
·
·
·
2025/03/28 09:45:20
·
AI 摘要
前往原文
W_2矩阵一般是4d\times d的,那么它的rank最高为d,也就是说至少有3d行可以被其他行线性表出,假设某个inputx\in R^{1\times d}在经过W_1以及激活函数后的hidden state为h\in R^{1\times 4d}那么FFN的outputh\cdot W_2可以看作是对W_2的4d行进行一个加权求和\sum_{i=1}^{4d}{h_i}W_{2,i},其中h_i代表h的第i个分量,W_{2,i}代表W_2的第i行。由于W_2的低秩特性,我总可以在W_2找到n(n\leq d)个线性无关的行(假设就是前n行),从而对于任意1\leq i\leq 4d,W_{2,i}都可以由这n行线性表出W_{2,i}=\sum_{j=1}^{n}{c_j}W_{2,j},所以上述加权求和总可以进行改写:\sum_{i=1}^{4d}{h_i}W_{2,i}=\sum_{i=1}^{n}{k_i}W_{2,i},那么W_2矩阵只需要这n行即可,模型只需要学习到如何通过W_1和激活函数来得到“新的”h'\in R^{1\times n}=\{k_1, k_2,.........
相关资讯
AI 摘要
W_2矩阵一般是4d\times d的,那么它的rank最高为d,也就是说至少有3d行可以被其他行线性表出,假设某个inputx\in R^{1\times d}在经过W_1以及激活函数后的hidden state为h\in R^{1\times 4d}那么FFN的outputh\cdot W_2可以看作是对W_2的4d行进行一个加权求和\sum_{i=1}^{4d}{h_i}W_{2,i},其中h_i代表h的第i个分量,W_{2,i}......
54万热度
·
·
·
2025年3月28日
·
AI 摘要
论武力,劫掠英法的维京人比印第安人猛,论适应,环境更差的冰岛,格陵兰都立足了。
热度累计中
·
·
·
2024年12月03日
·
AI 摘要
在当前的 AI 和 NLP 领域,基于 Transformer 的大模型为何如此流行,并且它们相比其他类型的神经网络架构(如 RNN、LSTM 等)有哪些显著优势?同时,是否还有其他类型的大模型正在被研究和开发,它们各自有哪些特点和应用场景?
36万热度
·
·
·
2024年10月24日
·
AI 摘要
亲爱的旅行者: 以下是4.8版本——「欢夏!邪龙?童话国!」更新与补偿内容。 〓补偿内容〓 停服更新补偿:原石*300(停服维护每小时补偿60原石) “角色「谕告的潮音·那维莱特(水)」在重击时可以异常高速旋转,导致角色能攻击到的范围出现异常”的问题修复补偿:原石*100 其余问题修复补偿:原石*300(补偿条目请参考对应补偿邮件) 我不太能理解,首先,旋转鼠标,视角会转动,这是基础设定,那么玩家把鼠标灵敏度调高,转速就会加快,这是正常......
42万热度
·
·
·
2024年10月24日
·
13W
·
·
·
2024年10月30日
·
10W
·
·
·
2025年5月24日
·
相关榜单
热点推荐
换一批