为什么transformer的FFN需要先升维再降维？ - 知乎热榜 - 知乎

知乎

知乎热榜

54万热度

2025/03/28 09:45:20

AI 摘要

W_2矩阵一般是4d\times d的，那么它的rank最高为d，也就是说至少有3d行可以被其他行线性表出，假设某个inputx\in R^{1\times d}在经过W_1以及激活函数后的hidden state为h\in R^{1\times 4d}那么FFN的outputh\cdot W_2可以看作是对W_2的4d行进行一个加权求和\sum_{i=1}^{4d}{h_i}W_{2,i}，其中h_i代表h的第i个分量，W_{2,i}代表W_2的第i行。由于W_2的低秩特性，我总可以在W_2找到n(n\leq d)个线性无关的行(假设就是前n行)，从而对于任意1\leq i\leq 4d，W_{2,i}都可以由这n行线性表出W_{2,i}=\sum_{j=1}^{n}{c_j}W_{2,j}，所以上述加权求和总可以进行改写：\sum_{i=1}^{4d}{h_i}W_{2,i}=\sum_{i=1}^{n}{k_i}W_{2,i}，那么W_2矩阵只需要这n行即可，模型只需要学习到如何通过W_1和激活函数来得到“新的”h'\in R^{1\times n}=\{k_1, k_2,.........

相关资讯

为什么transformer的FFN需要先升维再降维？

AI 摘要

54万热度

2025年3月28日

24W

2025年3月15日

新

11W

2025年3月15日

AI 摘要

论武力，劫掠英法的维京人比印第安人猛，论适应,环境更差的冰岛，格陵兰都立足了。

热度累计中

2024年12月03日

30万热度

2024年11月21日

Variant：为什么更好的AI需要Crypto

24小时热文

金色财经

2025年1月17日

前往原文

为什么基于 Transformer 的大模型在开发中处于主导地位？

AI 摘要

在当前的 AI 和 NLP 领域，基于 Transformer 的大模型为何如此流行，并且它们相比其他类型的神经网络架构（如 RNN、LSTM 等）有哪些显著优势？同时，是否还有其他类型的大模型正在被研究和开发，它们各自有哪些特点和应用场景？

36万热度

知乎热榜

知乎

2024年10月24日

前往原文

为什么《原神》那维莱特的高速旋转会被被官方判定为 BUG？

AI 摘要

亲爱的旅行者：以下是4.8版本——「欢夏！邪龙？童话国！」更新与补偿内容。〓补偿内容〓停服更新补偿：原石*300（停服维护每小时补偿60原石） “角色「谕告的潮音·那维莱特(水)」在重击时可以异常高速旋转，导致角色能攻击到的范围出现异常”的问题修复补偿：原石*100 其余问题修复补偿：原石*300（补偿条目请参考对应补偿邮件）我不太能理解，首先，旋转鼠标，视角会转动，这是基础设定，那么玩家把鼠标灵敏度调高，转速就会加快，这是正常......

42万热度

2024年10月24日

13W

2024年10月30日

新

10W

2025年5月24日