为什么我还是无法理解transformer?
来源:
编辑:
时间:2025-06-25 15:45:18

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
-
{dede:pagebreak/}


网友评论:
{dede:include file='ajaxfeedback.htm' /}
栏目分类

最新文章

热门文章
- 专科生学“PLC+Python+MySQL”对于就业帮助大吗?
- 内蒙古一男子在女方出轨后,殴打妻子后发生性关系被告***,婚姻存续期***如何界定?该案将如何判决?
- ***如台湾省同意回归,但要求保留100%的治权财权人事权、90%的军权和20%的外交权,可行吗?
- 目前最具性价比的全栈路线是啥?
- 苹果从 2026 年发布的 macOS 27 起不再兼容任何 Intel Macs,这背后原因有哪些?
- 为什么 Windows 没有比较成熟的第三方桌面环境(explorer.exe)?
- react 跟 vue 哪个更牛逼?
- 江西赣州“三南”划给广东的最大作用是什么?
- 各双拼输入方案之间有明显的优劣之分吗?
- 央行等六部门联合印发《关于金融支持提振和扩大消费的指导意见》,释放了什么信号?
