new-about-transformer
发现自己对transformer的理解有些偏颇,开此文章记录一下。
输入
设句子有 T 个 token,embedding 维度为 d:
输入 embedding 矩阵是一个大小为 T × d 的矩阵
每一行表示一个 token 的向量(也就是你说的“每一层”可以理解为“每一个 token 的表示”)
1 | X = [ |
Attention 计算行为:每一个 token 都在“看”其它 token
对于 第 i 行,表示第 i 个 token 对 所有 token 的关注程度;
整个注意力矩阵是 T×T,每一行是一个 token 的“视角”。
所以说mask保留上三角矩阵部分。(保留对自己以及对自己之前token的关注~!)
- Title: new-about-transformer
- Author: Ikko
- Created at : 2025-07-21 14:33:12
- Updated at : 2025-12-17 20:43:12
- Link: http://ikko-debug.github.io/2025/07/21/new-about-transformer/
- License: This work is licensed under CC BY-NC-SA 4.0.
Comments