new-about-transformer

Ikko Lv4

发现自己对transformer的理解有些偏颇,开此文章记录一下。

输入

设句子有 T 个 token,embedding 维度为 d:

输入 embedding 矩阵是一个大小为 T × d 的矩阵
每一行表示一个 token 的向量(也就是你说的“每一层”可以理解为“每一个 token 的表示”)

1
2
3
4
5
6
7
8
X = [
x_1 → token 1
x_2 → token 2
x_3 → token 3
...
x_T → token T
] # shape: (T, d)

Attention 计算行为:每一个 token 都在“看”其它 token

对于 第 i 行,表示第 i 个 token 对 所有 token 的关注程度;
整个注意力矩阵是 T×T,每一行是一个 token 的“视角”。
所以说mask保留上三角矩阵部分。(保留对自己以及对自己之前token的关注~!)

  • Title: new-about-transformer
  • Author: Ikko
  • Created at : 2025-07-21 14:33:12
  • Updated at : 2025-12-17 20:43:12
  • Link: http://ikko-debug.github.io/2025/07/21/new-about-transformer/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments