new-about-transformer

Title: new-about-transformer
Author: Ikko
Created at: 2025-07-21 14:33:12
Updated at: 2025-12-17 20:43:12
Link: http://ikko-debug.github.io/2025/07/21/new-about-transformer/
License: This work is licensed under <a class="license" target="_blank" rel="noopener" href="https://creativecommons.org/licenses/by-nc-sa/4.0">CC BY-NC-SA 4.0 .

Ikko Lv4

2025-07-21 14:33:12 2025-07-21 14:33:12 Created 2025-12-17 20:43:12 2025-12-17 20:43:12 Updated 183 Words 1 Mins

发现自己对transformer的理解有些偏颇，开此文章记录一下。

输入

设句子有 T 个 token，embedding 维度为 d：

输入 embedding 矩阵是一个大小为 T × d 的矩阵
每一行表示一个 token 的向量（也就是你说的“每一层”可以理解为“每一个 token 的表示”）

X = [
  x_1    → token 1
  x_2    → token 2
  x_3    → token 3
  ...
  x_T    → token T
]    # shape: (T, d)

对于第 i 行，表示第 i 个 token 对所有 token 的关注程度；
整个注意力矩阵是 T×T，每一行是一个 token 的“视角”。
所以说mask保留上三角矩阵部分。（保留对自己以及对自己之前token的关注～！）

Comments