Transformer 逐步预测动画 — 三位数示例（详细版）

演示控制

逐步显示 Transformer 前向推理每一步并解释其含义

版本：详解

步速（秒/步） 4.0 s

20 个三位数（逗号分隔，可自定义）

提示：确保输入 20 个数（可含前导 0）。加载后点击播放或单步查看每步解释。

当前步骤

初始化

在这里会显示每一步的数学解释与要点。

序列与位置

点击某个 token 可跳转到该位置的 attention 演示

活跃位置：20（显示 Query = 该位置）

Embedding & Positional Encoding

每个 token 映射为向量（归一化），并加上位置编码。

Query / Key / Value（简化）

此处 Q = K = V = embedding（为教学简化）。查询为活跃位置的向量。

Scores（点积 / 缩放）

scores[j] = (q·k_j) / √d

Mask（自回归） & Attention Weights

Mask 屏蔽未来位置；Softmax 将 scores 转为概率 α_j。

Context 向量 z

z = Σ_j α_j * v_j（加权和）

简单 FFN + Residual（示意）

采用 2-layer FFN（ReLU），并做简单残差，展示 h。

Logits 与输出概率（softmax）

logits[i] = h · embedding[i]（或 W_out 投影）；然后 softmax 得 p(i)。

最终预测与选择策略

演示 greedy(argmax) 策略。

Transformer（逐步详解动画）——三位数 第21项 预测示例