Transformer(逐步详解动画)——三位数 第21项 预测示例

演示控制
逐步显示 Transformer 前向推理每一步并解释其含义
版本:详解
4.0 s
提示:确保输入 20 个数(可含前导 0)。加载后点击 播放 或 单步 查看每步解释。
当前步骤
初始化
在这里会显示每一步的数学解释与要点。
序列与位置
点击某个 token 可跳转到该位置的 attention 演示
活跃位置:20(显示 Query = 该位置)
Embedding & Positional Encoding
每个 token 映射为向量(归一化),并加上位置编码。
Query / Key / Value(简化)
此处 Q = K = V = embedding(为教学简化)。查询为活跃位置的向量。
Scores(点积 / 缩放)
scores[j] = (q·k_j) / √d
Mask(自回归) & Attention Weights
Mask 屏蔽未来位置;Softmax 将 scores 转为概率 α_j。
Context 向量 z
z = Σ_j α_j * v_j(加权和)
简单 FFN + Residual(示意)
采用 2-layer FFN(ReLU),并做简单残差,展示 h。
Logits 与 输出概率(softmax)
logits[i] = h · embedding[i](或 W_out 投影);然后 softmax 得 p(i)。
最终预测与选择策略
演示 greedy(argmax) 策略。