Embedding & Positional Encoding
每个 token 映射为向量(归一化),并加上位置编码。
Query / Key / Value(简化)
此处 Q = K = V = embedding(为教学简化)。查询为活跃位置的向量。
Scores(点积 / 缩放)
scores[j] = (q·k_j) / √d
Mask(自回归) & Attention Weights
Mask 屏蔽未来位置;Softmax 将 scores 转为概率 α_j。
Context 向量 z
z = Σ_j α_j * v_j(加权和)
简单 FFN + Residual(示意)
采用 2-layer FFN(ReLU),并做简单残差,展示 h。
Logits 与 输出概率(softmax)
logits[i] = h · embedding[i](或 W_out 投影);然后 softmax 得 p(i)。
最终预测与选择策略
演示 greedy(argmax) 策略。