Transformer 里的 Attention 与 Mask 总结

最新推荐文章于 2026-05-19 11:15:38 发布

原创最新推荐文章于 2026-05-19 11:15:38 发布 · 1.2k 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

#人工智能 #nlp #transformer #attention #mask

71 篇文章

订阅专栏

46 篇文章

订阅专栏

15 篇文章

订阅专栏

低功耗蓝牙项目，需要一块懂省电的板

思澈 SF32LB52 芯片，BLE 协议栈深度优化，上手即开发

点击查看

本文将介绍以下内容：

Transformer 之所以强大，很大程度上来自于它的 多头注意力机制 (Multi-Head Attention, MHA)。现在理解清楚在一个完整的 Encoder–Decoder 结构里，我们要处理三种不同的 Attention，对应着三种 Mask。

Mask 逻辑如下：
- 在 cross-attention 中，Decoder 不需要防止“偷看未来”，因为 Q 是 target，K/V 是 source。
- 唯一需要屏蔽的是 source 序列里的 <pad> 位置。
- 所以，enc_dec_mask 只包含 source 的 padding mask，不含 look-ahead。

作用：屏蔽 <pad>，避免注意力白白浪费在补齐的空位上。
应用：
- Encoder self-attn (src_mask)
- Decoder self-attn (作为 tgt_mask 的一部分)
- Encoder–Decoder attn (enc_dec_mask)

Attention 类型	Q	K/V	Mask 类型	形状示例
Encoder Self-Attn	src	src	`src_mask`（padding mask）	`[B,1,L_src,L_src]`
Decoder Self-Attn	tgt	tgt	`tgt_mask`（look-ahead + padding）	`[B,1,L_tgt,L_tgt]`
Encoder–Decoder Attn	tgt	src	`enc_dec_mask`（padding mask）	`[B,1,L_tgt,L_src]`

Transformer 的核心逻辑就是：

Encoder 用 self-attention 捕捉源序列上下文，使用 src_mask（padding mask）。
Decoder 用 masked self-attention 自回归生成，使用 tgt_mask（look-ahead mask + padding mask）。
Decoder 再通过 cross-attention 对齐 Encoder，使用 enc_dec_mask （padding mask）。