transformer总结

Transformer的注意力层

在Transformer架构中,有两大组件,分别是编码器(Encoder)和解码器(Decoder),编码器主要是将输入序列映射到潜在语义空间(注意力向量,也叫上下文向量,但其实上下文向量是注意力机制内部对输入向量的叫法,本文中编码器输出向量都只叫作注意力向量,以示区分),而解码器则是将潜在语义空间(注意力向量)映射到输出序列。

在Transformer架构中,有3种不同的注意力层:

  • 解码器中的交叉注意力层(Cross attention layer)
  • 编码器中的全局自注意力层(Global self attention layer)
  • 解码器中的因果自注意力层(Casual attention layer)

$$
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^{T}}{\sqrt{d_k}}\right)V
$$