transformer--编码部分_综合

transformer–编码部分

Positional Encoding
- 位置嵌入：就是在输入中加入包含句子中特定位置信息的维向量
- 位置嵌入的维度与输入时间序列的维度相同，为 [序列长度, 所处位置]。
- 一般输入的为多时次的时间序列，维度为[ time_num, feature_num ]
- 在论文中使用了sin和cos的线性变换来提供模型的位置信息：
  - $PE(pos, 2i)=sin(pos/10000^{2i/d_{model}})$
  - $PE(pos, 2i+1)=cos(pos/10000^{2i/d_{model}})$
- 上式中，pos质的是一剧中某个字的位置，取值范围为[ 0, 序列长度 ]，i每一个时次的特征序号，取值范围为[0, feature_num/2]， $d_{model}$ 是时间序列的特征数。
- 将位置矩阵与输入矩阵相加
self-attention
- 对于输入的时间序列矩阵X，通过与Positional Encoding将其相加，该矩阵的完整输入。第t个时次的向量记做 $x_t$
- 在transformer中有三个权重矩阵，分别为查询矩阵( $W_Q$ )、键矩阵( $W_K$ )、值矩阵( $W_V$ )
  - $q_{: i}=W_QX_i$
  - $k_{: i}=W_KX_i$
  - $v_{: i}=W_VX_i$
  - 上述多个 q、k、v的列的聚集会变成一个完整的矩阵
- self-attention layer
  - weights: $α;j=Softmax(KTq:,j)∈Rm\alpha_{ ;_j}=Softmax(K^Tq_{:,j})\in R^m$
  - 其中 $α\alpha$ 的维度为m，为一次所输入时次的总和
- V矩阵与 $α\alpha$ 矩阵相乘得到上下文矩阵，得到Context vector
  - $c:,j=α1,jv:,1+…+am,jv:,m=Vα:,jc_{:,j}=\alpha_{1,j}v_{:,1}+…+a_{m,j}v_{:,m}=V\alpha_{:,j}$
  - 注意力矩阵 $α\alpha$ 和上下文矩阵 $C$ 的维度与X矩阵的形状一致
- attention head的计算如下：
  - $Z=softmax(Q?KTdk)?VZ=softmax(\frac{Q*K^T}{\sqrt{d_k}})*V$
多头注意力机制
- 就是定义多个Q，K，V矩阵，得到多组 $W_0^{Q}W_0^{K},W_0^{V})$ , $W_1^{Q}W_1^{K},W_1^{V})$ ,……
- 每一个头可以得到一个矩阵Z，因此多头注意理解机制可以得到：{ ${Z_0,Z_1,…,Z_n}$ }
残差连接
残差连接
将输入与self attention的输出相加起来进行下一步的计算：
$X + S e l f A t t e n t i o n (Q, K, V)$
Layer Normalization
- 在神经网络的隐藏成中设置标准化层，可以加快训练速度，加速收敛：
- 公式如下：
  - $layerNorms(x)=xi,j?μσj2+?layerNorms(x)=\frac{x_{i,j}-\mu}{\sqrt{\sigma_j^2+\epsilon}}$
transform层的编码部分的整体结构：
1. 位置编码
  - $X_{pos}=X+position Encoding$
1. 自注意力机制
  - $Q=linear(X)=XW_Q$
  - $K=linear(X)=XW_K$
  - $V=linear(X)=XW_V$
  - $X_{attention}=SelfAttention(Q,K,V)$
1. self-attention残差连接与Layer Normation
  - $X_{attention}=X+X_{attention}$
  - $X_{attention}=LayerNorm(X_{attention})$
1. 进行前向传递:
  - $X_{hidden}=Linear(ReLU(linear(X_{attention})))$