机器学习笔记（8）Transformer(一):self-attention与block_综合

这里是关于Transformer的基本介绍，其中提到对于Transformer来说self-attention模块的引入尤为重要，这里简单记录一下对于self-attention的简单理解。
首先self-attention模块的工作原理不很复杂，是说对于一个y=wx，其中w的计算是接借助xi与X中xi的补集点积得到的，这句话描述的不太清晰，但结合第四幅图基本就清晰了。
那么self=attention为什么可以工作哪？图四也给出了原因：self-attention关注的是两个矢量之间的信息传播，与RNN中的“循环”异曲同工，可以作为考虑“过去因素”的功能模块。

比如self-attention在词序列中的应用的大致展示如上图

如此简洁却功能强大的模块一定是有一些缺陷的，缺陷的罗列大致如上，其中最主要的是一份x扮演了三个重要角色，Softmax函数可能对非常大的输入值很敏感。

作者们解决的方法是使用三个kxk的矩阵（Wq, Wk, Wv）将x映射为q，k，v三个不同的向量（一般称为query，key和value矩阵），映射过程如上。其中需要注意q向量是在i下计算的，k与v向量是在j下计算的，重复此过程将xi与X中xi的补集都计算后求和即为self-attention模块的输出。

另外需要注意一处除以根号k的小细节，是为了归一化

self-attention在Transformer的实际应用中以Multi-head attention的形式出现，Multi-head attention看起来比较像是attention通过设定不同的初始矩阵Wq的集成。

这幅图介绍了Transformer模块（block）的基本构成，基本上就是self-attention加上non-linear两部分。

这部分展示了Transformer的整体结构，主要由编码器和解码器两部分组成。

这份可视化形象的解释了注意力机制的作用（可以理解为it需要根据上下文具体确定含义）

最后总结一下Tramsformer的优缺点：优点是与RNN相比，没有循环结构所以训练与推理的计算速度更快；与CNN相比Transformer对于输入的感受野更加大，考虑输入的范围更加的广。
Transformer的缺点模型过于与GPU适应性不太好；不能处理过于长的句子。解决的方法是半精度推理

RNN与Transformer的对比如上图，这里就不多阐述，之后我可能对两者进行一些试验的对比。