transformer 十问_综合

1.transformer的简单定义？
Transformer的本质上是一个以attention机制为模型基础的Encoder-Decoder的结构

2.NLP中，为什么cnn很少见，存在哪些问题，对应的解决思路是怎样的？
因为在单层cnn中，远距离的特征是学不到的，比如特征距离为5，卷积核大小为3，按照通常的方法步长滑动，这两者也很难产生关联。针对这个问题，有两种解决思路，一是滑动的时候去除间隔的一部分区域，二是在cnn的下一层取这一层的关联输出

2.Attention的作用？
计算相关性

3.Attention机制是怎样的？
Attention的本质可以被描述为给定一个 query，计算query 与 key 的相关性，然后根据query 与 key 的相关性去找到最合适的 value。

4.你能用生活中例子来让我理解Q、K、V吗？
Q、K、V的概念来自电影推荐，query 是某个人对电影的喜好信息（比如兴趣点、年龄、性别等）、key 是电影的类型（喜剧、年代等）、value 就是待推荐的电影，它们可以通过某种变换为一个相近的空间。

5.Multi-Head Attention相比Scaled Dot-Product Attention有什么不同？
前者是将后者做了n次，然后把结果合在一起

6.数据位置编码除了包含位置信息还有什么好处
具有鲁棒性

7.Encoder和Decoder各有什么作用？
在机器翻译中，Encoder中计算的是当前翻译和已经翻译的前文之间的关系，Decoder中计算的是当前翻译和编码的特征向量之间的关系。

8.multi-head attention和Encoder-Decoder Attention有什么不同？
后者的Q来自于解码器的上一个输出， K 和 V 则来自于与编码器的输出

9.Add&Normanize里面有什么？
主要做了两个操作,一个是残差连接，另一个就是标准化

10.decoder的输入是什么？
第一次是起始符，第二次是预测出来的第一个词，下一次就是另一个词，依此类推