对抗样本相关术语_综合

在阅读对抗攻击相关文献的时候，经常遇到一些专业术语，经过查找资料在这里整理下相关笔记。

1.对抗样本/图片（Adversarial Example/Image）

对抗样本/图片指的是在原始样本添加一些人眼无法察觉的噪声，这样的噪声不会影响人类的识别，但是却很容易愚弄模型，使其做出与正确答案完全不同的判定。

2.对抗干扰（Adversarial perturbation）

使得原始图片成为对抗样本所需要添加的噪声。

3.对抗训练（Adversarial Training）

除了原始图片样本之外还使用到对抗样本作为训练数据的一种训练方式。

4.对抗方（Adversary）

广泛地来说，对抗方指的是产生对抗样本的代理（agent）。然而，有的时候对抗样本本身也被称作对抗方。

5.探测器（Detector）

探测器用来判断一张图片是否是对抗样本

6.愚弄率（Fooling ratio/rate）

愚弄率指的是一个被训练过的模型在图片被干扰之后改变其原本预测的类别的比例。

7.单步方法（one-shot/one-step methods）

单步方法通过执行单步计算来产生对抗干扰，比如：计算一次模型的loss的梯度。与之对应的是迭代方法，这类方法为了得到一次扰动需要多次执行相同的计算。迭代方法毫无疑问在计算代价上是十分昂贵的。

8.外观不可感知的（Quasi-imperceptible）

对抗样本引入的干扰可以微小到不被人类感知。

9.修正器（Rectifier）

修正器会将对抗样本在特定模型上的预测结果修正成与原始样本的预测结果一致。

10.有目标攻击（Targeted attacks）

有目标攻击会让模型将对抗样本错误地分成某种特定的类别。与之相对的是无目标攻击。无目标攻击的目的相对简单，它只追求让模型分错，并不追求到分成何种类型。

11.威胁模型（Threat model）

威胁模型指的是被一种方法所考虑到的潜在的攻击。（比如：黑盒攻击）

12.迁移性（Transferability）

迁移性指的是对抗样本即便在攻击其他模型（指的是不是用来生成该对抗样本的模型）时仍能够保持其有效的一种品质。

13.通用干扰（Universal perturbation）

通用干扰能够在任意的图片上愚弄到模型。需要指出的是：通用性指的是干扰在对“图像没有任何知识”的情况下的性质，与之前提到的迁移性是不一样的。

14.黑盒攻击（Black-box attacks）

不知道被攻击模型的具体细节，称之为黑盒攻击。在一些情况下，也会假设对抗方对模型有十分有限的了解（比如：模型的训练过程和/或其结构），但是绝对不知道模型的参数。在另外的一些情况下，使用到任何与目标模型相关的信息都被认为是 半黑盒攻击（semi-black-box attack）。

15.白盒攻击（White-box attacks）

是指被攻击的模型是已知的，包括网络结构及权值参数信息。