Meta Auxiliary Learning for Facial Action Unit Detection_综合

方法

损失函数

?假设在训练阶段有一个 $AU\mathrm{AU}$ 训练数据集 $DtraAU={(Xi,zi),1≤i≤N}\mathcal{D}^{AU}_{tra}=\{(\mathcal{X}_i,z_i),1\le i \le N\}$ 和一个人脸表情数据集 $DtraFE={(Ei,yi),1≤i≤M}\mathcal{D}^{FE}_{tra}=\{(\mathcal{E}_i,y_i),1\le i \le M\}$ 。作者保留了一个小的 $AU\mathrm{AU}$ 无偏验证数据集 $DvalAU={(Vi,zi),1≤i≤K}\mathcal{D}^{AU}_{val}=\{(\mathcal{V}_i,z_i),1 \le i \le K\}$ ，并且该验证集是排除 $AU\mathrm{AU}$ 训练集之后的剩余集合里采样得到的。 $Xi,Vi,Ei\mathcal{X}_i,\mathcal{V}_i,\mathcal{E}_i$ 分别表示的是集合 $DtraAU,DvalAU,DtraFE\mathcal{D}^{AU}_{tra},\mathcal{D}^{AU}_{val},\mathcal{D}^{FE}_{tra}$ 的第 $i$ 张图像。 $N, K, M$ 分别表示的是集合 $DtraAU,DvalAU,DtraFE\mathcal{D}^{AU}_{tra},\mathcal{D}^{AU}_{val},\mathcal{D}^{FE}_{tra}$ 中元素的总个数，并且有 $\ll N$ 。 $y_i$ 表示的是一个 $one?hot\mathrm{one-hot}$ 编码，特指 $Q$ 个面部表情类别上的类别。 $zi∈{0,1}z_i\in \{0,1\}$ 表示的是第 $i$ 个 $AU\mathrm{AU}$ 单元。 $1$ 表示 $AU\mathrm{AU}$ 被激活， $0$ 表示 $AU\mathrm{AU}$ 单元没有被不激活。

?作者利用多标签 $sigmoid?\operatorname{sigmoid}$ 损失函数进行 $AU\mathrm{AU}$ 单元检测，具体的表达式表示为： $LAU=?∑jJzjlog?z^j+(1?zj)log?(1?z^j)\mathcal{L}^{AU}=-\sum\limits_{j}^{J}z^{j}\log \hat{z}^{j}+(1-z^j)\log(1-\hat{z}^j)$ 其中 $J$ 表示的是 $AU\mathrm{AU}$ 单元的个数。 $z^j$ 表示的是输入 $AU\mathrm{AU}$ 样本的第 $j$ 个真实 $AU\mathrm{AU}$ 标签。 $z^j\hat{z}^j$ 表示是的预测的 $AU\mathrm{AU}$ 分数。
?对于 $FER\mathrm{FER}$ ，作者采用的是交叉熵损失函数，具体的表达式为 $LFE=?∑qQyqlog?y^q\mathcal{L}^{FE}=-\sum\limits_{q}^{Q}y^q\log \hat{y}^q$ 其中 $Q$ 表示的是人脸表情类别。 $y^q$ 和 $y^q\hat{y}^q$ 分别表示的是真实标签和预测标签。
?多任务训练的常规目标是最小化所有单个任务的组合损失： $Ltrain=LAU(x,z)+ρLFE(e,y)L_{train}=\mathcal{L}^{AU}(x,z)+\rho\mathcal{L}^{FE}(e,y)$ 其中 $ρ\rho$ 表示的是人脸表情识别任务的贡献平衡系数。手动调整损失权重是费时费力的，恰恰相反，元辅助学习方法 $MAL\mathrm{MAL}$ 旨在通过一个元优化目标，自动学习为每个 $AU\mathrm{AU}$ 样本和 $FE\mathrm{FE}$ 样本分配自适应权重 $w_i^{AU}$ 和 $w_i^{FE}$ ，并且最小化损失： $Ltotal=∑i=1BwiAULiAU+∑i=1BwiFELiFE\mathcal{L}_{total}=\sum\limits_{i=1}^{B}w_i^{AU}\mathcal{L}_i^{AU}+\sum\limits_{i=1}^{B}w^{FE}_i\mathcal{L}_i^{FE}$ 其中 $B$ 表示的是 $mini-batch?\operatorname{mini-batch}$ 的尺寸。

元优化

?下图表示了 $MAL\mathrm{MAL}$ 的网络结构和元优化过程。 $MAL\mathrm{MAL}$ 的网络结构由基础网和元网组成。基础网络由主干网络和两个并行分类器组成。这两个分类器分别用于 $AU\mathrm{AU}$ 检测和 $FER\mathrm{FER}$ 检测。作者将主干网络表示为参数为 $θb\theta_b$ 的函数 $f(Xi)f(\mathcal{X}_i)$ ，两个分类器的参数分别是 $θcAU\theta^{AU}_c$ 和 $θcFE\theta^{FE}_c$ 。 $θAU={θb,θcAU}\theta_{AU}=\{\theta_b,\theta_c^{AU}\}$ 表示与 $AU\mathrm{AU}$ 检测任务相关的参数， $θFE={θb,θbFE}\theta_{FE}=\{\theta_b,\theta^{FE}_b\}$ 表示与 $FER\mathrm{FER}$ 任务相关的参数，因此基础网络中的参数被表示为 $θ={θb,θcAU,θcFE}\theta=\{\theta_b,\theta^{AU}_c,\theta^{FE}_c\}$ 。元网络接受图像特征 $f(Xi)f(\mathcal{X}_i)$ 作为特征，并将 $f(Xi)f(\mathcal{X}_i)$ 映射成标量权重 $w$ 。作者将元网络表示为带有参数 $ψ\psi$ 的函数 $g(f(Xi))g(f(\mathcal{X}_i))$ 。
?如下图所示， $MAL\mathrm{MAL}$ 的元优化过程由三个阶段组成分别是：元学习，元测试和主干学习。在每次训练迭代中， $MAL\mathrm{MAL}$ 依次执行以上三个步骤。在元训练阶段，基础网络将一批 $AU\mathrm{AU}$ 和 $FE\mathrm{FE}$ 样本作为输入样本，并计算每个样本的损失。元网络中估计 $AU\mathrm{AU}$ 和 $FE\mathrm{FE}$ 样本的初始权重分别为 $w^{AU}$ 和 $w^{FE}$ 。这两个任务的损失通过它们各自的样本权重进行缩放，以多任务方式更新基础网络（ $θ→θ?\theta \rightarrow \theta^{*}$ ）。在元测试阶段， $MAL\mathrm{MAL}$ 从验证集中获取一批 $AU\mathrm{AU}$ 样本作为输入，并评估更新后的基础网络的性能。然后， $MAL\mathrm{MAL}$ 执行元梯度下降步骤来更新元网络 $(ψ→ψ^)(\psi \rightarrow \hat{\psi})$ 。在基础学习步骤中， $MAL\mathrm{MAL}$ 结合自适应样本权重 $(w^AU,w^FE)(\hat{w}^{AU},\hat{w}^{FE})$ 学习这两个任务，以重新更新基础网络( $θ→θ^\theta \rightarrow \hat{\theta}$ )。

元训练阶段

?给定一批 $AU\mathrm{AU}$ 样本 $XtraAU={(Xi,zi),1≤i≤B}\mathcal{X}^{AU}_{tra}=\{(\mathcal{X}_i,z_i),1 \le i \le B\}$ ， $EtraFE={(Ei,yi),1≤i≤B}\mathcal{E}^{FE}_{tra}=\{(\mathcal{E}_i,y_i),1 \le i \le B \}$ ，主干网络提取特征表示为 $f(Xi)f(\mathcal{X}_i)$ 和 $f(Ei)f(\mathcal{E}_i)$ 。利用编码的图像特征， $MAL\mathrm{MAL}$ 通过元网络获得每个样本的权重表示为： $w^iAU=g(f(Xi);ψ^)\hat{w}^{AU}_{i}=g(f(\mathcal{X}_i);\hat{\psi})$ $w^iFE=g(f(Ei);ψ^)\hat{w}^{FE}_i=g(f(\mathcal{E}_i);\hat{\psi})$
$MAL\mathrm{MAL}$ 计算当前训练批次样本的平衡多任务损失: $L^total=∑i=1Bw^iAULiAU(θAU)+∑i=1Bw^iFELiFE(θFE)\hat{\mathcal{L}}_{total}=\sum\limits_{i=1}^{B}\hat{w}^{AU}_{i}\mathcal{L}^{AU}_i(\theta_{AU})+\sum\limits_{i=1}^{B}\hat{w}_i^{FE}\mathcal{L}_i^{FE}(\theta_{FE})$ 通过最小化 $L^total\hat{L}_{total}$ ， $MAL\mathrm{MAL}$ 重新更新基础网络的参数： $θ^=θ?α?θL^total\hat{\theta}=\theta-\alpha \nabla_{\theta}\hat{\mathcal{L}}_{total}$ 其中 $α\alpha$ 表示的是学习率， $θ^\hat{\theta}$ 和 $ψ^\hat{\psi}$ 表示的是下一次训练迭代中基础网络和元网络的初始参数。与用于多任务学习的普通随机梯度下降方法不同， $MAL\mathrm{MAL}$ 交替更新基础网络参数 $θ\theta$ 和元网络参数 $ψ\psi$ 。
在这里插入图片描述
?上述三个阶段的完整算法在如下算法中有所概述，主要通过深度学习框架 $pytorch\mathrm{pytorch}$ 来实现。