《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记_综合

《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记

AAAI 2020

1. 背景

从2019年作者Fan在论文 Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling 中定义了 TOWE（Target-oriented Opinion Words Extraction）任务，旨在从评论文本中抽取给定意见目标（opinion target）对应的观点词（opinion words）。

考虑到标注大量细粒度情感分析数据是耗时且困难的，这篇论文提出了从迁移学习的角度出发，提出潜在观点迁移网络，从资源丰富的评论情感分类中迁移潜在的观点知识来提升TOWE。

添加了一个评论情感分类模块，这个模块运行了两次，第一次是模型训练之前，先用情感分类模块训练大型的评论数据集，预训练结束后，情感分类模块中所有的参数固定。第二次运行是在训练时，用来获取输入的sentence中的意见词。

2. 介绍

tiqu
其中红色的表示opinion target 也就是我们平常说的aspect term。蓝色的情感词，箭头表示的是情感词指向的意见目标。

由于缺乏注释数据，TOWE数据集很少。注释者很难识别一个句子中所有的方面并定位到相应的意见词。所以这就限制了模型的有效性。

相比之下，有很多情感分类的数据集可以获取，里面包含了实质性的观点信息和语义模式。因此，作者建议把潜在的观点知识转移到TOWE中。但是还是有以下两个挑战：

情感分类数据集中的意见词是没有注释的，转移之前要找到他们。
因为评论的情感分类不考虑目标信息，因此获得的潜在意见信息是整个句子的，且与目标无关（句子级情感分类模块，所以不考虑目标信息）。因此这些信息不能直接被TOWE使用。

提出了Latent Opinions Transfer Network （LOTN）模型。

对于第一个问题，我们首先在评论情绪分类数据集上训练一个基于注意力的Bi-LSTM，通过概率权重提取可能的意见词（情感词）。第二个问题，提出了一种有效的转换方法（设置距离权重），将情感分类模型中所有单词的全局注意力分布转化为潜在的目标相关的观点词。

最后，我们通过辅助学习信号将这些捕获函数整合到我们的模型中。另外，我们加入了预训练模型的编码器，进一步引导TOWE模型学习潜在观点，证明了该方法的有效性。

主要贡献包括：

在解决注释数据不足的问题上，作者首次提出将潜在的观点知识从资源丰富的评论情绪分类数据集转移到TOWE的低资源任务中。
为了有效地传递意见信息，我们提出了一种新的模型，从情感分类模型中提取潜在的意见词，并通过辅助学习信号将其整合到TOWE中。

3. 模型

整理了一下模型的思路：首先，通过评论情感分类模块，使用Yelp等大型评论数据集进行训练，训练结束后，情感分类模块所有参数保持不变（这里体现了迁移学习思想，使用其他模块的数据集来训练模型）。其次，提出了模型LOTN，在模型运行时，同一个句子分别输入TOWE模块和情感分类模块，情感分类模块通过基于注意力机制的bilstm找到可能存在的意见词（目标无关）。提出了一种转移方法识别潜在的目标相关的意见词。又提出了一种辅助学习方法将识别到的潜在目标相关的意见词转移到TOWE中。最后通过解码层进行序列标记任务。

3.1 TOWE问题重述

给定一个评论S = { w₁ ,w₂,…w_t,…,w_n}，它是由一个意见目标w_t和n个词组成的。使用{BIO}进行标记。
在这里插入图片描述
其中下划线表示意见目标。

3.2 训练前情绪分类模型（固定参数）

评论情绪分类（句子级）目的是检测评论文本的总体的情绪极性。

给定了一个评论序列，S = { s₁ ,s₂…,s_m}，通过word embedding 映射成向量表示{ w₁ ,w₂…w_m}，然后利用Bi-LSTM网络对单词表示{ w₁ ,w₂…w_m}进行编码，生成上下文表示{h^sc₁,h^sc₂,…,h^sc_m}。

注意机制被用来捕捉潜在的和全局的意见词。h^sc_i的注意力权重a_i被定义为：

在这里插入图片描述
其中 h^sc_avg 表示为所有隐藏状态的平均值，u()进行线性变化，转化为一个数，好计算注意力权重。下面是 h^sc_avg 的计算过程：

评论表示 r_sc 是所有隐藏状态的加权和：
在这里插入图片描述
然后把 r_sc 输入到一个线性层和softmax层来预测评论的情绪标签（积极，消极，中性）。我们通过最小化预测的情绪分布与真实情况之间的交叉熵损失来训练情绪分类模型。预训练结束后，情感分类模型中的所有参数都是固定的。

3.3 潜在意见转移网络（LOTN）

在这里插入图片描述
LOTN主要分为两部分，第一部分是TOWE模块，即基于位置嵌入的Bi-LSTM，第二部分是经过训练的情感分类模块，即基于注意力的Bi-LSTM。LOTN通过两种不同的方法将潜在的观点从情感分类模块转移到TOWE模块。

首先，预训练情感分类模块的BiLSTM层包含大量隐含的观点信息和语义模式。我们将这些信息整合到TOWE模块的编码层，引入外部意见知识。

其次，因为情感分类过程没有考虑目标的信息，所以预训练模块捕捉到的潜在观点词具有全局性、目标无关性。为了解决这个问题，提出了一个启发式转化方法，通过考虑目标和其他词的位置信息，将全局注意力权重转化为目标相关词，然后通过一个辅助学习信号合并到TOWE中。

3.3.1 基于位置嵌入的Bi-LSTM

给定一个句子 s={ w₁ ,w₂…w_n} ，其中包含方面词 w_t 。
首先生成句子中每个单词到目标词的相对距离，记为距离索引 l_i
在这里插入图片描述
然后通过通过距离索引去位置嵌入表 E_pos ∈R^L*d1 中获得位置嵌入，其中d1是嵌入维度，L是最大位置索引。

另外作者还是用了一个单词嵌入表 E_emb ∈R^|V|*d2 获得词的语义表示。

每个单词 w_i 的表示 e_i 由字向量和对应该位置的位置向量串联而成：
在这里插入图片描述
“；”表示的是串联运算。

最后通过Bi-LSTM捕捉每个单词的上下文信息：
在这里插入图片描述
θ_t 是Bi-LSTM中的参数。
在基本的模型中，上下文表示 h_i^t 可以用来预测给定目标的观点词（情感词）。

3.3.2 Transferring Pretrained Encoder（传输预训练编码器）

为了转移潜在的观点知识，将任务的句子s输入到预训练的情绪分类模块，生成对应的隐藏状态 {h^sc₁,h^sc₂,…,h^sc_m} 和注意力权重 {a₁,a₂,…,a_n} 。

从语义层面上看，预训练情绪分类模型的编码器包含了大量的隐含意见信息。通过连接把两个隐藏状态进行整合。

在这里插入图片描述
h_i^sc 将句子s输入到情感分类模块得到的隐藏状态（包含了情感分类模块丰富的语义信息）， h_i^t 是通过基于位置嵌入的BILSTM得到的隐藏状态（包含了上下文信息）

所有这里的 r_i 即包含了任务特定的上下文信息，也包含了来自情感分类模块的外部opinion知识。

3.3.3 转移潜在的观点词（情感词）

提出了两种方法：

Transformation Method（识别潜在的目的相关的意见词）
辅助学习信号（将识别到的意见词转移到TOWE模块）

3.3.3.1 Transformation Method

情感分类模块中的注意力机制以概率权重的方式捕捉潜在的意见词（情感词），但是捕捉到的目标是全局的和目标无关的。

直观上来看，更接近意见目标的词更有可能成为目标的意见词（个人感觉使用距离权重的方法不是很严谨，）。因此，我们通过目标和相关距离权重 c_i 将目标信息引入到注意分布中：

在这里插入图片描述
n 是输入句子的长度，a_i 表示的是情感分类模块计算出的注意力权重，t表示的是opinion target 在文中的位置。 |i-t| 表示的是单词 w_i 与意见目标 w_t 之间的绝对距离。距离越近，权重越大。

为了重新获得概率注意力分布，进行归一化处理：

在这里插入图片描述
设置一个阈值 1/n 。从情感分类的角度看，如果大于阈值则表示这是一个潜在的，目标相关的观点词。

3.3.3.2 辅助学习信号

y_i^a 是一个伪标签（不是最终的结果），代表情感分类模块中的观点知识，我们通过辅助学习信号将这些潜在的观点知识整合到TOWE模块中，这里的 La 就表示的是辅助学习信号。
在这里插入图片描述
其中 W_a 和 b_a 分别是权重矩阵和偏差矩阵，这里的 y_i^a 冒表示的是预测概率。Ⅱ（·）是指示函数（在这里 y_i^a 用0或者1，表示是否是潜在的目的相关情感词）。LONE通过优化辅助损失La来包含这些潜在的观点知识。有助于TOWE更好地解码目标的意见信息（通过缩小损失函数，不断优化权重矩阵 W_a 和偏移值 b_a ）。