Abstract
最近引入的连续Skip-gram模型是学习高质量distributed vector representations(分布向量表示)的有效方法,distributed vector representations可以捕获大量精确的句法和语义关系。在本文中,我们提出了几个扩展,提高了向量的质量和训练速度。通过对frequent words进行二次抽样,我们获得了显着的加速,同时还学习了更多的regular word representations(常规单词表示)。我们还提出了一个分层softmax的简单替代方案,称为negative sampling(负采样)。
word representations的一个固有限制是:它们不关心词序,而且无法表示idiomatic phrases(习惯用语)。例如,不能简单地将“Canada/加拿大”和“Air/空中”的含义组合起来得到“Canada Air/加拿大航空公司”的含义。在这个例子的启发下,我们提出了一种在文本中查找短语的简单方法,并表明学习数百万个phrases的good vector representations是可能的。