当前位置: 代码迷 >> 综合 >> gensim.models.word2vec() 参数详解
  详细解决方案

gensim.models.word2vec() 参数详解

热度:26   发布时间:2023-12-14 08:15:17.0

Word2vec介绍

Word2vec是一个用来产生词向量的模型。是一个将单词转换成向量形式的工具。 通过转换,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。

词向量
Word2vecWord Embedding 的方法之一,中文名“词向量”,作用就是将自然语言中的文本转为计算机可以理解的稠密向量。在Word2vec出现之前,自然语言处理经常把字词转为离散的单独的符号,也就是One-Hot Encoder

实战运用

https://mp.weixin.qq.com/s/xYvy6QHQySzSQ-3ImtGmjw

函数原型

gensim.models.word2vec.Word2Vec(sentences=None, corpus_file=None, size=100, alpha=0.025, window=5, min_count=5,max_vocab_size=None, sample=0.001, seed=1, workers=3, min_alpha=0.0001, sg=0, hs=0, negative=5,ns_exponent=0.75, cbow_mean=1, hashfxn=<built-in function hash>, iter=5, null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000, compute_loss=False, callbacks=(), max_final_vocab=None)

参数介绍

  • sentences (iterable of iterables, optional):供训练的句子,可以使用简单的列表。
  • corpus_file (str, optional):LineSentence格式的语料库文件路径。
  • size (int, optional):word向量的维度。
  • window (int, optional): 一个句子中当前单词和被预测单词的最大距离。
  • min_count (int, optional) : 忽略词频小于此值的单词。
  • workers (int, optional): 训练模型时使用的线程数。
  • sg ({0, 1}, optional): 模型的训练算法: 1: skip-gram; 0: CBOW.
  • hs ({0, 1}, optional): 1: 采用hierarchical softmax训练模型; 0: 使用负采样。
  • negative (int, optional): 0: 使用负采样,设置多个负采样(通常在5-20之间)。
  • ns_exponent (float, optional): 负采样分布指数。1.0样本值与频率成正比,0.0样本所有单词均等,负值更多地采样低频词。
  • cbow_mean ({0, 1}, optional): 0: 使用上下文单词向量的总和; 1: 使用均值,适用于使用CBOW。
  • alpha (float, optional): 初始学习率。
  • min_alpha (float, optional): 随着训练的进行,学习率线性下降到min_alpha。
  • seed (int, optional): 随机数发生器种子。
  • max_vocab_size (int, optional): 词汇构建期间RAM的限制; 如果有更多的独特单词,则修剪不常见的单词。 每1000万个类型的字需要大约1GB的RAM。
  • max_final_vocab (int, optional): 自动选择匹配的min_count将词汇限制为目标词汇大小。
  • sample (float, optional):高频词随机下采样的配置阈值,范围是(0,1e-5)。
  • hashfxn (function, optional): 哈希函数用于随机初始化权重,以提高训练的可重复性。
  • iter (int, optional): 迭代次数。
  • trim_rule (function, optional): 词汇修剪规则,指定某些词语是否应保留在词汇表中,修剪掉或使用默认值处理。
  • sorted_vocab ({0, 1}, optional):如果为1,则在分配单词索引前按降序对词汇表进行排序。
  • batch_words (int, optional): 每一个batch传递给线程单词的数量。
  • compute_loss (bool, optional):如果为True,则计算并存储可使用get_latest_training_loss()检索的损失值。
  • callbacks (iterable of CallbackAny2Vec, optional): 在训练中特定阶段执行回调序列。
  相关解决方案