当前位置: 代码迷 >> 综合 >> 特征工程(part4)--特征缩放:tf-idf
  详细解决方案

特征工程(part4)--特征缩放:tf-idf

热度:18   发布时间:2024-02-23 08:12:13.0

学习笔记,仅供参考,有错必究


文章目录

    • 特征缩放:tf-idf
      • tf-idf: 词袋的一种简单扩展
        • 使用逻辑回归进行分类(JTTZGC-ebook-p75)
        • 使用正则化对逻辑回归进行优化(JTTZGC-ebook-p76)


特征缩放:tf-idf


tf-idf: 词袋的一种简单扩展


tf-idf是在词袋方法基础上的一种简单扩展,它表示词频-逆文档频率。tf-idf计算的不是数据集中每个单词在每个文档中的原本技术,而是一个归一化的计数,其中每个单词的计数要除以这个单词出现在其中的文档数量 ,即:

b o w (