当前位置: 代码迷 >> Java Web开发 >> 爬虫采集到的数据(包括标题和内容)已经插入到数据库,该如何去重?
  详细解决方案

爬虫采集到的数据(包括标题和内容)已经插入到数据库,该如何去重?

热度:103   发布时间:2016-04-16 22:01:17.0
爬虫采集到的数据(包括标题和内容)已经插入到数据库,该怎么去重?急!急!急!
刚接触到爬虫抓取数据方面,对抓取到的数据该怎么有效去重,或者是聚类的算法计算哪些是热点啊,求指点
------解决方案--------------------
为什么不坐url 去重,或者 内容的一些关键字段去重呢?
------解决方案--------------------
用lucence直接写一个类,将爬虫得到的结果,按照某几个关键字段建立索引,新爬出的数据,按照关键字段先在lucence里面查一下看有没有,没有就加入到索引中,已经存在就丢弃掉
------解决方案--------------------
感觉弄出哪些是热点还要分词计算词频的吧。
  相关解决方案