当前位置: 代码迷 >> 综合 >> 二、文本检索
  详细解决方案

二、文本检索

热度:22   发布时间:2024-01-27 00:32:15.0

文本是最基本、最高级的信息媒体,从内容理解的角度来讲,最重要的媒体是文本,因为只有文本才能给出信息准确的语法和语义描述,文本检索是Web信息检索的起点和基础

文本检索所涉及的主要问题:Web信息的采集与组织,文本内容表示,用户查询方法,相关文本排序,文本聚类(无监督学习),文本分类(有监督学习)

 

两种爬虫(clawler)比较:通用网络爬虫、聚焦爬虫

网络搜索策略:深度优先(深度优先会导致爬虫陷入问题,主流还是后两种)

                          广度优先:在抓取过程中,只有完成当前层次的搜索后,才进行下一层次的搜索

                          最佳优先

分布式爬虫:通过分散在不同地点的服务器实现,通过统一的索引结构已经数据镜像等方法为所有用户便捷的共享

网页去重算法MD5:

  • 算法思想:基于消息摘要判重
  • 消息摘要:对消息(网页)特征进行提取的过程称为摘要
  • 消息摘要过程:通过Hash函数获得,从整个消息(一个网页)中计算一个很小的特征信息的过程
  • 算法输出结果:128bit的消息摘要
  • 算法核心:Hash函数的设计
  • 算法缺点:计算量大
  • 算法特点:
  1. 压缩性:任意长度的数据,算出的MD5长度都是固定的
  2. 容易计算
  3. 抗修改性
  4. 强抗碰撞

预处理---------链接比较去重算法:

  • 算法思想:基于两个网页中所包含的链接是否相同来判断两个网页是否相同
  • 算法特点:计算量小。结果不够精确

文本的保存:通常以压缩的形式保存

 

 

  相关解决方案