文本是最基本、最高级的信息媒体,从内容理解的角度来讲,最重要的媒体是文本,因为只有文本才能给出信息准确的语法和语义描述,文本检索是Web信息检索的起点和基础
文本检索所涉及的主要问题:Web信息的采集与组织,文本内容表示,用户查询方法,相关文本排序,文本聚类(无监督学习),文本分类(有监督学习)
两种爬虫(clawler)比较:通用网络爬虫、聚焦爬虫
网络搜索策略:深度优先(深度优先会导致爬虫陷入问题,主流还是后两种)
广度优先:在抓取过程中,只有完成当前层次的搜索后,才进行下一层次的搜索
最佳优先
分布式爬虫:通过分散在不同地点的服务器实现,通过统一的索引结构已经数据镜像等方法为所有用户便捷的共享
网页去重算法MD5:
- 算法思想:基于消息摘要判重
- 消息摘要:对消息(网页)特征进行提取的过程称为摘要
- 消息摘要过程:通过Hash函数获得,从整个消息(一个网页)中计算一个很小的特征信息的过程
- 算法输出结果:128bit的消息摘要
- 算法核心:Hash函数的设计
- 算法缺点:计算量大
- 算法特点:
- 压缩性:任意长度的数据,算出的MD5长度都是固定的
- 容易计算
- 抗修改性
- 强抗碰撞
预处理---------链接比较去重算法:
- 算法思想:基于两个网页中所包含的链接是否相同来判断两个网页是否相同
- 算法特点:计算量小。结果不够精确
文本的保存:通常以压缩的形式保存