二、文本检索_综合

文本是最基本、最高级的信息媒体，从内容理解的角度来讲，最重要的媒体是文本，因为只有文本才能给出信息准确的语法和语义描述，文本检索是Web信息检索的起点和基础

文本检索所涉及的主要问题：Web信息的采集与组织，文本内容表示，用户查询方法，相关文本排序，文本聚类（无监督学习），文本分类（有监督学习）

两种爬虫（clawler）比较：通用网络爬虫、聚焦爬虫

网络搜索策略：深度优先（深度优先会导致爬虫陷入问题，主流还是后两种）

广度优先：在抓取过程中，只有完成当前层次的搜索后，才进行下一层次的搜索

最佳优先

分布式爬虫：通过分散在不同地点的服务器实现，通过统一的索引结构已经数据镜像等方法为所有用户便捷的共享

网页去重算法MD5：

预处理---------链接比较去重算法：

文本的保存：通常以压缩的形式保存