Httrack_综合_代码迷

httrack

爬取整站的网页，用于离线浏览，减少与目标系统交互，HTTrack是一个免费的（GPL，自由软件）和易于使用的离线浏览器工具。它允许您从Internet上下载万维网站点到本地目录，递归地构建所有目录，从服务器获取HTML，图像和其他文件到您的计算机。HTTrack安排原始网站的相关链接结构。只需在浏览器中打开“镜像”网站的页面，即可从链接到链接浏览网站，就像在线查看网站一样。HTTrack也可以更新现有的镜像站点，并恢复中断的下载。HTTrack完全可配置，并具有集成的帮助系统。

使用过程

前提:保证两台机器能ping通

新建一个目录存放爬下来的网页和数据
mkdir pikachu
输入项目名字pikachu
填写要保存到什么路径
访问网站的起始路径
选择Action
(1)直接镜像；
(2)用向导完成镜像（一般选择这个）
(3)只要某种类型文件，比如doc，pdf
(4)镜像当前地址下所有链接
(5)只测试当前地址所有连接，只是测试
可以定义一些字符，用来爬特定类型的数据，如果全部类型数据都爬得话，设置*
开始爬取
爬取完成后，root文件夹下出现pikachu文件夹，里面保存有结果