httrack
爬取整站的网页,用于离线浏览,减少与目标系统交互,HTTrack是一个免费的(GPL,自由软件)和易于使用的离线浏览器工具。它允许您从Internet上下载万维网站点到本地目录,递归地构建所有目录,从服务器获取HTML,图像和其他文件到您的计算机。HTTrack安排原始网站的相关链接结构。只需在浏览器中打开“镜像”网站的页面,即可从链接到链接浏览网站,就像在线查看网站一样。HTTrack也可以更新现有的镜像站点,并恢复中断的下载。HTTrack完全可配置,并具有集成的帮助系统。
使用过程
前提:保证两台机器能ping通
- 新建一个目录存放爬下来的网页和数据
mkdir pikachu
- 输入项目名字pikachu
填写要保存到什么路径
访问网站的起始路径
- 选择Action
(1)直接镜像;
(2)用向导完成镜像(一般选择这个)
(3)只要某种类型文件,比如doc,pdf
(4)镜像当前地址下所有链接
(5)只测试当前地址所有连接,只是测试
- 可以定义一些字符,用来爬特定类型的数据,如果全部类型数据都爬得话,设置*
开始爬取 - 爬取完成后,root文件夹下出现pikachu文件夹,里面保存有结果