当前位置: 代码迷 >> 综合 >> Httrack
  详细解决方案

Httrack

热度:24   发布时间:2024-02-12 23:12:13.0

httrack

爬取整站的网页,用于离线浏览,减少与目标系统交互,HTTrack是一个免费的(GPL,自由软件)和易于使用的离线浏览器工具。它允许您从Internet上下载万维网站点到本地目录,递归地构建所有目录,从服务器获取HTML,图像和其他文件到您的计算机。HTTrack安排原始网站的相关链接结构。只需在浏览器中打开“镜像”网站的页面,即可从链接到链接浏览网站,就像在线查看网站一样。HTTrack也可以更新现有的镜像站点,并恢复中断的下载。HTTrack完全可配置,并具有集成的帮助系统。

使用过程

前提:保证两台机器能ping通

  1. 新建一个目录存放爬下来的网页和数据
    mkdir pikachu
  2. 输入项目名字pikachu
    填写要保存到什么路径
    访问网站的起始路径
    在这里插入图片描述
  3. 选择Action
    (1)直接镜像;
    (2)用向导完成镜像(一般选择这个)
    (3)只要某种类型文件,比如doc,pdf
    (4)镜像当前地址下所有链接
    (5)只测试当前地址所有连接,只是测试
    在这里插入图片描述
  4. 可以定义一些字符,用来爬特定类型的数据,如果全部类型数据都爬得话,设置*
    开始爬取在这里插入图片描述
  5. 爬取完成后,root文件夹下出现pikachu文件夹,里面保存有结果
    在这里插入图片描述
    在这里插入图片描述