当前位置: 代码迷 >> Eclipse >> Eclipse中配备使用Heritrix-1.14.4
  详细解决方案

Eclipse中配备使用Heritrix-1.14.4

热度:500   发布时间:2016-04-23 13:12:23.0
Eclipse中配置使用Heritrix-1.14.4

?

Eclipse中配置使用Heritrix-1.14.4

1.?下载并解压heritrix-1.14.4-src.zipheritrix-1.14.4.zip

2.?Eclipse中新建java?project,项目名定为heritrix_getstart

3.?将解压后的heritrix-1.14.4-src.zipsrc/java/下的com,org,st文件夹复制到工程的src目录下

4.?src/conf下的modules,profiles,selftest文件夹和heritrix.propertries,jndi.properities文件复制到工程的src目录下

5.?解压heritrix-1.14.4-zipwebapps文件夹复制到工程根目录下

6.?如图:



?

7.?打开工程中的heritrix.propertries文件修改以下配置项

a)?heritrix.version?=?1.14.4,配置heritrix版本号

b)?heritrix.jobsdir?=?jobs,配置爬取的内容的放置文件夹

c)?heritrix.cmdline.admin?=?username:password,配置webUI登录的用户名和密码

d)?heritrix.cmdline.port?=?8888,配置webUI的登录端口

8.?lib文件夹下的后有jar包加入到工程的classpath

9.?在工程中找到org.archive.crawler下的Heritrix.java运行

10.?



?

11.打开浏览器,输入地址:http://localhost:8888输入用户名和密码就可以登录到后台


?

?

?

?

可能遇到的问题

?thread-10?org.archive.util.ArchiveUtils.<clinit>()?TLD?list?unavailable

解决方法:到heritrix.1.14.4.jar包中将文件org/archive/util/tlds-alpha-by-domain.txt复制到工程中的org/archive/util目录下即可

?

?

  相关解决方案