1 到SourceForge.net上去下载Heritrix包,下载地址链接为:http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980下载heritrix-1.14.3-src包和heritrix-1.14.3包。 2 将下载的heritrix-1.14.3-src解压出来,自己新建一个项目文件夹,我这里建一个Heritrix文件夹(假如放到E盘下),依次加入如下文件: (1)将heritrix-1.14.3-src里的src下的con文件夹里的文件全部复制到Heritrix项目文件夹里。 (2)将heritrix-1.14.3-src里的src下的java里的全部文件复制到Heritrix项目文件夹里。 (3)将heritrix-1.14.3-src里的src下的resources里的全部文件复制到Heritrix项目文件夹里。 (4)将heritrix-1.14.3(这里注意啦,不是用heritrix-1.14.3-src里的webapps包,而是用heritrix-1.14.3它里面打好包的webapps包,若用heritrix-1.14.3-src里的webapps的话,运行webUI后会产生target文件夹,应该是生成的sevlet文件,一flush项目就看到出错的标记,所以不要用它的webapps)里的webapps目录复制到Heritrix项目文件夹里。 3 在MyEclipse里新建一个javaProject,选择从存在的项目来新建,选择E:\Heritrix,点击确定,将生成javaProject。这里生成的javaProject很多错误,因为是javaProject,它把放在项目下的文件夹都变成包的形式。 4 将lib下的所有包加入构建路径下,就可以将错误减少不少。 5 将complier设置为1.5,可能是它里面用到了1.5支持的老类。 6 修改项目根目录下的heritrix.properties属性文件: (1)heritrix.version = 1.14.3(自己的heritrix版本号) (2)heritrix.jobsdir = jobs(抓下来的文件存放的目录) (3)heritrix.cmdline.admin = admin:123456(登录的用户名和密码,用冒号隔开) (4)heritrix.cmdline.port = 8085(heritrix.cmdline.port指定了运行Heritrix后台程序,监听的WebUI使用的端口号,默认为8080端口,为了不如Tomcat等的端口冲突,可以设置一个空闲的端口号给它) 7 运行包org.archive.crawler下Heritrix.java类,在控制台可以看到Heritrix打印出至版本号就说明开启成功了。 8 在浏览器里输入 http://localhost:8085便可以进行抓页面的工作了。
详细解决方案
MyEclipse上配置Heritrix
热度:10 发布时间:2016-04-23 12:29:04.0
1 到SourceForge.net上去下载Heritrix包,下载地址链接为:http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980下载heritrix-1.14.3-src包和heritrix-1.14.3包。 2 将下载的heritrix-1.14.3-src解压出来,自己新建一个项目文件夹,我这里建一个Heritrix文件夹(假如放到E盘下),依次加入如下文件: (1)将heritrix-1.14.3-src里的src下的con文件夹里的文件全部复制到Heritrix项目文件夹里。 (2)将heritrix-1.14.3-src里的src下的java里的全部文件复制到Heritrix项目文件夹里。 (3)将heritrix-1.14.3-src里的src下的resources里的全部文件复制到Heritrix项目文件夹里。 (4)将heritrix-1.14.3(这里注意啦,不是用heritrix-1.14.3-src里的webapps包,而是用heritrix-1.14.3它里面打好包的webapps包,若用heritrix-1.14.3-src里的webapps的话,运行webUI后会产生target文件夹,应该是生成的sevlet文件,一flush项目就看到出错的标记,所以不要用它的webapps)里的webapps目录复制到Heritrix项目文件夹里。 3 在MyEclipse里新建一个javaProject,选择从存在的项目来新建,选择E:\Heritrix,点击确定,将生成javaProject。这里生成的javaProject很多错误,因为是javaProject,它把放在项目下的文件夹都变成包的形式。 4 将lib下的所有包加入构建路径下,就可以将错误减少不少。 5 将complier设置为1.5,可能是它里面用到了1.5支持的老类。 6 修改项目根目录下的heritrix.properties属性文件: (1)heritrix.version = 1.14.3(自己的heritrix版本号) (2)heritrix.jobsdir = jobs(抓下来的文件存放的目录) (3)heritrix.cmdline.admin = admin:123456(登录的用户名和密码,用冒号隔开) (4)heritrix.cmdline.port = 8085(heritrix.cmdline.port指定了运行Heritrix后台程序,监听的WebUI使用的端口号,默认为8080端口,为了不如Tomcat等的端口冲突,可以设置一个空闲的端口号给它) 7 运行包org.archive.crawler下Heritrix.java类,在控制台可以看到Heritrix打印出至版本号就说明开启成功了。 8 在浏览器里输入 http://localhost:8085便可以进行抓页面的工作了。
相关解决方案
- MyEclipse 连接tomcat 出现如上异常
- Myeclipse 注册码生成器 源码 亲测
- MyEclipse 上配置tomcat遇到的有关问题
- myeclipse 左侧的目录结构变了 如何改回来
- MyEclipse 中 jsp页面编译报错有关问题
- MyEclipse 8.5怎么使用JeasyOPC
- myeclipse 8一个使用有关问题
- Myeclipse 运行tomcat时出现 以上提示
- SSH+Myeclipse,Tomcat运行时出错,是什么原因啊多谢
- MyEclipse lib 目录上的jar包不能自动识别
- ()关于web project与java project的有关问题(MyEclipse)
- myEclipse SVN链接不下,求大侠们解答
- myeclipse 怎么集成jbpm5
- struts1 myeclipse tomcat 从页面失去乱码
- myeclipse<%@ taglib prefix="c" uri="http://java.sun.com/jst1/core_rt"%>解决思路
- Myeclipse+tomcat开发web项目编译成功后可以不用在浏览器输入吗解决方法
- myeclipse javascript代码不执行,灰色的解决方法
- myeclipse 6 集成svn插件 建资源库报错咋解决啊解决办法
- myeclipse web项目中 引入的很多jar包无法展开解决方法
- 求高手解决~myeclipse/tomcat搭web网站的有关问题,非常感谢~
- 现下公司里开发用的 Eclipse + MyEclipse + Tomcat + JDK 都是什么版本的
- 求 myeclipse blue 6.5 注册码解决方案
- 现时公司里开发用的 Eclipse + MyEclipse + Tomcat + JDK 都是什么版本的
- MyEclipse JAVA向MYSQL导入与导出,出现中文乱码的有关问题!
- MyEclipse 显示代码提示的时间,该怎么解决
- MyEclipse 8.5开发时的揭示快捷键是什么
- Myeclipse 中的节点有关问题
- MyEclipse 打包jar文件,cmd下可运行,但是双击不能运行、解决方案
- 网络爬虫-Heritrix-无法采集到数据(当小弟我照网上的配置以后一Start这个Job就结束了,没有数据)
- Myeclipse 10.1上载与破解