当前位置: 代码迷 >> Eclipse >> java开发基于主题搜索的算法,该怎么处理
  详细解决方案

java开发基于主题搜索的算法,该怎么处理

热度:91   发布时间:2016-04-23 13:38:15.0
java开发基于主题搜索的算法
我是个新手,想开发一个java程序编写的基于主题的搜索算法。主要功能有:
1.选取2~6个种子站点,锁定某个主题搜集高质量网页,如教育新闻、信息检索课程、旅游信息、就业招聘信息等。
2.实现crawler的基本功能要求:
(1)遵守采集礼貌规则:须分析robots.txt文件和meta tag有无限制;一个线程抓完一个网页后要sleep 1~2秒钟;
(2)能对HTML网页进行解析,提取出主题相关的链接URL,能判别提取的URL是否已处理过,不重复解析已搜集过的网页;
(3)能够对crawler程序的一些基本参数进行设置,包括:抓取深度(depth)、种子URL等;
(4)使用User-agent向服务器表明自己的身份;
(5)对搜集过程进行日志记录,为采集过程的统计分析打下基础;
(6)采用多线程并行编程技术,提高搜集速度。但抓取某一URL时最多允许建立2个连接(本地作网页解析的线程数则不限)
3.实现主题crawler,设计网页主题相关度的判断方法;优先搜集主题相关的链接,尽量不下载主题不相关的网页。
4.设计评测实验,定义评测指标,实现对搜集网页质量和相关度的评估。
5.GUI图形用户界面、Web界面,通过界面管理crawler,包括启停、URL增删等.

不知道刚开始这样的研究应该看些什么书籍或者资料呢?希望大家可以帮忙,给出一些具体的方法,或者给出一些链接资料也可以,先谢过大家了。


------解决方案--------------------
做爬虫, 有一本书叫Java机器人编程? 忘了名称, 关键词java 和 机器人

LZ想法很不错, 分析得挺好
------解决方案--------------------
网页爬虫网上很多的,但是都不是很全面。网页相似度的计算量也是很惊人的,最好能有兼顾性能和精确性的算法,不然多线程只会成为一种负担。
------解决方案--------------------
机器人使用Jakarta HTTPclient
搜索引擎可以使用Apache Solr
------解决方案--------------------
探讨
机器人使用Jakarta HTTPclient
搜索引擎可以使用Apache Solr
  相关解决方案