当前位置:
代码迷
>>
Java面试
>> 有个有关问题关于java的主题爬虫
详细解决方案
有个有关问题关于java的主题爬虫
热度:
13
发布时间:
2016-04-17 19:18:41.0
有个问题关于java的主题爬虫
老师要求我们写一个java的主题爬虫,大致作用是爬一些服务外包网站上的项目信息,比如项目名称,要求,联系方式等。我现在能做到的只是将整个网站的正文内容分文件下载下来。该如何像老师要求的那样只下载想要的文本内容,而直接忽略其他的文本内容呢?是根据html的标签来做?
------解决方案--------------------
下下来过滤被,写个正则把标签去掉,url存队列,需要的内容再一匹配,直接存数据库了
相关解决方案
java 乱码 汉字是 ? 如何转换成汉字
java web 登录次数限制,该如何解决
java 工商银行网银支付 B2B的 都亟需什么,需要注意什么
Java Applet程序从JDK6升级到7时遇到的有关问题
java web 视频相干
请教一个关于链接后缀的有关问题(java web 应用)
java 系统单点登录解决方案
java.lang.NumberFormatException: For input string: "id"该如何处理
java.lang.NoSuchMethodException: setId([Ljava.lang.String;)解决方法
java 获取客户端IP解决办法
JAVA 后台怎么获得前台页面FCKedit编辑器中的内容以及内容的样式
java 正则化匹配有关问题
java web 受阻
java.lang.IllegalStateException: No output folder,该怎么解决
java.lang.NoSuchMethodError: org.springframework.util.ReflectionUtils.makeAccess,该如何解决
java 乱码有关问题 急求大神
java EE错误如何解决阿,都是过了,没有能解决的!
java 工程打包有关问题 多谢各位大神!多谢
JAVA WEB导航条,该怎么处理
java.sql.SQLException: Access denied for user 'root'@'localhost' (using password,该如何处理
java 中Node 有关问题
关于 java 引述传递和值传递,你的知否
吐了,java Timer 终止不了。
Java Web 学习中有关问题,请高手指教
java web中的url地址小疑点。
java web开发解决办法
java.lang.NullPointerException解决方法
关于 java cast 有关问题,你明白不
java ftp 下传和上载乱码有关问题
java web项目上的一些文件