当前位置: 代码迷 >> J2SE >> 有哪位高手写过可以处理动态脚本语言如Javascript的爬虫
  详细解决方案

有哪位高手写过可以处理动态脚本语言如Javascript的爬虫

热度:101   发布时间:2016-04-24 14:49:11.0
有谁写过可以处理动态脚本语言如Javascript的爬虫?
用java的HTMLEditorKit.Parser从html中提取链接,如果碰到javascript语言,就会出错,如
document.write( " <a   href=\ "../ "   +   m   +   "\ "   onMouseOver=\ "MSHL(并不完整)

它会把\../做为一个链接加入,会导致一个url黑洞。

------解决方案--------------------
跳过这样的链接!
------解决方案--------------------
跳过脚本块。
------解决方案--------------------
只能忽略掉,除非你的爬虫能支持javascript的运行。
  相关解决方案