当前位置: 代码迷 >> Java相关 >> 亚马逊商品信息爬虫,该怎么解决
  详细解决方案

亚马逊商品信息爬虫,该怎么解决

热度:99   发布时间:2016-04-22 20:57:51.0
亚马逊商品信息爬虫
    我想做一个基于java的网络爬虫,已经完成了搭建好Heritrix平台,完成了数据下载的功能的工作(如下),但是由于没什么经验,遇到了下面的问题,没法继续进行下去了,想问问各位有没有什么比较好的建议!
1、对于AMAZON 爬出来的网页(存储到本地了)不知道怎么解析。
2、假如可以解析,我想把它放到数据库里面,包含商品的ID,price,delivery信息
3、有没有类似的电子商务网站的爬虫case可以借鉴下啊?求解!



------解决思路----------------------
貌似是用选择器吧
把要的字段选出来分条保存
有个jsoup来着只用过这个
------解决思路----------------------
对于解析没有现成的逻辑!
需要分析源码,然后利用选择器获取需要的数据!
可以看看jsoup
  相关解决方案