当前位置: 代码迷 >> Java相关 >> 江湖急救! Nutch 2.2.1 爬虫的有关问题,路过的大神们过来瞧瞧
  详细解决方案

江湖急救! Nutch 2.2.1 爬虫的有关问题,路过的大神们过来瞧瞧

热度:371   发布时间:2016-04-22 21:02:32.0
江湖急救!!! Nutch 2.2.1 爬虫的问题,路过的大神们过来瞧瞧
是这样的,我配置好了Nutch,然后按照上面的指导也爬取了一些网页,OK。
问题来了:
这句话:bin/nutch crawl urls –threads n –depths n
这是用来爬取网页的,默认情况下,如果不指定爬取目录,它会自己在与 bin 目录同级的地方建立三个目录(或许更多,不了解),用来装爬取到的网页,但是我运行后,爬虫爬的好欢快,爬了一千多个网页,但是指定目录下上面文件夹都没有被创建,只是Mysql里面存储了网页的记录,但是其他的文件呢??说好的会自动创建目录来存储爬取的数据的呢??

PS:一个网页有很多内容,图片啊各种东东,Nutch爬虫爬的是哪些?默认情况下,又是存储在哪的呢??

希望各位路过的大神有力出力,不吝赐教!
------解决方案--------------------
我是来学习的。