当前位置: 代码迷 >> python >> 使用Scrapy可以处理多少个URL?
  详细解决方案

使用Scrapy可以处理多少个URL?

热度:87   发布时间:2023-06-13 13:59:33.0

我有一个包含许多URL的文件。 我愿意从这些URL中提取链接,然后提取不同页面的标题和元数据。

我想知道可以向Scrapy搜寻器提供多少个URL,以便获得适当的结果。 我不知道Scrapy是否会对URL扫描和从URL提取链接有任何限制。 如何随机提取链接?

le = LinkExtractor()
for link in le.extract_links(response):
    yield scrapy.Request(link.url, callback=self.parse_inof)

参见上面的代码。 我正在使用它从URL中提取链接。 我该怎么做?

CONCURRENT_ITEMS
Default: 100

在项目处理器(也称为项目管道)中并行处理的并发项目的最大数量(每个响应)。

CONCURRENT_REQUESTS
Default: 16

Scrapy下载器将执行的最大并发(即并发)请求数

编辑; Altso,也许可以使用,

import random

list = [20, 16, 10, 5];
random.shuffle(list)
print "Reshuffled list : ",  list

random.shuffle(list)
print "Reshuffled list : ",  list

You might need to give the list urls a numeric id first.
  相关解决方案