博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬虫scrapy之如何同时执行多个scrapy爬行任务
阅读量:5371 次
发布时间:2019-06-15

本文共 1260 字,大约阅读时间需要 4 分钟。

背景:

  刚开始学习scrapy爬虫框架的时候,就在想如果我在服务器上执行一个爬虫任务的话,还说的过去。但是我不能每个爬虫任务就新建一个项目吧。例如我建立了一个知乎的爬行任务,但是我在这个爬行任务中,写了多个spider,重要的是我想让他们同时运行,怎么办?

小白解决办法:

  1、在spiders同目录下新建一个run.py文件,内容如下(列表里面最后可以加上参数,如--nolog)

  2、小白想了(当时的我),这样也行,mygod,那我岂不是多写几行就行就行了么,结果(结果白痴了),小白又想,那加个while循环,把爬虫名字都写入一个列表,这样循环拿到每个spiders的name,结果更惨。

  3、下面命令只限于,快速调试的作用或一个项目下单个spider的爬行任务。

from scrapy.cmdline import executeexecute(['scrapy','crawl','httpbin'])

  

通过学习才知道原来是这样子:

  1、在spiders同级创建任意目录,如:commands

  2、在其中创建 crawlall.py 文件 (此处文件名就是自定义的命令)

  

  

crawlall.py
from scrapy.commands import ScrapyCommandfrom scrapy.utils.project import get_project_settingsclass Command(ScrapyCommand):    requires_project = True    def syntax(self):        return '[options]'    def short_desc(self):        return 'Runs all of the spiders'    def run(self, args, opts):        spider_list = self.crawler_process.spiders.list()        for name in spider_list:            self.crawler_process.crawl(name, **opts.__dict__)        self.crawler_process.start()

  3、到这里还没完,settings.py配置文件还需要加一条。

  COMMANDS_MODULE = ‘项目名称.目录名称’ 

COMMANDS_MODULE = 'zhihuuser.commands'

 

 

  4、那么问题来了,如果我在spiders写了多个爬行任务,我上面说了这么多,我最终需要怎么执行,so easy!你可以直接把下面这个命令放到计划任务里面,就行了。

scrapy crawlall

 

转载于:https://www.cnblogs.com/lei0213/p/7900340.html

你可能感兴趣的文章
bzoj 4260: Codechef REBXOR (01 Trie)
查看>>
学好python
查看>>
css-IE中的border-radius和box-shadow
查看>>
利用bootstrap和webform的异步CRUD及分页
查看>>
Saiku资源帖
查看>>
解决手机页面中点击文本框,网页放大问题
查看>>
2-5
查看>>
牛客多校3 A-PACM Team(状压降维+路径背包)
查看>>
HDU - 4284 Travel(floyd+状压dp)
查看>>
1027 制作表格
查看>>
面向对象的介绍与特性
查看>>
typing-python用于类型注解的库
查看>>
20189215 2018-2019-2 《密码与安全新技术专题》第13周作业
查看>>
第四周作业
查看>>
一、HTML基础
查看>>
蓝牙进阶之路 (002) - HC-05与HC-06的AT指令的区别(转)
查看>>
mysql的limit经典用法及优化
查看>>
C#后台程序与HTML页面中JS方法互调
查看>>
mysql 同一个表中 字段a 的值赋值到字段b
查看>>
antiSMASH数据库:微生物次生代谢物合成基因组簇查询和预测
查看>>