scrapy中的spider傳遞參數的方法

發布時間：2020-10-30 23:51:07 來源：億速云閱讀：200 作者：Leah 欄目：開發技術

scrapy中的spider傳遞參數的方法？相信很多沒有經驗的人對此束手無策，為此本文總結了問題出現的原因和解決方法，通過這篇文章希望你能解決這個問題。

第一種方法，在命令行用crawl控制spider爬取的時候，加上-a選項，例如：

scrapy crawl myspider -a category=electronics

然后在spider里這樣寫：

import scrapy

class MySpider(scrapy.Spider):
  name = 'myspider'

  def __init__(self, category=None, *args, **kwargs):
    super(MySpider, self).__init__(*args, **kwargs)
    self.start_urls = ['http://www.example.com/categories/%s' % category]
    # ...

也就是在spider的構造函數里加上帶入的參數即可。

第二種方法，在用scrapyd控制spider的時候，可以向schedule.json發送-d選項加入參數，同樣的，也需要在spider的構造函數里如上寫法。例如：

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider -d setting=DOWNLOAD_DELAY=2 -d arg1=val1

另外，如果需要在scrapy發出的request上加入參數，可以使用request的meta參數，然后就可以相應的在返回的respose對象中獲得傳入的參數。這在某些情況下相當有用，比如說需要確定這個url是哪個用戶請求爬取的，可以先用上面兩種方法之一將信息傳遞給spider，spider就可以把這個信息加入到request中，然后在相應的reponse中就可以將這個信息與從url的頁面中獲得的信息一起存入數據庫。例如：

def parse_page1(self, response):
  item = MyItem()
  item['main_url'] = response.url
  request = scrapy.Request("http://www.example.com/some_page.html",
               callback=self.parse_page2)
  request.meta['item'] = item
  return request

def parse_page2(self, response):
  item = response.meta['item']
  item['other_url'] = response.url
  return item

看完上述內容，你們掌握scrapy中的spider傳遞參數的方法的方法了嗎？如果還想學到更多技能或想了解更多相關內容，歡迎關注億速云行業資訊頻道，感謝各位的閱讀！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

scrapy中的spider傳遞參數的方法

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

scrapy中的spider傳遞參數的方法

猜你喜歡

最新資訊

相關推薦

相關標簽