91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

爬蟲Crawl Spider模板的用法

發布時間:2021-08-16 17:39:32 來源:億速云 閱讀:188 作者:chen 欄目:編程語言

本篇內容介紹了“爬蟲Crawl Spider模板的用法”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!

1.Spider模板

  • scrapy默認創建的spider模板就是basic模板,創建spider文件的命令是:scrapy genspider dribbble dribbble.com,查看spider模板的命令是:scrapy genspider --list

  • 在項目中明確指明使用crawl生成模板生成spider的命令是:scrapy genspider -t crawl csdn www.csdn.net

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class CsdnSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['https://www.csdn.net/']
    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        return item

2.CrawlSpider類介紹

  • CrawlSpider是Spider的派生類,目的是對全站信息爬取更加簡單,爬取那些具有一定規則網站的常用的爬蟲, 它基于Spider并有一些獨特屬性;

3.rules規則列表

  • 語法:Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None),rules是Rule對象的集合,用于匹配目標網站并排除干擾;

  • link_extractor:是一個LinkExtractor對象,其定義了如何從爬取到的頁面提取鏈接;

  • callback:從link_extractor中每獲取到鏈接得到Responses時,會調用參數所指定的值作為回調函數,該回調 函數接收一個response作為其一個參數;

  • cb_kwargs:用于作為**kwargs參數,傳遞給callback;

  • follow:是一個布爾值,指爬取了之后,是否還繼續從該頁面提取鏈接,然后繼續爬下去, 默認是False;

  • process_links:指定spider中哪個的函數將會被調用,從link_extractor中獲取到鏈接列表時將會調用該函數 。該方法主要用來過濾;

  • process_request:指定處理函數,根據該Rule提取到的每個Request時,該函數將會被調用,可以對Request進 行處理,該函數必須返回Request或者None;

4.LinkExtractors

  • LinkExtractors 的目的是提取鏈接,每個LinkExtractor有唯一的公共方法是extract_links(),它接收一個 Response對象,并返回一個scrapy.link.Link對象;

  • Link Extractors要實例化一次,并且 extract_links 方法會根據不同的 response 調用多次提取鏈接;

主要參數:

  • allow:滿足括號中”正則表達式”的值會被提取,如果為空,則全部匹配;

  • deny:與這個正則表達式(或正則表達式列表)不匹配的url一定不提取;

  • allow_domains:會被提取的連接的;

  • deny_domains:一定不會被提取鏈接的domains;

  • restrict_xpaths:使用xpath表達式,和allow共同作用過濾鏈接;

5.爬取CSDN的文章, 且提取URL和文章標題

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class DoubanSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['blog.csdn.net']
    start_urls = ['https://blog.csdn.net']
    # 指定鏈接提取的規律
    rules = (
        # follow:是指爬取了之后,是否還繼續從該頁面提取鏈接,然后繼續爬下去
        Rule(LinkExtractor(allow=r'.*/article/.*'), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        print('-'*100)
        print(response.url)
        title = response.css('h2::text').extract()[0]
        print(title)
        print('-' * 100)
        return None

“爬蟲Crawl Spider模板的用法”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

湖北省| 新密市| 南皮县| 宁城县| 讷河市| 开江县| 普洱| 奉贤区| 金乡县| 阿拉善左旗| 卓资县| 武城县| 缙云县| 永康市| 平潭县| 胶州市| 鹤壁市| 全南县| 宁海县| 张家口市| 刚察县| 南木林县| 盐边县| 大余县| 宣化县| 岳阳县| 东乌珠穆沁旗| 托克逊县| 县级市| 建平县| 张家界市| 广西| 岫岩| 固镇县| 镇原县| 偃师市| 砚山县| 英吉沙县| 迁安市| 休宁县| 泗水县|