91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Link Extractors在python分布式爬蟲中的使用方法

發布時間:2020-11-30 13:56:19 來源:億速云 閱讀:190 作者:小新 欄目:編程語言

這篇文章將為大家詳細講解有關Link Extractors在python分布式爬蟲中的使用方法,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

LinkExtractors

class scrapy.linkextractors.LinkExtractor

Link Extractors 的目的很簡單: 提取鏈接?

每個LinkExtractor有唯一的公共方法是 extract_links(),它接收一個 Response 對象,并返回一個 scrapy.link.Link 對象。

Link Extractors要實例化一次,并且 extract_links 方法會根據不同的 response 調用多次提取鏈接?

class scrapy.linkextractors.LinkExtractor(
    allow = (),
    deny = (),
    allow_domains = (),
    deny_domains = (),
    deny_extensions = None,
    restrict_xpaths = (),
    tags = ('a','area'),
    attrs = ('href'),
    canonicalize = True,
    unique = True,
    process_value = None
)

主要參數: 

  • allow:滿足括號中“正則表達式”的值會被提取,如果為空,則全部匹配。

  • deny:與這個正則表達式(或正則表達式列表)不匹配的URL一定不提取。

  • allow_domains:會被提取的鏈接的domains。

  • deny_domains:一定不會被提取鏈接的domains。

  • restrict_xpaths:使用xpath表達式,和allow共同作用過濾鏈接。

關于Link Extractors在python分布式爬蟲中的使用方法就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

红桥区| 柏乡县| 揭西县| 花莲县| 霍山县| 武宁县| 汤阴县| 宁国市| 阿鲁科尔沁旗| 吉安县| 阜城县| 体育| 芜湖县| 西丰县| 鹤山市| 高尔夫| 浦城县| 新平| 新疆| 湖北省| 平遥县| 白山市| 林周县| 高邑县| 通河县| 闻喜县| 漳浦县| 颍上县| 邢台市| 个旧市| 大埔区| 砚山县| 县级市| 桃江县| 龙口市| 秦皇岛市| 大理市| 洛宁县| 正定县| 丰顺县| 宁晋县|