python的scrapy?requests與response對象怎么用

發布時間：2022-05-16 13:53:34 來源：億速云閱讀：204 作者：iii 欄目：開發技術

這篇文章主要介紹了python的scrapy requests與response對象怎么用的相關知識，內容詳細易懂，操作簡單快捷，具有一定借鑒價值，相信大家閱讀完這篇python的scrapy requests與response對象怎么用文章都會有所收獲，下面我們一起來看看吧。

Request 對象

在 scrapy 中 Request 對象代表著請求，即向服務器發送數據，該對象的構造函數原型如下所示：

def __init__(self, url, callback=None, method='GET', headers=None, body=None,
                 cookies=None, meta=None, encoding='utf-8', priority=0,
                 dont_filter=False, errback=None, flags=None, cb_kwargs=None)

其中只有 url為必填參數，具體說明如下：

callback：頁面解析函數，當 Request 請求獲取到 Response 響應之后，設定的函數會被調用，默認是 self.parse 方法；
method：請求類型，默認為 GET，所以使用 Request 是可以發送 POST 的請求的，FormRequest 類是 Request 類的子類；
headers：請求頭，字典類型；
body：請求的正文，需要 bytes 類型或 str 類型；
cookies：Cookie 字典，dict 類型；
meta：元數據字典，dict 類型，可以給其它組件傳遞信息；
encoding：url和body參數的編碼，注意不是數據響應編碼；
priority：請求的優先級，默認為0，數值越大，優先級越高；
dont_filter：默認值為 False，該參數表示是否重復請求相同地址；
errback：請求異常時的回調函數。

Response 對象

在 scrapy中，Response對象表示請求響應對象，即服務器返回給爬蟲的數據，其構造函數原型如下：

def __init__(self,url,status=200,headers=None,body=b"",
    flags=None, request=None,certificate=None,ip_address=None,protocol=None,
)

與 Request 一致，該方法中僅 url 為必填參數，不過一般很少用到手動創建一個 Response 對象實例的場景。

Response 類衍生出來一個子類 TextResponse，然后 TextResponse又衍生出來 HtmlResponse和 XmlResponse。

Response 包括的屬性和方法如下：

屬性清單：

url：響應地址；
status：響應狀態碼；
headers：響應頭；
encoding：響應正文的編碼；
body：響應正文，bytes 類型；
text：文本形式的響應正文，將 body 進行編碼之后的數據；
request：獲取請求對象；
meta：元數據字典，dict 類型，請求傳遞過來的參數；
selector：選擇器對象。

方法清單：

xpath()：XPath 選擇器；
css()：CSS 選擇器；
urljoin()：就是 urllib.parse 模塊的 urljoin()；
json()：將響應數據序列化為 JSON 格式；

關于 Request 和 Response 類的相關源碼，可以在 scrapy\http 目錄查看。

ItemPipeline

數據管道在 scrapy 中主要對數據進行處理，在實際開發過程中需要注意一個 ItemPipeline，只負責一種功能的數據處理，當然在 scrapy 中你可以創建多個 ItemPipeline。

ItemPipeline的使用場景：

數據清洗，例如去重，去除異常數據；
數據保存方式編寫，例如存儲 Mongodb，MySQL，Redis 數據庫。

在編寫ItemPipeline類的時候，不需要其繼承特定類，只需要實現固定名稱的方法即可，在之前的博客中已經反復提及，自定義ItemPipeline類需要實現 process_item()、open_spider()，close_spider()方法，其中 process_item()必須實現。

process_item()返回值是 Item 或者字典，也可以返回一個 DropItem類型的數據，此時該項 item 會被忽略，不會被后面的 ItemPipeline處理。

過濾數據的邏輯實現

如果希望在 ItemPipeline實現過濾數據，使用集合即可，發現集合中已經存在數據了，拋出 DropItem即可。

LinkExtractor 提取鏈接

scrapy 編寫的爬蟲在提取大量鏈接時，使用LinkExtractor會更加便捷。使用 from scrapy.linkextractors import LinkExtractor導入 LinkExtractor，該類的構造函數如下所示：

def __init__(self, allow=(), deny=(),allow_domains=(),deny_domains=(),restrict_xpaths=(),
        tags=('a', 'area'),attrs=('href',),canonicalize=False,unique=True,process_value=None,
        deny_extensions=None,restrict_css=(),strip=True,restrict_text=None,
    )

其中各個參數說明如下：

allow：一個正則表達式或正則表達式列表，提取正則表達式匹配的 url，默認全部提取；
deny：與 allow 相反；
allow_domains：字符串或者列表，domain 限制；
deny_domains：與上面相反；
restrict_xpaths：按照 xpath 提取；
restrict_css：安裝 css 選擇器提取；
tags：提取指定標簽內的鏈接；
attrs：提取指定屬性內的鏈接；
process_value：函數類型，傳入該參數之后，LinkExtractor 會將其匹配到的所有鏈接，都傳入該函數進行處理。

下面的代碼是提取 Response 對象中的鏈接，需要使用 extract_links() 方法。

def parse(self, response):
    link = LinkExtractor()
    all_links = link.extract_links(response)
    print(all_links)

創建一個LinkExtractor對象；
使用構造器參數描述提取規則；
調用LinkExtractor對象的 extract_links 方法傳入一個Response對象，返回一個列表；
使用列表中的任意元素調用 .url 或者 .text 獲取鏈接和鏈接文本。

爬蟲編碼時間

本次的目標站點是：淘數據-行業報告

python的scrapy?requests與response對象怎么用

完整代碼編寫如下所示，使用 LinkExtractor 提取頁面超鏈接。

import scrapy
from tao.items import TaoItem
from scrapy.linkextractors import LinkExtractor
class TaoDataSpider(scrapy.Spider):
    name = 'tao_data'
    allowed_domains = ['taosj.com']
    start_urls = [f'https://www.taosj.com/articles?pageNo={page}' for page in range(1, 124)]
    def parse(self, response):
        link_extractor = LinkExtractor(allow=r'www\.taosj\.com/articles/\d+', restrict_css='a.report-page-list-title')
        links = link_extractor.extract_links(response)
        for l in links:
            item = {
                "url": l.url,
                "text": l.text
            }
            yield item

關于“python的scrapy requests與response對象怎么用”這篇文章的內容就介紹到這里，感謝各位的閱讀！相信大家對“python的scrapy requests與response對象怎么用”知識都有一定的了解，大家如果還想學習更多知識，歡迎關注億速云行業資訊頻道。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

python的scrapy?requests與response對象怎么用

Request 對象

Response 對象

ItemPipeline

LinkExtractor 提取鏈接

爬蟲編碼時間

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

python的scrapy?requests與response對象怎么用

Request 對象

Response 對象

ItemPipeline

LinkExtractor 提取鏈接

爬蟲編碼時間

猜你喜歡

最新資訊

相關推薦

相關標簽