91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么用scrapy過濾python爬蟲中的多余內容

發布時間:2020-11-24 09:41:28 來源:億速云 閱讀:458 作者:小新 欄目:編程語言

小編給大家分享一下怎么用scrapy過濾python爬蟲中的多余內容,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!

在分析之前,先看一下scrapy的去重策略:

scrapy通過request_fingerprint函數,對Request對象生成指紋,看注釋:

# 該函數在scrapy/utils/request.py文件中
def request_fingerprint(request, include_headers=None):
    if include_headers:
        include_headers = tuple(to_bytes(h.lower())
                                 for h in sorted(include_headers))
    cache = _fingerprint_cache.setdefault(request, {})
    if include_headers not in cache:
        fp = hashlib.sha1()
        """計算指紋時,請求方法(如GET、POST)被計算在內"""
        fp.update(to_bytes(request.method))
 
        """下面這句有意思,canonicalize_url()將url規范化,意味著
          http://www.example.com/query?id=111&cat=222
          http://www.example.com/query?cat=222&id=111
        這樣參數位置變化,但參數值不變的網址,表示的仍是同一個網址,符合現實邏輯。
         """
        fp.update(to_bytes(canonicalize_url(request.url)))
 
        """request.body的屬性是字符串:
        一般GET方法的body為空字符串,不考慮;
        而POST方法要上傳一個字典data(類型是dict),
        要經過urllib.parse.urlencode()函數轉換后才能變成request.body
       """
        fp.update(request.body or b'')
        if include_headers:
            for hdr in include_headers:
                if hdr in request.headers:
                    fp.update(hdr)
                    for v in request.headers.getlist(hdr):
                        fp.update(v)
        cache[include_headers] = fp.hexdigest()
    return cache[include_headers]
"""我們甚至可以根據需求將request.meta的內容作為指紋計算的一部分"""

scrapy生成的唯一指紋,存在內存的一個集合里,即set。如果下一次請求產生的指紋在這個set里面,請求被判定為重復,這次請求就被忽略,也就是所謂的去重了。從上面可以可出,scrapy認為,如果url/POST data/method都一致,這個請求就是重復的,這適合絕大多數情況。

需要提一下:上述的處理方式,意味著想要變更request的指紋就要改變request,即是在downloaderMiddleware的process_request方法中變更。

看完了這篇文章,相信你對怎么用scrapy過濾python爬蟲中的多余內容有了一定的了解,想了解更多相關知識,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

柳林县| 衡南县| 嫩江县| 潮州市| 汨罗市| 嘉义县| 安阳县| 沾益县| 阿拉善右旗| 渝北区| 凤山市| 三都| 丹东市| 梧州市| 平谷区| 绥化市| 大丰市| 诸暨市| 清徐县| 静乐县| 九台市| 花莲市| 泸州市| 古田县| 锡林浩特市| 友谊县| 额济纳旗| 台中县| 上高县| 固镇县| 景泰县| 会理县| 东港市| 五指山市| 泰来县| 金川县| 体育| 泰宁县| 通许县| 隆安县| 门头沟区|