91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python爬蟲實例之Duplication Filter怎樣進行篩重

發布時間:2020-11-30 09:41:04 來源:億速云 閱讀:268 作者:小新 欄目:編程語言

這篇文章給大家分享的是有關python爬蟲實例之Duplication Filter怎樣進行篩重的內容。小編覺得挺實用的,因此分享給大家做個參考。一起跟隨小編過來看看吧。

Duplication Filter

Scrapy中用集合實現這個request去重功能,Scrapy中把已經發送的request指紋放入到一個集合中,把下一個request的指紋拿到集合中比對,如果該指紋存在于集合中,說明這個request發送過了,如果沒有則繼續操作。這個核心的判重功能是這樣實現的:

def request_seen(self, request):
        # self.request_figerprints就是一個指紋集合  
        fp = self.request_fingerprint(request)
 
        # 這就是判重的核心操作  
        if fp in self.fingerprints:
            return True
        self.fingerprints.add(fp)
        if self.file:
            self.file.write(fp + os.linesep)

在scrapy-redis中去重是由Duplication Filter組件來實現的,它通過redis的set 不重復的特性,巧妙的實現了Duplication Filter去重。scrapy-redis調度器從引擎接受request,將request的指紋存?redis的set檢查是否重復,并將不重復的request push寫?redis的 request queue。

引擎請求request(Spider發出的)時,調度器從redis的request queue隊列?里根據優先級pop 出?個request 返回給引擎,引擎將此request發給spider處理。

有了Duplication Filter組件,對于爬蟲找回的數據就可以提供有效的爬取意見,也不用擔心爬蟲會因為重復的數據而耽誤獲取的時間和進度了。

感謝各位的閱讀!關于python爬蟲實例之Duplication Filter怎樣進行篩重就分享到這里了,希望以上內容可以對大家有一定的幫助,讓大家可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

搜索| 鄂州市| 英山县| 胶州市| 安福县| 搜索| 贵州省| 万载县| 隆林| 灵山县| 邮箱| 恩平市| 深水埗区| 潢川县| 大竹县| 故城县| 枣阳市| 蒙山县| 南乐县| 江口县| 大荔县| 尼勒克县| 饶阳县| 阆中市| 洪江市| 甘孜县| 云龙县| 罗平县| 桂平市| 建昌县| 科技| 措勤县| 衢州市| 通辽市| 乌什县| 大足县| 台州市| 安宁市| 松原市| 临高县| 安乡县|