91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么改造Scrapy從而實現多網站大規模爬取

發布時間:2021-10-26 13:47:36 來源:億速云 閱讀:173 作者:iii 欄目:開發技術

本篇內容主要講解“怎么改造Scrapy從而實現多網站大規模爬取”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“怎么改造Scrapy從而實現多網站大規模爬取”吧!

修改調度隊列

Scrapy  默認的調度隊列是scrapy.pqueues.ScrapyPriorityQueue,它適合做定向爬蟲使用,對于通用爬蟲,我們應該修改為scrapy.pqueues.DownloaderAwarePriorityQueue。在  settings.py文件中添加一行:

SCHEDULER_PRIORITY_QUEUE = 'scrapy.pqueues.DownloaderAwarePriorityQueue'

提高并發量在

settings.py中增加配置:

CONCURRENT_REQUESTS = 100 CONCURRENT_REQUESTS_PER_DOMAIN = 100

但是并發量實際上受內存和 CPU 的限制,建議實際測試,選擇最適合的數字。

提高 Twisted IO 線程池大小

Scrapy 在做 DNS 解析的時候,是阻塞式的。所以請求量越高,解析 DNS  就會越慢。為了避免這個情況,可以提高線程池的大小。在 settings.py中增加一個配置:

REACTOR_THREADPOOL_MAXSIZE = 20

搭建專用 DNS 服務器

如果爬蟲進程數太多,并發又太快,可能會對 DNS 服務器形成 Dos 攻擊。所以建議自己單獨搭建一個 DNS 服務器。

減少日志量

Scrapy 默認是 DEBUG 級別的日志等級,每次爬取會產生大量的日志。通過把日志等級調整到INFO 可以大大減少日志量。在  settings.py 中增加一行:

LOG_LEVEL = 'INFO'

禁用 Cookies 和自動重試

大規模爬蟲一般不需要用到  Cookies,所以可以把它禁用。請求失敗的自動重試會降低爬蟲的速度。但是由于大規模爬蟲的爬取范圍很大,對于個別失敗的請求沒有必要重試。因此修改settings.py:

COOKIES_ENABLED = False RETRY_ENABLED = False

降低請求超時時間,禁用自動跳轉

有些網址因為遠在大洋彼岸或者受到了干擾,請求響應時間很長。對于這種網址,應該果斷放棄,避免影響其他網址的爬取。

禁用自動跳轉功能,也有助于提高網頁訪問速度。

DOWNLOAD_TIMEOUT = 10 REDIRECT_ENABLED = False

使用廣度有限搜索

Scrapy 默認基于深度優先(DFO)搜索算法。但在大規模爬蟲中,我們一般會使用廣度有限(BFO)搜索算法:

DEPTH_PRIORITY = 1 SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue' SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue'

關注內存,謹防內存泄露如果你發現爬蟲占用大量內存,但是速度遠遠低于你設置的并發速度,那么要考慮是否發生了內存泄露。

到此,相信大家對“怎么改造Scrapy從而實現多網站大規模爬取”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

都昌县| 太康县| 唐河县| 深水埗区| 林西县| 桂东县| 尤溪县| 宜川县| 积石山| 濉溪县| 缙云县| 南雄市| 新乡县| 三穗县| 诏安县| 正阳县| 新建县| 佛坪县| 柳州市| 依兰县| 阳曲县| 麻江县| 咸阳市| 赞皇县| 福贡县| 新营市| 万安县| 丹东市| 兖州市| 喀什市| 边坝县| 南部县| 定南县| 瑞丽市| 如东县| 普洱| 都兰县| 周宁县| 蒲江县| 宝山区| 万全县|