如何運用爬蟲框架Scrapy部署爬蟲

發布時間：2021-11-19 16:51:32 來源：億速云閱讀：175 作者：柒染欄目：大數據

這篇文章將為大家詳細講解有關如何運用爬蟲框架Scrapy部署爬蟲，文章內容質量較高，因此小編分享給大家做個參考，希望大家閱讀完這篇文章后對相關知識有一定的了解。

這里主要講述如何將我們編寫的爬蟲程序部署到生產環境中。我們使用由 scrapy 官方提供的爬蟲管理工具 scrapyd 來部署爬蟲程序。

1 為什么使用 scrapyd?

一是它由 scrapy 官方提供的，二是我們使用它可以非常方便地運用 JSON API來部署爬蟲、控制爬蟲以及查看運行日志。

2 使用 scrapyd

2.1 原理

選擇一臺主機當做服務器，安裝并啟動 scrapyd 服務。再這之后，scrapyd 會以守護進程的方式存在系統中，監聽爬蟲地運行與請求，然后啟動進程來執行爬蟲程序。

2.2 安裝 scrapyd

使用 pip 能比較方便地安裝 scrapyd。

如何運用爬蟲框架Scrapy部署爬蟲

2.3 啟動 scrapyd

在終端命令行下以下命令來啟動服務：

如何運用爬蟲框架Scrapy部署爬蟲

啟動服務結果如下：

如何運用爬蟲框架Scrapy部署爬蟲

scrapyd 也提供了 web 的接口。方便我們查看和管理爬蟲程序。默認情況下 scrapyd 監聽 6800 端口，運行 scrapyd 后。在本機上使用瀏覽器訪問 http://localhost:6800/地址即可查看到當前可以運行的項目。

如何運用爬蟲框架Scrapy部署爬蟲

3 項目部署

直接使用 scrapyd-client 提供的 scrapyd-deploy 工具

3.1 原理

scrapyd 是運行在服務器端，而 scrapyd-client 是運行在客戶端。客戶端使用 scrapyd-client 通過調用 scrapyd 的 json 接口來部署爬蟲項目。

3.2 安裝 scrapyd-client

在終端下運行以下安裝命令：

如何運用爬蟲框架Scrapy部署爬蟲

3.3 配置項目的服務器信息

修改工程目錄下的 scrapy.cfg 文件。

如何運用爬蟲框架Scrapy部署爬蟲

如果你服務器有配置 HTTP basic authentication 驗證，那么需要在 scrapy.cfg 文件增加用戶名和密碼。這是用于登錄服務器用的。

如何運用爬蟲框架Scrapy部署爬蟲

3.4 部署爬蟲程序

在爬蟲項目根目錄下執行下面的命令:

如何運用爬蟲框架Scrapy部署爬蟲

其中 target 為上一步配置的服務器名稱，project 為項目名稱，可以根據實際情況自己指定。

我指定 target 為 server，project 為 demo，所以我要執行的命令如下：

如何運用爬蟲框架Scrapy部署爬蟲

部署操作會打包你的當前項目，如果當前項目下有setup.py文件，就會使用它，沒有的會就會自動創建一個。(如果后期項目需要打包的話，可以根據自己的需要修改里面的信息，也可以暫時不管它). 從返回的結果里面，我們可以看到部署的狀態，項目名稱，版本號和爬蟲個數，以及當前的主機名稱.

運行結果如下：

如何運用爬蟲框架Scrapy部署爬蟲

使用以下命令檢查部署爬蟲結果：

如何運用爬蟲框架Scrapy部署爬蟲

我指定服務器名稱為 server，所以要執行命令如下：

如何運用爬蟲框架Scrapy部署爬蟲

刷新 http://localhost:6800/ 頁面, 也可以看到Available projects: demo的字樣。

4 使用 API 管理爬蟲

scrapyd 的 web 界面比較簡單，主要用于監控，所有的調度工作全部依靠接口實現。官方推薦使用 curl 來管理爬蟲。
所以要先安裝 curl。

windows 用戶可以到該網站https://curl.haxx.se/download.html下載 curl 安裝包進行安裝。
ubuntu/Mac 用戶直接使用命令行安裝即可。

開啟爬蟲 schedule

在爬蟲項目的根目錄下，使用終端運行以下命令：

如何運用爬蟲框架Scrapy部署爬蟲

成功啟動爬蟲結果如下：

如何運用爬蟲框架Scrapy部署爬蟲

取消爬蟲

如何運用爬蟲框架Scrapy部署爬蟲

列出項目

如何運用爬蟲框架Scrapy部署爬蟲

列出爬蟲、版本、job 信息

如何運用爬蟲框架Scrapy部署爬蟲

刪除爬蟲項目

如何運用爬蟲框架Scrapy部署爬蟲

關于如何運用爬蟲框架Scrapy部署爬蟲就分享到這里了，希望以上內容可以對大家有一定的幫助，可以學到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

如何運用爬蟲框架Scrapy部署爬蟲

1 為什么使用 scrapyd?

2 使用 scrapyd

2.1 原理

2.2 安裝 scrapyd

2.3 啟動 scrapyd

3 項目部署

3.1 原理

3.2 安裝 scrapyd-client

3.3 配置項目的服務器信息

3.4 部署爬蟲程序

4 使用 API 管理爬蟲

開啟爬蟲 schedule

取消爬蟲

列出項目

列出爬蟲、版本、job 信息

刪除爬蟲項目

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

如何運用爬蟲框架Scrapy部署爬蟲

1 為什么使用 scrapyd?

2 使用 scrapyd

2.1 原理

2.2 安裝 scrapyd

2.3 啟動 scrapyd

3 項目部署

3.1 原理

3.2 安裝 scrapyd-client

3.3 配置項目的服務器信息

3.4 部署爬蟲程序

4 使用 API 管理爬蟲

開啟爬蟲 schedule

取消爬蟲

列出項目

列出爬蟲、版本、job 信息

刪除爬蟲項目

猜你喜歡

最新資訊

相關推薦

相關標簽