python3 scrapy框架的執行流程是什么

發布時間：2021-07-08 18:10:31 來源：億速云閱讀：159 作者：chen 欄目：開發技術

這篇文章主要講解了“python3 scrapy框架的執行流程是什么”，文中的講解內容簡單清晰，易于學習與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學習“python3 scrapy框架的執行流程是什么”吧！

scrapy框架概述：Scrapy，Python開發的一個快速,高層次的屏幕抓取和web抓取框架，用于抓取web站點并從頁面中提取結構化的數據。Scrapy用途廣泛，可以用于數據挖掘、監測和自動化測試。

創建項目

由于pycharm不能直接創建scrapy項目，必須通過命令行創建，所以相關操作在pycharm的終端進行：
1、安裝scrapy模塊：
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy
2、創建一個scrapy項目：scrapy startproject test_scrapy
4、生成一個爬蟲：scrapy genspider itcast "itcast.cn”
5、提取數據：完善spider，使用xpath等方法
6、保存數據：pipeline中保存數據

常用的命令

創建項目：scrapy startproject xxx
進入項目：cd xxx #進入某個文件夾下
創建爬蟲：scrapy genspider xxx（爬蟲名） xxx.com （爬取域）
生成文件：scrapy crawl xxx -o xxx.json (生成某種類型的文件)
運行爬蟲：scrapy crawl XXX
列出所有爬蟲：scrapy list
獲得配置信息：scrapy settings [options]

Scrapy項目下文件

scrapy.cfg: 項目的配置文件
test_scrapy/: 該項目的python模塊。在此放入代碼（核心）
test_scrapy/items.py: 項目中的item文件.（這是創建容器的地方，爬取的信息分別放到不同容器里）
test_scrapy/pipelines.py: 項目中的pipelines文件.
test_scrapy/settings.py: 項目的設置文件.（我用到的設置一下基礎參數，比如加個文件頭，設置一個編碼）
test_scrapy/spiders/: 放置spider代碼的目錄. （放爬蟲的地方）

python3 scrapy框架的執行流程是什么

scrapy框架的整體執行流程

1.spider的yeild將request發送給engine
2.engine對request不做任何處理發送給scheduler
3.scheduler，生成request交給engine
4.engine拿到request，通過middleware發送給downloader
5.downloader在\獲取到response之后，又經過middleware發送給engine
6.engine獲取到response之后，返回給spider，spider的parse()方法對獲取到的response進行處理，解析出items或者requests
7.將解析出來的items或者requests發送給engine
8.engine獲取到items或者requests，將items發送給ItemPipeline，將requests發送給scheduler（ps，只有調度器中不存在request時，程序才停止，及時請求失敗scrapy也會重新進行請求）

關于yeild函數介紹

簡單地講，yield 的作用就是把一個函數變成一個 generator（生成器），帶有 yield 的函數不再是一個普通函數，Python 解釋器會將其視為一個 generator，帶有yeild的函數遇到yeild的時候就返回一個迭代值，下次迭代時，代碼從 yield 的下一條語句繼續執行，而函數的本地變量看起來和上次中斷執行前是完全一樣的，于是函數繼續執行，直到再次遇到 yield。

通俗的講就是：在一個函數中，程序執行到yield語句的時候，程序暫停，返回yield后面表達式的值，在下一次調用的時候，從yield語句暫停的地方繼續執行，如此循環，直到函數執行完。

感謝各位的閱讀，以上就是“python3 scrapy框架的執行流程是什么”的內容了，經過本文的學習后，相信大家對python3 scrapy框架的執行流程是什么這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是億速云，小編將為大家推送更多相關知識點的文章，歡迎關注！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

python3 scrapy框架的執行流程是什么

創建項目

常用的命令

Scrapy項目下文件

scrapy框架的整體執行流程

關于yeild函數介紹

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

python3 scrapy框架的執行流程是什么

創建項目

常用的命令

Scrapy項目下文件

scrapy框架的整體執行流程

關于yeild函數介紹

猜你喜歡

最新資訊

相關推薦

相關標簽