您好,登錄后才能下訂單哦!
這篇文章主要介紹“scrapy框架的簡單介紹”,在日常操作中,相信很多人在scrapy框架的簡單介紹問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”scrapy框架的簡單介紹”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
Scrapy框架主要由五大組件組成,分別是調度器(Scheduler)、下載器(Downloader)、爬蟲(Spider)和實體管道(Item Pipeline)、Scrapy引擎(Scrapy Engine);
調度器:可以假設成一個URL的優先隊列,由它來決定下一個要抓取的網址是什么,同時去除重復的網址;
下載器:是所有組件中負擔最大的,用于高速地下載網絡上的資源;
爬蟲:是用戶最關心的部份,用戶定制自己的爬蟲,用于從特定的網頁中提取自己需要的信息,也可以從中提取出鏈接,讓Scrapy繼續抓取下一個頁面;
實體管道:用于處理爬蟲提取的實體,要的功能是持久化實體、驗證實體的有效性、清除不需要的信息;
Scrapy引擎:是整個框架的核心,用來控制調試器、下載器、爬蟲,實際上引擎相當于計算機的CPU,控制著整個流程;
第一步:首先要使用scrapy框架需要先安裝它,可以使用pip安裝scrapy框架,注意如果在Windows系統下直接使用pip命令行安裝可能會報錯,這時需要手動安裝幾個依賴庫如wheel、lxml、Twisted、pywin32等,報錯信息會提示你缺少哪個庫。
這里提一下Twisted插件的安裝,它的下載地址為:
https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
, 進入后找到twisted,選擇下載對應的版本,其中cp表示python版本,下載完成后進入終端,輸入pip install Twisted-19.2.0-cp37-cp37m-win_amd64.whl
,這里注意你下載的是哪個版本就輸入哪個版本的文件名,安裝完成后再輸入pip install scrapy
就能成功安裝scrapy框架了;
第二步:創建爬蟲項目,創建儲存 scrapy 文件夾scrapy_python,然后在命令行工具中cd進入這個項目路徑,用
scrapy startproject 名稱
命令新建項目;
這樣我們就成功的創建了一個scrapy項目,我們在PyCharm中看看
第三步:可以在剛剛創建的項目的spiders文件夾中創建一個蜘蛛文件,用于爬取網頁數據的,我們試著爬取一下csdn網站,那么新建蜘蛛的命令行是:scrapy genspider csdn www.csdn.net
,其中csdn是你創建的蜘蛛的文件名,而www.csdn.net
表示爬取的目標網址的域名,你想爬取哪個網站就使用哪個網站的域名。
第四步:如果要啟動我們創建的蜘蛛文件,我們可以使用命令行:scrapy crawl csdn
,這里的csdn
是蜘蛛文件中name的對應值;
第五步:想要測試爬去數據是否成功,我們可以在項目的模板中創建一個測試文件,如:start_spider.py,然后通過debug來進行項目調試,可以輸出我們想要爬取的網頁數據;
from scrapy.cmdline import execute execute(["scrapy", "crawl", "csdn",])
第六步:爬取數據時需要遵循爬蟲協議,它用來限定爬蟲程序可以爬取的內容范圍,位于scrapy 項目的 settings.py文件中默認
ROBOTSTXT_OBEY = True
,即遵守此協議,當我們想要爬取的內容不符合該協議但仍要爬取時,可以設置
ROBOTSTXT_OBEY = False
,表示不遵守此協議;
第七步:這樣我們就可以開始使用Xpath選擇器或者CSS選擇器來解析想要爬取的頁面數據了;
XPath的全稱是XML Path Language,即XML路徑語言,它是一種在結構化文檔中定位信息的語言,XPath使用路徑表達式來選取XML文檔中的節點或節點集。節點是通過沿著路徑 (path) 或者步 (steps) 來選取的;
謂語用來查找某個特定的節點或者包含某個指定的值的節點,謂語嵌在方括號中,比如//body//a[1]
表示選取屬于body 子元素的第一個 a 元素,//a[
@href
]
表示選取所有擁有名為 href 的屬性的 a 元素等;
除了索引、屬性外,Xpath還可以使用便捷的函數來增強定位的準確性,如contains(s1,s2)
表示如果s1中包含s2則返回true,反之返回false、text()
表示獲取節點中的文本內容、starts-with()
表示從起始位置匹配字符串;
使用XPath選取節點的常用語法有
表達式書寫方式 | 表達式意義 |
---|---|
* | 選擇HTML頁面中任意的節點 |
/ | 從根節點選取 |
// | 從匹配選擇的當前節點選擇文檔中的節點,而不考慮它們的位置 |
. | 選取當前節點 |
.. | 選取當前節點的父節點 |
/bookstore/book[1] | 選取屬于 bookstore 子元素的第一個 book 元素 |
/bookstore/book[last()] | 選取屬于 bookstore 子元素的最后一個 book 元素 |
/bookstore/book[last()-1] | 選取屬于 bookstore 子元素的倒數第二個 book 元素 |
//title[ @lang ] | 選取所有擁有名為 lang 的屬性的 title 元素 |
//title[ @lang =’eng’] | 選取所有 title 元素,且這些元素擁有值為 eng 的 lang 屬性 |
/bookstore/book[price>35.00] | 選取 bookstore 元素的所有 book 元素,且其中的 price 元素的值須大于 35.00 |
/bookstore/book[price>35.00]/title | 選取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值須大于 35.00 |
//* | 選取文檔中的所有元素 |
//title[@*] | 選取所有帶有屬性的 title 元素 |
//book/title , //book/price | 選取 book 元素的所有 title 和 price 元素 |
//title , //price | 選取文檔中的所有 title 和 price 元素 |
child::book | 選取所有屬于當前節點的子元素的 book 節點 |
child::text() | 選取當前節點的所有文本子節點 |
/bookstore/book/title | 選取所有 title 節點 |
/bookstore/book/price/text() | 選取 price 節點中的所有文本 |
//* | 任意元素 |
我們來通過XPath選擇器爬取網站中我們想要爬取的信息,如下圖我們來爬去今日推薦中的標題
import scrapy class CsdnSpider(scrapy.Spider): name = 'csdn' allowed_domains = ['www.csdn.net'] start_urls = ['http://www.csdn.net/'] def parse(self, response): # 選擇所有class="company_name"的h4元素下的a元素的文本 result = response.xpath('//h4[@class="company_name"]/a/text()').extract() # 將得到的文本列表循環 for i in result: print(i)
我們來看一下輸出打印,看看是不是我們想要的結果
到此,關于“scrapy框架的簡單介紹”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。