您好,登錄后才能下訂單哦!
前幾天小編帶大家學會了如何在Scrapy框架下創建屬于自己的第一個爬蟲項目(上),今天我們進一步深入的了解Scrapy爬蟲項目創建,這里以伯樂在線網站的所有文章頁為例進行說明。
在我們創建好Scrapy爬蟲項目之后,會得到上圖中的提示,大意是讓我們直接根據模板進行創建Scrapy項目。根據提示,我們首先運行“cd article”命令,意思是打開或者進入到article文件夾下,爾后執行命令“scrapy genspider jobbole blog.jobbole.com”,代表通過Scrapy中自帶的basic模板進行創建Scrapy項目,如下圖所示。
根據提示,該模板創建的位置為article.spiders.jobbole,此時再次輸入tree /f命令可以查看到除了之前創建Scrapy爬蟲項目的基礎文件之外,在spiders文件夾下確實是多了一個jobbole.py文件,如下圖所示。
當然了,爬蟲模板不一定非得用Scrapy爬蟲項目自帶的模板,也可以自定義的進行創建,但是基本上Scrapy提供的模板是足夠使用的了。
接下來,將整個爬蟲項目導入到Pycharm中去,點擊左上方“file”à“open”,找到爬蟲項目創建的文件夾,點擊確認即可。
如果在Pycharm中的spiders文件夾下看不到jobbole.py這個文件的話,則先選中spiders文件夾,爾后右鍵,點擊“Synchronize spider”,代表與spiders文件夾進行同步的意思,爾后便可以看到jobbole.py就會被加載出來。
點擊jobbole.py文件進行查看內容,如下圖所示。可以看到該文件已經默認的填充了部分Python代碼,其實是從源模板中進行復制創建的。
可以看到該文件中有當前Scrapy爬蟲項目的名字name,Scrapy爬蟲項目所允許的域名范圍allowed_domains,以及Scrapy爬蟲項目的起始URL,即start_urls。
接下來最后檢查一下該項目的Python解釋器,點擊Pycharm的setting,然后輸入“interpreter”,找到解釋器所在的位置,如下圖所示。
如果“Project Interpreter”顯示出來的解釋器不是當前項目下的虛擬環境,則點擊“Project Interpreter”的右側的設置按鈕,如下圖所示。
然后點擊“Add local”,如下圖所示。
找到該項目對應的虛擬環境Python解釋器,進行添加即可,如下圖所示。
至此,Scrapy爬蟲虛擬環境創建、Scrapy爬蟲項目的創建以及Scrapy爬蟲項目導入到Pycharm中以及解釋器的配置已經完成,接下來我們要開始寫入爬蟲邏輯,以及數據提取等,敬請期待~~
對爬蟲感興趣的小伙伴,歡迎來Github:https://github.com/cassieeric,喜歡的話記得給個star噢~~
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。