您好,登錄后才能下訂單哦!
爬蟲可以簡單分為幾步:抓取頁面、分析頁面、存儲數據。
在第一步抓取頁面的過程中,我們就需要模擬瀏覽器向服務器發出請求,所以需要用到一些 Python 庫來實現 HTTP 請求操作,在本書中我們用到的第三方庫有 Requests、Selenium、Aiotttp 等。
在本節我們介紹一下這些請求庫的安裝方法。
由于 Requests 屬于第三方庫,也就是 Python 默認不會自帶這個庫,需要我們手動去安裝,下面我們首先看一下它的安裝過程。
pip3?install?requests
為了驗證庫是否已經安裝成功,可以在命令行下測試一下:
$ python3
>>> import requests
Python資源分享qun 784758214 ,內有安裝包,PDF,學習視頻,這里是Python學習者的聚集地,零基礎,進階,都歡迎
在命令行首先輸入 python3,進入命令行模式,然后輸入如上內容,如果什么錯誤提示也沒有,那么就證明我們已經成功安裝了 Requests。
Selenium 是一個自動化測試工具,利用它我們可以驅動瀏覽器執行特定的動作,如點擊、下拉等等操作,對于一些 JavaScript 渲染的頁面來說,此種抓取方式非常有效,下面我們來看下 Selenium 的安裝過程。
pip3?install?selenium
進入 Python 命令行交互模式,導入一下 Selenium 包,如果沒有報錯,則證明安裝成功。
$ python3
>>> import selenium
但這樣還不夠,我們還需要瀏覽器如 Chrome、Firefox 等瀏覽器來配合 Selenium 工作。
下面我們會介紹 Chrome、Firefox、PhantomJS 三種瀏覽器的配置方式,有了瀏覽器我們才可以配合 Selenium 進行頁面的抓取。
在上節我們成功安裝好了 Selenium 庫,但是它是一個自動化測試工具,需要瀏覽器來配合它使用,那么本節我們就介紹一下 Chrome 瀏覽器及 ChromeDriver 驅動的配置。
首先需要下載一個 Chrome 瀏覽器,方法多樣,在此不再贅述。
隨后我們需要安裝一個 ChromeDriver 才能驅動 Chrome 瀏覽器完成相應的操作,下面我們來介紹下怎樣安裝 ChromeDriver。
brew?install?chromedriver
如果安裝失敗,使用下面方法
brew cask?install?chromedriver
配置完成之后,就可以在命令行下直接執行 chromedriver 命令了。
命令行下輸入:
chromedriver
輸入控制臺有類似輸出,如圖 1-17 所示:
圖 1-17 控制臺輸出
如果有類似輸出則證明 ChromeDriver 的環境變量配置好了。
隨后再在程序中測試,執行如下 Python 代碼:
from selenium import webdriver
browser = webdriver.Chrome()
Python資源分享qun 784758214 ,內有安裝包,PDF,學習視頻,這里是Python學習者的聚集地,零基礎,進階,都歡迎
運行之后會彈出一個空白的 Chrome 瀏覽器,證明所有的配置都沒有問題,如果沒有彈出,請檢查之前的每一步的配置。
如果彈出之后閃退,則可能是 ChromeDriver 版本和 Chrome 版本不簡容,請更換 ChromeDriver 版本。
如果沒有問題,接下來我們就可以利用 Chrome 來做網頁抓取了。
既然 Chrome 可以通過 Selenium 驅動,Firefox 也可以,如果想要實現 Selenium 驅動 Firefox 瀏覽器可以參考下面的 GeckoDriver 的安裝。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。