怎么用Python爬取網頁的數據

發布時間：2021-09-09 10:42:50 來源：億速云閱讀：352 作者：chen 欄目：大數據

這篇文章主要介紹“怎么用Python爬取網頁的數據”，在日常操作中，相信很多人在怎么用Python爬取網頁的數據問題上存在疑惑，小編查閱了各式資料，整理出簡單好用的操作方法，希望對大家解答”怎么用Python爬取網頁的數據”的疑惑有所幫助！接下來，請跟著小編一起來學習吧！

準備

IDE：PyCharm
庫：requests、lxml

注：
requests：獲取網頁源代碼
lxml：得到網頁源代碼中的指定數據

搭建環境

這里的搭建環境，可不是搭建python的開發環境，這里的搭建環境是指，我們使用pycharm新建一個python項目，然后弄好requests和lxml
新建一個項目：

怎么用Python爬取網頁的數據

依賴庫導入

由于我們使用的是pycharm，所以我們導入這兩個庫就會顯的格外簡單

import requests

這個時候，requests會報紅線，這時候，我們將光標對準requests，按快捷鍵：alt + enter，pycharm會給出解決之道，這時候，選擇install package requests，pycharm就會自動為我們安裝了，我們只需要稍等片刻，這個庫就安裝好了。lxml的安裝方式同理.

怎么用Python爬取網頁的數據

獲取網頁源代碼

之前我就說過，requests可以很方便的讓我們得到網頁的源代碼
網頁就拿我的博客地址舉例好了：https://coder-lida.github.io/

獲取源碼：

# 獲取源碼
html = requests.get("https://coder-lida.github.io/")
# 打印源碼
print html.text

代碼就是這么簡單，這個html.text便是這個URL的源碼

完整代碼：

import  requests
import lxml

html = requests.get("https://coder-lida.github.io/")
print (html.text)

打印：

怎么用Python爬取網頁的數據

獲取指定數據

現在我們已經得到網頁源碼了，這時就需要用到lxml來來篩選出我們所需要的信息
這里我就以得到我博客列表為例,可以找到原網頁通過F12查看XPath,如圖

怎么用Python爬取網頁的數據

通過XPath的語法獲得網頁的內容。

查看第一篇文章標題

//*[@id="layout-cart"]/div[1]/a/@title

// 定位根節點
/ 往下層尋找
提取文本內容：/text()
提取屬性內容：/@xxxx

import  requests
from lxml import etree

html = requests.get("https://coder-lida.github.io/")
#print (html.text)
etree_html = etree.HTML(html.text)
content = etree_html.xpath('//*[@id="layout-cart"]/div[1]/a/@title')
print(content)

查看所有文章標題

//*[@id="layout-cart"]/div/a/@title

代碼：

import  requests
from lxml import etree

html = requests.get("https://coder-lida.github.io/")
#print (html.text)
etree_html = etree.HTML(html.text)
content = etree_html.xpath('//*[@id="layout-cart"]/div/a/@title')
print(content)

輸出：

[' springboot逆向工程 ', ' 自己實現一個簡單版的HashMap ', ' 開發中常用的 25 個JavaScript 單行代碼 ', ' shiro 加密登錄 密碼加鹽處理 ', ' Spring Boot構建RESTful API與單元測試  ', ' 記一次jsoup的使用 ']

怎么用Python爬取網頁的數據

到此，關于“怎么用Python爬取網頁的數據”的學習就結束了，希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習，快去試試吧！若想繼續學習更多相關知識，請繼續關注億速云網站，小編會繼續努力為大家帶來更多實用的文章！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

怎么用Python爬取網頁的數據

準備

搭建環境

依賴庫導入

獲取網頁源代碼

獲取指定數據

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

怎么用Python爬取網頁的數據

準備

搭建環境

依賴庫導入

獲取網頁源代碼

獲取指定數據

猜你喜歡

最新資訊

相關推薦

相關標簽