91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么用Python爬取網頁的數據

發布時間:2021-09-09 10:42:50 來源:億速云 閱讀:352 作者:chen 欄目:大數據

這篇文章主要介紹“怎么用Python爬取網頁的數據”,在日常操作中,相信很多人在怎么用Python爬取網頁的數據問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”怎么用Python爬取網頁的數據”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!


 

準備

IDE:PyCharm
庫:requests、lxml

注:
requests:獲取網頁源代碼
lxml:得到網頁源代碼中的指定數據

 

搭建環境

這里的搭建環境,可不是搭建python的開發環境,這里的搭建環境是指,我們使用pycharm新建一個python項目,然后弄好requests和lxml
新建一個項目:

怎么用Python爬取網頁的數據

 
依賴庫導入

由于我們使用的是pycharm,所以我們導入這兩個庫就會顯的格外簡單

import requests
 

這個時候,requests會報紅線,這時候,我們將光標對準requests,按快捷鍵:alt + enter,pycharm會給出解決之道,這時候,選擇install package requests,pycharm就會自動為我們安裝了,我們只需要稍等片刻,這個庫就安裝好了。lxml的安裝方式同理.

怎么用Python爬取網頁的數據

 

獲取網頁源代碼

之前我就說過,requests可以很方便的讓我們得到網頁的源代碼
網頁就拿我的博客地址舉例好了:https://coder-lida.github.io/

獲取源碼:

# 獲取源碼
html = requests.get("https://coder-lida.github.io/")
# 打印源碼
print html.text
 

代碼就是這么簡單,這個html.text便是這個URL的源碼

完整代碼:

import  requests
import lxml

html = requests.get("https://coder-lida.github.io/")
print (html.text)
 


打印:

怎么用Python爬取網頁的數據

 
獲取指定數據

現在我們已經得到網頁源碼了,這時就需要用到lxml來來篩選出我們所需要的信息
這里我就以得到我博客列表為例,可以找到原網頁通過F12查看XPath,如圖

怎么用Python爬取網頁的數據

通過XPath的語法獲得網頁的內容。

查看第一篇文章標題

//*[@id="layout-cart"]/div[1]/a/@title
 

// 定位根節點
/ 往下層尋找
提取文本內容:/text()
提取屬性內容:/@xxxx

import  requests
from lxml import etree

html = requests.get("https://coder-lida.github.io/")
#print (html.text)
etree_html = etree.HTML(html.text)
content = etree_html.xpath('//*[@id="layout-cart"]/div[1]/a/@title')
print(content)
 

查看所有文章標題

//*[@id="layout-cart"]/div/a/@title
 

代碼:

import  requests
from lxml import etree

html = requests.get("https://coder-lida.github.io/")
#print (html.text)
etree_html = etree.HTML(html.text)
content = etree_html.xpath('//*[@id="layout-cart"]/div/a/@title')
print(content)
 

輸出:

[' springboot逆向工程 ', ' 自己實現一個簡單版的HashMap ', ' 開發中常用的 25 個JavaScript 單行代碼 ', ' shiro 加密登錄 密碼加鹽處理 ', ' Spring Boot構建RESTful API與單元測試  ', ' 記一次jsoup的使用 ']

怎么用Python爬取網頁的數據

到此,關于“怎么用Python爬取網頁的數據”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

正镶白旗| 永修县| 桦川县| 文水县| 淅川县| 乐安县| 永仁县| 婺源县| 饶河县| 高台县| 资溪县| 广汉市| 淮北市| 儋州市| 南涧| 寿宁县| 隆回县| 丽江市| 子长县| 清水县| 平利县| 潼关县| 东兴市| 黄冈市| 鱼台县| 鄯善县| 黑水县| 新竹县| 玛纳斯县| 甘德县| 邛崃市| 九台市| 津南区| 桂平市| 大宁县| 璧山县| 定襄县| 忻城县| 文化| 渑池县| 城口县|