python爬蟲urllib庫中parse模塊urlparse的使用方法

發布時間：2021-04-28 13:58:16 來源：億速云閱讀：436 作者：小新欄目：編程語言

這篇文章主要介紹了python爬蟲urllib庫中parse模塊urlparse的使用方法，具有一定借鑒價值，感興趣的朋友可以參考下，希望大家閱讀完這篇文章之后大有收獲，下面讓小編帶著大家一起了解一下。

在python爬蟲urllib庫中，urllib.parse是url解析模塊，提供了很多解析和組建 URL 的方法，其中urlunparse() 方法通過長度為6的可迭代對象，組建URL。

一、urlparse() 方法

可以將 URL 解析成 ParseResult 對象,實現url的識別和分段。

標準鏈接格式為：scheme://netloc/path;params?query#fragment

二、urlparse將url拆分為六個部分

urlparse(url, scheme='', allow_fragments=True)

三、參數說明

urlstring：必填，待解析的url；

scheme：默認的協議，如http，https。鏈接沒有協議信息時生效；

allow_fragments：是否忽略fragment，如果設置False，fragment部分會被忽略，解析為path、params或者query的一部分，而fragment部分為空。當URL不包含params和query時候，fragment會被解析為path一部分；

四、拆分六個部分為：

1、協議（scheme）

2、域名（netloc）

3、路徑（path）

4、路徑參數（params）

5、查詢參數（query）

6、片段（fragment）

五、使用實例

from urllib.parse import urlparse
# 該方法可以實現URL的識別和分段
result = urlparse('http://www.baidu.com/index.html;user?id=5#comment')
# 這里我們利用urlparse()方法進行了一個URL的解析。首先，輸出了解析結果的類型，然后將結果也輸出出來。
print(type(result), result)

輸出

E:\WebSpider\venv\Scripts\python.exe E:/WebSpider/3_1_3.py
<class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='www.baidu.com', path='
/index.html', params='user', query='id=5', fragment='comment')

感謝你能夠認真閱讀完這篇文章，希望小編分享的“python爬蟲urllib庫中parse模塊urlparse的使用方法”這篇文章對大家有幫助，同時也希望大家多多支持億速云，關注億速云行業資訊頻道，更多相關知識等著你來學習!

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

python爬蟲urllib庫中parse模塊urlparse的使用方法

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

python爬蟲urllib庫中parse模塊urlparse的使用方法

猜你喜歡

最新資訊

相關推薦

相關標簽