您好,登錄后才能下訂單哦!
這篇文章主要介紹python urllib模塊的使用方法,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
urllib 是一個 python 內置包,不需要額外安裝即可使用,包里面包含了以下幾個用來處理 url 的模塊:
l urllib.request可以用來發送request和獲取request的結果
l urllib.error包含了urllib.request產生的異常
l urllib.parse用來解析和處理URL
l urllib.robotparse用來解析頁面的robots.txt文件
1、urllib.request 模塊
urllib.request 模塊定義了以下幾個函數。
語法:
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
意義:
該函數主要用于模擬網站請求,返回一個 HTTPResponse 類型的對象。
2、urlopen 函數返回類型
urlopen 函數請求返回一個 HTTPResponse 響應上下文,或者請求異常拋出 URLError 協議錯誤,一般有如下屬性:
l geturl(),返回檢索的 url,通常用于判定是否進行了重定向。
l info(),返回網頁的頭信息。
l getcode(),返回 HTTPResponse 響應的狀態碼。
3、urllib.error.URLError 異常
URLError 類繼承自 OSError 類,是 error 異常模塊的基類,由request模塊產生的異常都可以通過捕獲這個類來處理。URLError 只有一個屬性 reason,即返回錯誤的原因。
應用實例:
# 在請求連接時候捕獲網址錯誤引發的異常 from urllib import request, error try: response = request.urlopen('https://www,baidu,com') except error.URLError as e: print(e.reason)
4、urllib.parse 模塊
urllib.parse 模塊定義了一個處理 url 的標準接口,用來實現 url 字符串的抽取、合并以及鏈接轉換。
5、urllib.robotparse 模塊
rebotparser 模塊提供了一個 RobotFileParser 類,主要用來解析網站上發布的 robots.txt,然后根據解析內容判斷爬蟲是否有權限來爬取這個網頁。
以上是python urllib模塊的使用方法的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。