您好,登錄后才能下訂單哦!
這篇文章主要講解了“python怎么操作網頁”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“python怎么操作網頁”吧!
urllib 庫是一個 python 自帶的用于操作網頁 URL 的庫,它可以簡單的對網頁的內容進行抓取處理。該功能最常用于 python 爬蟲的開發,不過對于爬蟲開發而言,request 是一個更好的選擇。但內置的 urllib 也可以在簡單使用上替代 request 庫(而且由于 urllib 庫是內置的,所以并不需要額外安裝)。
urllib 是 python 內置的庫,不需要額外的安裝。
urllib 庫下有四個模塊,分別是 request 模塊,error 模塊,parse 模塊和 robotparser 模塊。
urllib.request
該模塊定義了一些打開URL的函數和類,比如發起請求,授權驗證,重定向,cookie等功能。
對于爬蟲而言,一般只需要了解urllib.request
的urlopen()
方法即可。
urlopen()
方法可以選擇傳入如下參數(不完全,但是基本上是爬蟲常用的參數):
url
:url 地址,也就是請求的鏈接。
data
:發送到服務器的數據包(使用post方法的時候),默認為None。
timeout
:設置訪問超時時間。
headers
:請求頭,這個字段在爬蟲反反爬的時候需要用到。
method
:請求方法,可以設置請求的方式,默認是get請求。
代碼示例:
url = 'http://www.neiyidaogou.com/'
headers = {
#假裝自己是瀏覽器
'User-Agent':' Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
}
req = request.Request(url,data=None,headers=headers,method='GET')
urllib.error
該模塊為urllib.request
所引發的異常定義了異常類,用于處理urllib.request
引起的異常。
urllib.parse
該模塊用于解析URL ,它可以解析一個url的協議,網絡位置部分,分層路徑,最后路徑元素的參數,查詢組件,片段識別,用戶名,密碼,主機名(小寫)和端口號(前提是該URL有對應的值)
一般而言一個url的結構只要開發者有一定經驗,可以直接看出上述的內容,所以該模塊的作用只是用于自動化操作,對于爬蟲而言作用有限(在最開始的網站分析階段開發者已經將相應的工作都做完了),如需了解對應的內容,請前往python教程進行了解
urllib.robotparser
該模塊用于解析robot文件。
robot文件是網站用來告訴爬蟲什么內容可以爬什么內容不能爬的文件,是網站與爬蟲開發者之間的君子協定。雖然沒有明文規定robot規定不能爬的內容一定不能爬,但是爬取robot規定不能爬的內容對方可以向開發者追責。
感謝各位的閱讀,以上就是“python怎么操作網頁”的內容了,經過本文的學習后,相信大家對python怎么操作網頁這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。