91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python怎么操作網頁

發布時間:2022-02-22 16:52:50 來源:億速云 閱讀:406 作者:iii 欄目:開發技術

這篇文章主要講解了“python怎么操作網頁”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“python怎么操作網頁”吧!

介紹

urllib 庫是一個 python 自帶的用于操作網頁 URL 的庫,它可以簡單的對網頁的內容進行抓取處理。該功能最常用于 python 爬蟲的開發,不過對于爬蟲開發而言,request 是一個更好的選擇。但內置的 urllib 也可以在簡單使用上替代 request 庫(而且由于 urllib 庫是內置的,所以并不需要額外安裝)。

安裝

urllib 是 python 內置的庫,不需要額外的安裝。

功能

urllib 庫下有四個模塊,分別是 request 模塊,error 模塊,parse 模塊和 robotparser 模塊。

  • urllib.request  該模塊定義了一些打開URL的函數和類,比如發起請求,授權驗證,重定向,cookie等功能。

對于爬蟲而言,一般只需要了解urllib.requesturlopen()方法即可。

   urlopen() 方法可以選擇傳入如下參數(不完全,但是基本上是爬蟲常用的參數):
  • url:url 地址,也就是請求的鏈接。

  • data:發送到服務器的數據包(使用post方法的時候),默認為None。

  • timeout:設置訪問超時時間。

  • headers:請求頭,這個字段在爬蟲反反爬的時候需要用到。

  • method:請求方法,可以設置請求的方式,默認是get請求。

代碼示例:

url = 'http://www.neiyidaogou.com/'
headers = { 
#假裝自己是瀏覽器 
'User-Agent':' Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36', 
}
req = request.Request(url,data=None,headers=headers,method='GET')
  • urllib.error  該模塊為urllib.request所引發的異常定義了異常類,用于處理urllib.request引起的異常。

  • urllib.parse  該模塊用于解析URL ,它可以解析一個url的協議,網絡位置部分,分層路徑,最后路徑元素的參數,查詢組件,片段識別,用戶名,密碼,主機名(小寫)和端口號(前提是該URL有對應的值)

 一般而言一個url的結構只要開發者有一定經驗,可以直接看出上述的內容,所以該模塊的作用只是用于自動化操作,對于爬蟲而言作用有限(在最開始的網站分析階段開發者已經將相應的工作都做完了),如需了解對應的內容,請前往python教程進行了解

  • urllib.robotparser  該模塊用于解析robot文件。

  • robot文件是網站用來告訴爬蟲什么內容可以爬什么內容不能爬的文件,是網站與爬蟲開發者之間的君子協定。雖然沒有明文規定robot規定不能爬的內容一定不能爬,但是爬取robot規定不能爬的內容對方可以向開發者追責。

感謝各位的閱讀,以上就是“python怎么操作網頁”的內容了,經過本文的學習后,相信大家對python怎么操作網頁這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

鄂温| 昔阳县| 焦作市| 宁强县| 岑巩县| 纳雍县| 绥宁县| 怀柔区| 昂仁县| 朔州市| 江孜县| 金湖县| 武功县| 山西省| 临邑县| 荔波县| 康乐县| 福州市| 安宁市| 思茅市| 天全县| 庆城县| 天水市| 福清市| 白城市| 将乐县| 安徽省| 海门市| 双江| 台东市| 昭通市| 阆中市| 商水县| 武平县| 高碑店市| 和政县| 仙居县| 萨迦县| 芜湖县| 陕西省| 漾濞|