Python3 urllib.request庫的基本使用

發布時間：2020-07-22 07:14:55 來源：網絡閱讀：1151 作者：AlunE 欄目：編程語言

urllib.request庫是 Python3 自帶的模塊(不需要下載，導入即可使用)
python 自帶的模塊庫文件都是在C:\Python\Lib目錄下（C:\Python是我Python的安裝目錄），python第三方模塊庫都是在C:\Python\Lib\site-packages 下。
urllib.request庫在windows下的路徑（C:\Python\Lib\urllib）。

一：用urllib.request 里的urlopen()方法發送一個請求


import urllib.request                                                                                      # 導入urllib.request 庫
response = urllib.request.urlopen("https://blog.51cto.com/alun51cto")        # 向指定的url發送請求，并返回服務器響應的類文件對象。urlopen方法支持重定向

# 服務器返回的類文件對象支持Python文件對象的操作方法，如read()方法讀取文件全部內容，返回字符串
html = response.read()

print(html)                                                                                      # 打印響應的內容

注：urllib.request 里的 urlopen()不支持構造HTTP請求，不能給編寫的請求添加head,無法模擬真實的瀏覽器發送請求。

python的“User-agent”默認的是client_version，而client_version = "Python-urllib/%s" % version。
urllib.request庫的urlopen()方法默認的“User-agent”是本機Python的版本（User-agent：Python-urllib/3.4），對于服務器而言，一下就能識別出這是爬蟲。
urlopen()的參數就是一個url地址；但是如果需要執行更復雜的操作，比如增加HTTP報頭，必須創建一個 Request 實例來作為urlopen()的參數；而需要訪問的url地址則作為 Request 實例的參數。

二：用urllib.request 里的request ()方法

import urllib.request                                                                                  # url 作為Request()方法的參數，構造并返回一個Request對象
request = urllib.request.Request("https://blog.51cto.com/alun51cto")      # Request對象作為urlopen()方法的參數，發送給服務器并接收響應
response = urllib.request.urlopen(request)
html = response.read()
print(html)

運行結果：跟第一個代碼是一樣。
Request實例，除了必須要有 url 參數之外，還可以設置另外兩個參數：
data：如果是GET請求，data（默認空），如果是POST請求，需要加上data參數，伴隨 url 提交的數據。
headers（默認空）：是一個字典，包含了需要發送的HTTP報頭的鍵值對。
通過抓包可以抓到https://blog.51cto.com/alun51cto 請求的head信息

【Host】：主域 （發請求時，可以不寫）
【Connection: keep-alive】：保持登錄后的長連接
【User-Agent】：最重要的參數
【Accept】：接受數據的格式，例如：text文本、json等
【Accept-Encoding】：數據的壓縮方式 （爬蟲不是服務器，沒有解壓方法，不能寫）
【Accept-Language】：支持的語言 （可以不寫）
【Cookie】：緩存，Cookie在爬蟲里主要獲取登錄后的狀態，跟登錄相關的可以用Cookie處理，如果只是獲取一個靜態頁面的數據，就不需要用Cookie。

web項目通過都是通過瀏覽器去訪問，要想真實模擬一個用戶用瀏覽器去訪問web項目，在發送請求的時候，會有不同的User-Agent頭。 urllib默認的User-Agent頭為：Python-urllib/x.y，所以就需要我們在發request請求的時候添加一個head信息

三：用urllib.request 里的request ()方法里加上head信息

import urllib.request

header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36" 
}
request = urllib.request.Request("https://blog.51cto.com/alun51cto")           # url 作為Request()方法的參數，構造并返回一個Request對象
response = urllib.request.urlopen(request)                                                    # Request對象作為urlopen()方法的參數，發送給服務器并接收響應
html = response.read()
print(html)

`四：Request.get_header()與Request.add_header（）`

import urllib.request

url ="https://blog.51cto.com/alun51cto"
header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"
}

request = urllib.request.Request(url)                      # url 作為Request()方法的參數，構造并返回一個Request對象
request.add_header("Connection", "keep-alive")   #也可以通過調用request.add_header() 添加/修改一個特定的header
print(request.get_header(header_name="Connection"))  # 也可以通過調用Request.get_header()來查看header信息
response = urllib.request.urlopen(request)            # Request對象作為urlopen()方法的參數，發送給服務器并接收響應
html = response.read()
#print(html)

五：隨機添加/修改User-Agent

import urllib.request
import random

url = "https://blog.51cto.com/alun51cto"

#定義一個User-Agent列表
user_agent_list = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36,",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
    "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
    "Mozilla/5.0 (Macintosh; Intel Mac OS... "
]
user_agent = random.choice(user_agent_list)              #隨機抽取一個User-Agent值
request = urllib.request.Request(url)                             # url 作為Request()方法的參數，構造并返回一個Request對象
request.add_header("User-Agent", user_agent)           #通過調用Request.add_header() 添加一個特定的header
print(request.get_header("User-agent"))                       # 第一個字母大寫，后面的全部小寫
response = urllib.request.urlopen(request)                   # Request對象作為urlopen()方法的參數，發送給服務器并接收響應
html = response.read()
print(html)

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Python3 urllib.request庫的基本使用

一：用urllib.request 里的urlopen()方法發送一個請求

二：用urllib.request 里的request ()方法

三：用urllib.request 里的request ()方法里加上head信息

`四：Request.get_header()與Request.add_header（）`

五：隨機添加/修改User-Agent

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Python3 urllib.request庫的基本使用

一：用urllib.request 里的urlopen()方法發送一個請求

二：用urllib.request 里的request ()方法

三：用urllib.request 里的request ()方法里加上head信息

四：Request.get_header()與Request.add_header（）

五：隨機添加/修改User-Agent

猜你喜歡

最新資訊

相關推薦

相關標簽

`四：Request.get_header()與Request.add_header（）`