91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python3 urllib.request庫的基本使用

發布時間:2020-07-22 07:14:55 來源:網絡 閱讀:1151 作者:AlunE 欄目:編程語言

urllib.request庫 是 Python3 自帶的模塊(不需要下載,導入即可使用)
python 自帶的模塊庫文件都是在C:\Python\Lib目錄下(C:\Python是我Python的安裝目錄),python第三方模塊庫都是在C:\Python\Lib\site-packages 下。
urllib.request庫在windows下的路徑(C:\Python\Lib\urllib)。

一:用urllib.request 里的urlopen()方法發送一個請求


import urllib.request                                                                                      # 導入urllib.request 庫
response = urllib.request.urlopen("https://blog.51cto.com/alun51cto")        # 向指定的url發送請求,并返回服務器響應的類文件對象。urlopen方法支持重定向

# 服務器返回的類文件對象支持Python文件對象的操作方法,如read()方法讀取文件全部內容,返回字符串
html = response.read()

print(html)                                                                                      # 打印響應的內容

注:urllib.request 里的 urlopen()不支持構造HTTP請求,不能給編寫的請求添加head,無法模擬真實的瀏覽器發送請求。

python的“User-agent”默認的是client_version,而client_version = "Python-urllib/%s" % version
urllib.request庫的urlopen()方法默認的“User-agent”是本機Python的版本(User-agent:Python-urllib/3.4),對于服務器而言,一下就能識別出這是爬蟲。
urlopen()的參數就是一個url地址;但是如果需要執行更復雜的操作,比如增加HTTP報頭,必須創建一個 Request 實例來作為urlopen()的參數;而需要訪問的url地址則作為 Request 實例的參數。

二:用urllib.request 里的request ()方法

import urllib.request                                                                                  # url 作為Request()方法的參數,構造并返回一個Request對象
request = urllib.request.Request("https://blog.51cto.com/alun51cto")      # Request對象作為urlopen()方法的參數,發送給服務器并接收響應
response = urllib.request.urlopen(request)
html = response.read()
print(html)

運行結果:跟第一個代碼是一樣。
Request實例,除了必須要有 url 參數之外,還可以設置另外兩個參數:
data:如果是GET請求,data(默認空),如果是POST請求,需要加上data參數,伴隨 url 提交的數據。
headers(默認空):是一個字典,包含了需要發送的HTTP報頭的鍵值對。
通過抓包可以抓到https://blog.51cto.com/alun51cto 請求的head信息

【Host】:主域 (發請求時,可以不寫)
【Connection: keep-alive】:保持登錄后的長連接
【User-Agent】:最重要的參數
【Accept】:接受數據的格式,例如:text文本、json等
【Accept-Encoding】:數據的壓縮方式 (爬蟲不是服務器,沒有解壓方法,不能寫)
【Accept-Language】:支持的語言 (可以不寫)
【Cookie】:緩存,Cookie在爬蟲里主要獲取登錄后的狀態,跟登錄相關的可以用Cookie處理,如果只是獲取一個靜態頁面的數據,就不需要用Cookie。

web項目通過都是通過瀏覽器去訪問,要想真實模擬一個用戶用瀏覽器去訪問web項目,在發送請求的時候,會有不同的User-Agent頭。 urllib默認的User-Agent頭為:Python-urllib/x.y,所以就需要我們在發request請求的時候添加一個head信息

三:用urllib.request 里的request ()方法里加上head信息

import urllib.request

header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36" 
}
request = urllib.request.Request("https://blog.51cto.com/alun51cto")           # url 作為Request()方法的參數,構造并返回一個Request對象
response = urllib.request.urlopen(request)                                                    # Request對象作為urlopen()方法的參數,發送給服務器并接收響應
html = response.read()
print(html)

四:Request.get_header()與Request.add_header()

import urllib.request

url ="https://blog.51cto.com/alun51cto"
header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"
}

request = urllib.request.Request(url)                      # url 作為Request()方法的參數,構造并返回一個Request對象
request.add_header("Connection", "keep-alive")   #也可以通過調用request.add_header() 添加/修改一個特定的header
print(request.get_header(header_name="Connection"))  # 也可以通過調用Request.get_header()來查看header信息
response = urllib.request.urlopen(request)            # Request對象作為urlopen()方法的參數,發送給服務器并接收響應
html = response.read()
#print(html)

五:隨機添加/修改User-Agent

import urllib.request
import random

url = "https://blog.51cto.com/alun51cto"

#定義一個User-Agent列表
user_agent_list = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36,",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
    "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
    "Mozilla/5.0 (Macintosh; Intel Mac OS... "
]
user_agent = random.choice(user_agent_list)              #隨機抽取一個User-Agent值
request = urllib.request.Request(url)                             # url 作為Request()方法的參數,構造并返回一個Request對象
request.add_header("User-Agent", user_agent)           #通過調用Request.add_header() 添加一個特定的header
print(request.get_header("User-agent"))                       # 第一個字母大寫,后面的全部小寫
response = urllib.request.urlopen(request)                   # Request對象作為urlopen()方法的參數,發送給服務器并接收響應
html = response.read()
print(html)
向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

巫溪县| 本溪| 河西区| 日土县| 永福县| 青龙| 大理市| 长乐市| 靖江市| 台南县| 南江县| 迁安市| 黔江区| 泗洪县| 特克斯县| 黑山县| 越西县| 长宁县| 迁西县| 东兰县| 凤翔县| 新绛县| 泗水县| 洪江市| 永福县| 百色市| 延安市| 西充县| 扶沟县| 闵行区| 宿州市| 应用必备| 贵阳市| 义乌市| 特克斯县| 梓潼县| 杨浦区| 安福县| 子长县| 无锡市| 苍溪县|