91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

爬蟲怎么使用ip代理池

發布時間:2021-07-21 13:44:16 來源:億速云 閱讀:208 作者:chen 欄目:編程語言

這篇文章主要講解了“爬蟲怎么使用ip代理池”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“爬蟲怎么使用ip代理池”吧!

1、利用IP代理池技術,每次從IP代理池中隨機選擇一個IP代理來爬取數據。

import urllib.request
import random
#構建IP代理池
ip_pool = [
    '58.221.55.58:808',
    '120.198.248.26:8088',
    '221.229.166.55:8080',
    '139.196.214.67:8080'
]
 
def ip(ip_pool, url):
    #從IP代理池中隨機選一個IP代理
    ip = random.choice(ip_pool)
    print(ip)
    #格式化IP代理格
    proxy = urllib.request.ProxyHandler({'http': ip})
    #裝入IP代理
    opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
    return urllib.request.urlopen(url).read().decode('utf-8', 'ignore')
    
data = ip(ip_pool, 'https://www.baidu.com/?tn=98010089_dg&ch=15')
print(data)

2、使用IP代理池和用戶代理的組合來增加訪問量,更安全。利用ip代理的動態ip構建自己的代理ip池,可以保證ip的質量,因為ip代理的ip資源是獨立有效的。

import urllib.request
import random
import urllib.error
#自定義UA_IP類,用來隨機得到
def UA_IP(thisUrl):
    #構建用戶代理池
    ua_pool = [
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36',
        'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.41 Safari/535.1 QQBrowser/6.9.11079.201',
        'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E)',
        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'
 
    ]
 
    #構建ip代理池
    ip_pool = [
        '139.196.196.74',
        '112.124.47.21',
        '61.129.70.109',
        '221.229.166.55'
    ]
 
    thisUA = random.choice(ua_pool) #從用戶代理池中隨機選擇一個用戶代理
    thisIP = random.choice(ip_pool) #從IP代理池中隨機選擇一個IP代理
    headers = ('User-Agent', thisUA)    #構造報頭
    #將IP格式化
    proxy = urllib.request.ProxyHandler({'http': thisIP})
    #裝入IP代理
    opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
    #裝入代理
    opener.addheaders = [headers]
    #將opener設置為全局
    urllib.request.install_opener(opener)
    #從網頁爬取信息
    data = urllib.request.urlopen(thisUrl).read().decode('utf-8', 'gnore')
    return data
 
#網頁池,后面從網頁池中選擇一個進行該網頁信息的爬取
urls = [
    'https://mp.csdn.net/mdeditor/88323361#',
    'https://mp.csdn.net/mdeditor/88144295#',
    'https://mp.csdn.net/mdeditor/88144295#',
    'https://mp.csdn.net/mdeditor/88081609#'
]
 
#爬取1000次
for i in range(0, 1000):
    try:
        thisUrl = random.choice(urls)
        data = UA_IP(thisUrl)
        print(len(data))
    except urllib.error.HTTPError as e:
        if hasattr(e, 'code'):
            print(e.code)
        if hasattr(e, 'reason'):
            print(e.reason)

感謝各位的閱讀,以上就是“爬蟲怎么使用ip代理池”的內容了,經過本文的學習后,相信大家對爬蟲怎么使用ip代理池這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

林口县| 赤壁市| 原阳县| 寿宁县| 平凉市| 阿拉善盟| 无锡市| 集安市| 哈尔滨市| 南陵县| 舟山市| 阿荣旗| 延庆县| 前郭尔| 南雄市| 佳木斯市| 富民县| 项城市| 车险| 东至县| 夏邑县| 眉山市| 兴化市| 东乡族自治县| 内黄县| 鲁甸县| 达孜县| 竹北市| 青河县| 潼南县| 麻城市| 孝义市| 怀来县| 涪陵区| 普兰店市| 朔州市| 韩城市| 安远县| 和田市| 新郑市| 姚安县|