91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python3爬蟲里Splash負載均衡配置的方法

發布時間:2020-07-11 10:38:26 來源:億速云 閱讀:167 作者:清晨 欄目:開發技術

小編給大家分享一下Python3爬蟲里Splash負載均衡配置的方法,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!

用Splash做頁面抓取時,如果爬取的量非常大,任務非常多,用一個Splash服務來處理的話,未免壓力太大了,此時可以考慮搭建一個負載均衡器來把壓力分散到各個服務器上。這相當于多臺機器多個服務共同參與任務的處理,可以減小單個Splash服務的壓力。

1. 配置Splash服務

要搭建Splash負載均衡,首先要有多個Splash服務。假如這里在4臺遠程主機的8050端口上都開啟了Splash服務,它們的服務地址分別為41.159.27.223:8050、41.159.27.221:8050、41.159.27.9:8050和41.159.117.119:8050,這4個服務完全一致,都是通過Docker的Splash鏡像開啟的。訪問其中任何一個服務時,都可以使用Splash服務。

2. 配置負載均衡

接下來,可以選用任意一臺帶有公網IP的主機來配置負載均衡。首先,在這臺主機上裝好Nginx,然后修改Nginx的配置文件nginx.conf,添加如下內容:

http {
    upstream splash {
        least_conn;
        server 41.159.27.223:8050;
        server 41.159.27.221:8050;
        server 41.159.27.9:8050;
        server 41.159.117.119:8050;
    }
    server {
        listen 8050;
        location / {
            proxy_pass http://splash;
        }
    }
}

這樣我們通過upstream字段定義了一個名字叫作splash的服務集群配置。其中least_conn代表最少鏈接負載均衡,它適合處理請求處理時間長短不一造成服務器過載的情況。

當然,我們也可以不指定配置,具體如下:

upstream splash {
    server 41.159.27.223:8050;
    server 41.159.27.221:8050;
    server 41.159.27.9:8050;
    server 41.159.117.119:8050;
}

這樣默認以輪詢策略實現負載均衡,每個服務器的壓力相同。此策略適合服務器配置相當、無狀態且短平快的服務使用。

另外,我們還可以指定權重,配置如下:

upstream splash {
    server 41.159.27.223:8050 weight=4;
    server 41.159.27.221:8050 weight=2;
    server 41.159.27.9:8050 weight=2;
    server 41.159.117.119:8050 weight=1;
}

這里weight參數指定各個服務的權重,權重越高,分配到處理的請求越多。假如不同的服務器配置差別比較大的話,可以使用此種配置。

最后,還有一種IP散列負載均衡,配置如下:

upstream splash {
    ip_hash;
    server 41.159.27.223:8050;
    server 41.159.27.221:8050;
    server 41.159.27.9:8050;
    server 41.159.117.119:8050;
}

服務器根據請求客戶端的IP地址進行散列計算,確保使用同一個服務器響應請求,這種策略適合有狀態的服務,比如用戶登錄后訪問某個頁面的情形。對于Splash來說,不需要應用此設置。

我們可以根據不同的情形選用不同的配置,配置完成后重啟一下Nginx服務:

sudo nginx -s reload

這樣直接訪問Nginx所在服務器的8050端口,即可實現負載均衡了。

3. 配置認證

現在Splash是可以公開訪問的,如果不想讓其公開訪問,還可以配置認證,這仍然借助于Nginx。可以在server的location字段中添加auth_basic和auth_basic_user_file字段,具體配置如下:

http {
    upstream splash {
        least_conn;
        server 41.159.27.223:8050;
        server 41.159.27.221:8050;
        server 41.159.27.9:8050;
        server 41.159.117.119:8050;
    }
    server {
        listen 8050;
        location / {
            proxy_pass http://splash;
            auth_basic "Restricted";
            auth_basic_user_file /etc/nginx/conf.d/.htpasswd;
        }
    }
}

這里使用的用戶名和密碼配置放置在/etc/nginx/conf.d目錄下,我們需要使用htpasswd命令創建。例如,創建一個用戶名為admin的文件,相關命令如下:

htpasswd -c .htpasswd admin

接下來就會提示我們輸入密碼,輸入兩次之后,就會生成密碼文件,其內容如下:

cat .htpasswd 
admin:5ZBxQr0rCqwbc

配置完成后,重啟一下Nginx服務:

sudo nginx -s reload

這樣訪問認證就成功配置好了。

4. 測試

最后,我們可以用代碼來測試一下負載均衡的配置,看看到底是不是每次請求會切換IP。利用http://httpbin.org/get測試即可,實現代碼如下:

import requests
from urllib.parse import quote
import re
lua = '''
function main(splash, args)
  local treat = require("treat")
  local response = splash:http_get("http://httpbin.org/get")
  return treat.as_string(response.body)
end
'''
url = 'http://splash:8050/execute?lua_source=' + quote(lua)
response = requests.get(url, auth=('admin', 'admin'))
ip = re.search('(\d+\.\d+\.\d+\.\d+)', response.text).group(1)
print(ip)

這里URL中的splash字符串請自行替換成自己的Nginx服務器IP。這里我修改了Hosts,設置了splash為Nginx服務器IP。

多次運行代碼之后,可以發現每次請求的IP都會變化,比如第一次的結果:

41.159.27.223

第二次的結果:

41.159.27.9

這就說明負載均衡已經成功實現了。

看完了這篇文章,相信你對Python3爬蟲里Splash負載均衡配置的方法有了一定的了解,想了解更多相關知識,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

苏尼特右旗| 凌源市| 乌审旗| 千阳县| 中宁县| 团风县| 盐城市| 通渭县| 内黄县| 迁安市| 公安县| 香格里拉县| 娱乐| 临湘市| 皮山县| 金乡县| 抚顺市| 叙永县| 宜州市| 旅游| 扎囊县| 兴隆县| 台湾省| 谢通门县| 大理市| 渝北区| 许昌县| 沛县| 巩留县| 永寿县| 卢湾区| 高清| 延吉市| 西吉县| 安吉县| 澄江县| 开原市| 凤凰县| 广河县| 通榆县| 上思县|