91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python反爬蟲的措施有哪些

發布時間:2022-01-14 15:09:27 來源:億速云 閱讀:150 作者:iii 欄目:大數據

這篇文章主要介紹了python反爬蟲的措施有哪些的相關知識,內容詳細易懂,操作簡單快捷,具有一定借鑒價值,相信大家閱讀完這篇python反爬蟲的措施有哪些文章都會有所收獲,下面我們一起來看看吧。

  • 最常見的基于Headers的反爬蟲:相信這個大家應該都是耳熟能詳的,我們每次寫爬蟲基本上都會寫headers,因為大部分的網站都會對Headers中的User-Agent以及Referer字段進行檢測。這個突破起來應該是比較容易的,我們直接根據瀏覽器正常訪問時的請求頭對爬蟲的請求頭進行修改,和瀏覽器的相同即可。

  • headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36}rs=requests.get('http://jianshu.com')
        
  • 根據用戶行為的反爬蟲:這個反爬蟲措施真的是讓人頭疼,具體是啥呢?舉個栗子,同一個IP短時間內頻繁的去訪問同一個頁面,或者你就是對網站有一些程序化的操作(固定時間間隔去訪問頁面)更加接地氣的說就是看起來不像是正常人類在操作。這個問題怎么去解決呢?①既然一個ip不能頻繁訪問,那我就弄一大堆ip不就行了,所以我們可以通過大量的ip代理進行繞過。②我們訪問的時候可以將間隔的時間換成一個隨機的數字,盡可能的去模仿正常人的操作。

proxies = {  "http": "http://127.0.0.1:8888",  "https": "http://127.0.0.11:1080",}requests.get(url, proxies=proxies)
  • 基于驗證碼的反爬蟲:其實驗證碼也是一種反爬蟲的措施,現在的驗證碼相信大家也都見識過了,什么算數啊,滑動啊,按照順序點擊字啊等等,千奇百怪,其實像這種驗證碼的防爬蟲措施是有點棘手的,這里的話幾句話也說不完(涉及到機器學習或者也可以使用打碼平臺),大家可以先了解一下這種反爬蟲措施,到時候我會寫一篇有關于突破驗證碼的文章。

  • 動態頁面的反爬蟲:這種技術應該還是比較常見的,動態頁面是啥呢?像我們在html上抓取數據,那是屬于靜態頁面的數據,非常的簡單。但是想動態頁面的話就無法直接從頁面上獲取數據,而是會涉及到Ajax技術,所以我們需要分析Ajax請求,然后模擬發送獲取到數據,但是目前很多網站不會那么輕易的讓你模擬發送數據出去,所以目前我們需要通過selenium+phaantomJS技術來進行突破!這個我們日后會講。

  • 基于登錄的反爬蟲:像有些網站就比較摳了,必須要注冊登錄之后才能看到里面的內容,所以這也是個問題,但是這個也并不是特別難,只要你有足夠的耐心多去注冊幾個賬號,然后去登錄獲取到它們的cookie,然后通過這些cookie去訪問登錄即可

    關于“python反爬蟲的措施有哪些”這篇文章的內容就介紹到這里,感謝各位的閱讀!相信大家對“python反爬蟲的措施有哪些”知識都有一定的了解,大家如果還想學習更多知識,歡迎關注億速云行業資訊頻道。

    向AI問一下細節

    免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

    AI

    宜良县| 武乡县| 南城县| 富源县| 赤壁市| 十堰市| 宁海县| 柏乡县| 密云县| 东方市| 时尚| 定日县| 岑巩县| 扎囊县| 乌拉特前旗| 崇阳县| 西乡县| 永善县| 饶阳县| 寿宁县| 澄江县| 静海县| 南皮县| 安平县| 垣曲县| 岑巩县| 东乌珠穆沁旗| 玛沁县| 白山市| 荔波县| 小金县| 顺平县| 建平县| 东乌| 合山市| 壤塘县| 阳泉市| 石泉县| 辽宁省| 北海市| 基隆市|