Python爬蟲案例分析

發布時間：2021-11-23 16:58:11 來源：億速云閱讀：253 作者：iii 欄目：編程語言

本篇內容介紹了“Python爬蟲案例分析”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠學有所成！

一、論述

這幾個案例以前是給一些想進入Python行業的朋友寫的，看到大家都比較滿意，所以就再次拿了出來，如果你已經開始學python，對爬蟲沒有頭緒，不妨看看這幾個案例！

二、環境準備

Python 3

requests庫、lxml庫、beautifulsoup4庫

pip install XX XX XX一并安裝。

Python爬蟲案例分析

三、Python爬蟲小案例

1、獲取本機的公網IP地址

利用python的requests庫+公網上查IP的接口，自動獲取IP地址

Python爬蟲案例分析

2、利用百度的查找接口，Python編寫url采集工具

需要用到requests庫、BeautifulSoup庫，觀察百度搜索結構的URL鏈接規律，繞過百度搜索引擎的反爬蟲機制的方法為在程序中設置User-Agent請求頭。

Python爬蟲案例分析

Python源代碼：

Python爬蟲案例分析

Python語言編寫好程序后，利用關鍵詞inurl:/dede/login.php 來批量提取某網cms的后臺地址：

Python爬蟲案例分析

3、利用Python打造搜狗壁紙自動下載爬蟲

搜狗壁紙的地址是json格式，所以用json庫解析這組數據，爬蟲程序存放圖片的磁盤路徑改成欲存圖片的路徑就可以了。

Python爬蟲案例分析

效果圖：

Python爬蟲案例分析

4、Python自動填寫問卷調查

Python爬蟲案例分析

與一般網頁一樣，多次提交數據會要輸入驗證碼，這就是反爬機制。

Python爬蟲案例分析

如圖：

Python爬蟲案例分析

那么如何繞過驗證碼的反爬措施？利用X-Forwarded-For偽造IP地址訪問即可，Python代碼如下：

Python爬蟲案例分析

效果：

Python爬蟲案例分析

5、獲取西刺代理上的IP，驗證這些代理被封禁掉的可能性與延遲時間

可以把Python爬取的代理IP添加到proxychain里面，就可以進行一般的滲透任務了。這里直接調用了linux的系統命令ping -c 1 " + ip.string + " | awk 'NR==2{print}' - ，在Windows中運行此程序需要修改倒數第三行os.popen里的命令，修改為Windows能夠執行的就可以了。

Python爬蟲案例分析

爬取到的數據如圖：

Python爬蟲案例分析

演示：

Python爬蟲案例分析

“Python爬蟲案例分析”的內容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站，小編將為大家輸出更多高質量的實用文章！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Python爬蟲案例分析

二、環境準備

三、Python爬蟲小案例

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Python爬蟲案例分析

二、環境準備

三、Python爬蟲小案例

猜你喜歡

最新資訊

相關推薦

相關標簽