91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python如何搭建爬蟲程序

發布時間:2021-09-13 09:51:20 來源:億速云 閱讀:165 作者:柒染 欄目:編程語言

這期內容當中小編將會給大家帶來有關Python如何搭建爬蟲程序,文章內容豐富且以專業的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

      開發工具

Python版本:3.6.4

相關模塊:

scrapy模塊;

pyecharts==1.5.1模塊;

wordcloud模塊;

jieba模塊;

以及一些python自帶的模塊。

環境搭建

安裝Python并添加到環境變量,pip安裝需要的相關模塊即可。

數據爬取

先隨手推一波自己開源的利用requests進行模擬登錄的庫:

https://github.com/CharlesPikachu/DecryptLogin

目前該庫支持模擬登錄的網站包括:

1\. 微博

后續會不斷添加和完善該庫的功能以及該庫相關的一些小應用。當然,今天是用不上了,因為我發現他喵的知乎的粉絲數據竟然一直是一個裸的API,即使是改版之后,也不需要驗證什么登錄后的cookies之類的東西直接就能抓取到了。

言歸正傳,簡單說說這個數據怎么抓取吧,其實很簡單,F12打開開發者工具,刷新一下關注者頁面,就可以發現:

Python如何搭建爬蟲程序    

請求這個接口直接就能返回目標用戶的粉絲數據了,接口的組成形式為:

https://www.zhihu.com/api/v4/members/{用戶域名}/followers?

沒有什么特別需要注意的地方,不用懷疑,就是這么簡單,scrapy新建一個項目爬就完事了:

scrapy startproject zhihuFansSpider

定義一下items:

class ZhihufansspiderItem(scrapy.Item):

然后新建并寫一個爬蟲主程序就OK啦:

'''知乎粉絲小爬蟲'''

運行以下命令開始爬取目標用戶的粉絲數據:

scrapy crawl zhihuFansSpider -o followers_info.json -t json

    數據可視化

老規矩,可視化一下爬到數據唄(這里就以我自己知乎賬號的關注者數據為例好了T_T)。

先畫個粉絲主頁標題的詞云壓壓驚?

![https://upload-images.jianshu.io/upload_images/2539976-ada286149ecb2285?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

上述就是小編為大家分享的Python如何搭建爬蟲程序了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

肥城市| 平遥县| 望城县| 锦屏县| 天峨县| 即墨市| 高平市| 陕西省| 临安市| 云龙县| 江西省| 资讯| 云霄县| 连州市| 阿拉善盟| 宜昌市| 松潘县| 海晏县| 曲周县| 岱山县| 孝昌县| 忻城县| 利津县| 成武县| 永嘉县| 宣武区| 阿合奇县| 渭源县| 华宁县| 邵阳市| 肇庆市| 铅山县| 宁夏| 东方市| 万盛区| 鹿邑县| 许昌市| 平顶山市| 德阳市| 武隆县| 盖州市|