您好,登錄后才能下訂單哦!
這篇文章主要講解了“Python怎么抓取京東商城評價”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“Python怎么抓取京東商城評價”吧!
分布式抓取京東商城的評價信息
采用分布式抓取的目的是快速的在短時間內盡量抓取足夠多的商品評價,使分析結果更精確
找出評價請求 URL 規律,獲取到如下 URL 組合鏈接
利用 Chrome 插件 Postman 測試鏈接是否可用,發現京東獲取評價信息并沒有驗證 Cookie 之類的反爬措施
開始編碼利用 scrapy 抓取京東商城的商品評價信息并存入數據庫以備使用
數據分析
從數據庫中取出相應數據,開始分析
使用 python 的擴展庫 wordcloud 分別提取好評、中評、差評的關鍵字,并且生成相應的詞云圖片
分析該商品不同顏色的銷量占比,并且生成柱狀圖,例如 iphone7 的不同顏色金色、玫瑰金色、銀色、黑色、亮黑色、還有***出的紅色的占比
分析該商品不同配置的銷量占比,并且生成柱狀圖,例如 iphone7 32G 、 64G、128G 存儲
分析該商品銷售和評論時間并且生成折線圖,分析出商品在什么時間最暢銷
分析用戶購買該商品的渠道,例如用戶通過京東 Android 客戶端、微信京東購物、京東 iPhone 客戶端購物的比例,并且生成柱狀圖
分析購買該商品的用戶的地域省份。例如北京、上海、廣州那個城市在京東上購買 iPhone7 的人更多
將以上分析結果都存儲保留
Django 后臺 WEB
使用 Django 搭建一個簡易的后臺 jd_analysis,將分布式抓取數據和數據分析連起來,并且將分析結果返回前端顯示。
jd_analysis 提供一個接口接受用戶請求分析的京東商城商品的 URL 鏈接
jd_analysis 接受到商品鏈接后開啟爬蟲進程開始抓取需要分析的商品的名稱和評價數量
組合出完整的評價鏈接插入到 redis 中,實現分布式爬蟲抓取,盡可能在短時間內抓取足夠多的該商品評價信息(我現在是 30s 時間大概可以抓取 3000 條評價信息)
主服務器等待一定的抓取時間,例如主服務器等待 30s,30s 后一定要給前端返回分析結果,所以等 30s 后清空 redis 中該商品的鏈接,從服務器沒有讀取不到需要抓取的鏈接也就自動關閉
開啟分析進程,開始分析抓取到的所有數據,并且生成圖標等信息
前端展示
在客戶端***次請求時,生成一個 GUID,并且存儲在 cookie 中。然后開啟一個定時器,帶上 GUID 不斷的向 jd_analysis 后臺請求結果。jd_analysis 后臺利用請求的 GUID 從 redis 中獲取抓取信息和分析結果的所有內容,返回給前端。前端顯示請求到的結果。
***附上兩張效果圖
購買和評論時間折線圖
購買渠道柱狀圖
感謝各位的閱讀,以上就是“Python怎么抓取京東商城評價”的內容了,經過本文的學習后,相信大家對Python怎么抓取京東商城評價這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。