python爬蟲爬取筆趣網小說網站過程圖解

發布時間：2020-10-09 22:47:07 來源：腳本之家閱讀：288 作者：老魚的故事欄目：開發技術

首先：文章用到的解析庫介紹

BeautifulSoup：

Beautiful Soup提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。

它是一個工具箱，通過解析文檔為用戶提供需要抓取的數據，因為簡單，所以不需要多少代碼就可以寫出一個完整的應用程序。

Beautiful Soup自動將輸入文檔轉換為Unicode編碼，輸出文檔轉換為utf-8編碼。

你不需要考慮編碼方式，除非文檔沒有指定一個編碼方式，這時，Beautiful Soup就不能自動識別編碼方式了。然后，你僅僅需要說明一下原始編碼方式就可以了。

Beautiful Soup已成為和lxml、html6lib一樣出色的python解釋器，為用戶靈活地提供不同的解析策略或強勁的速度。

爬取小說原因背景：

以前很喜歡看起點網上面的小說，但是很多都要錢，窮學生沒多少錢，就發現了筆趣網。

筆趣看是一個小說網站，這里有很多起點中文網的免費小說，而且這個網站只能在線瀏覽，不支持小說打包下載。

所以本次爬取呢，就是從該網站爬取并保存一個名為《一念永恒》的小說。

另外本次爬取只是做例子演示，請支持正版資源！！！！！！！！！！！

那么簡單的爬取開始：

①打開url鏈接，按F12或者右鍵- 檢查進入開發者工具

python爬蟲爬取筆趣網小說網站過程圖解

② 在開發者工具中，捕獲我們要找到的請求條目信息

選擇主文章的一部分內容，選擇復制粘貼那一部分，

然后再打開開發者工具欄：

“network—選擇放大鏡圖標sreach—然后再搜索欄粘貼我們要搜索的內容”

python爬蟲爬取筆趣網小說網站過程圖解

然后會在下方得到條目信息，點擊，頁面會跳轉到加載正文的請求響應條目中。

我們可以看到：

正文部分是處于 id 為 content 和 class 為 showtxt 的 div 中。

③ 構造url請求

上面的信息是不夠的，因為現在的網站都有了反爬能力，我們所需要是模擬一條正常從瀏覽器中發出的url請求鏈接。

這里我們會用到： User-Agent（瀏覽器標識）

還是開發者工具，點擊Headers，就可以看到Request-Response條目明細。

python爬蟲爬取筆趣網小說網站過程圖解

④ 發出請求：

有了字段的詳細內容，我們就可以編寫出請求網頁的代碼

python爬蟲爬取筆趣網小說網站過程圖解

⑤ 獲得相應內容，然后運行，得到內容如下:

python爬蟲爬取筆趣網小說網站過程圖解

解析響應數據

下面，我們使用BeautifulSoup進行解析運行….代碼結果如圖：

python爬蟲爬取筆趣網小說網站過程圖解

到這里，小說就爬取完成了。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持億速云。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

python爬蟲爬取筆趣網小說網站過程圖解

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

python爬蟲爬取筆趣網小說網站過程圖解

猜你喜歡

最新資訊

相關推薦

相關標簽