Python爬蟲分類知識點有哪些

發布時間：2022-02-28 15:32:27 來源：億速云閱讀：142 作者：iii 欄目：開發技術

這篇文章主要介紹了Python爬蟲分類知識點有哪些的相關知識，內容詳細易懂，操作簡單快捷，具有一定借鑒價值，相信大家閱讀完這篇Python爬蟲分類知識點有哪些文章都會有所收獲，下面我們一起來看看吧。

一、通用爬蟲

通用網絡爬蟲是搜索引擎抓取系統(Baidu、Google、Sogou等)的一個重要組成部分。主要目的是將互聯網上的網頁下載到本地，形成一個互聯網內容的鏡像備份。為搜索引擎提供搜索支持。

第一步

搜索引擎去成千上萬個網站抓取數據。

第二步

搜索引擎通過爬蟲爬取到的網頁，將數據存入原始頁面數據庫(也就是文檔庫)。其中的頁面數據與用戶瀏覽器得到的HTML是完全—樣的。

第三步

搜索引擎將爬蟲抓取回來的頁面，進行各種步驟的預處理:中文分詞，消除噪音，索引處理。。。
搜索引擎在對信息進行組織和處理后，為用戶提供關鍵字檢索服務，將用戶檢索相關的信息展示給用戶。展示的時候會進行排名。

二、搜索引擎的局限性

搜索引擎抓取的是整個網頁，不是具體詳細的信息。
搜索引擎無法提供針對具體某個客戶需求的搜索結果。

聚焦爬蟲

針對通用爬蟲的這些情況，聚焦爬蟲技術得以廣泛使用。聚焦爬蟲，是"面向特定主題需求"的一種網絡爬蟲程序，它與通用搜索引擎爬蟲的區別在于：聚焦爬蟲在實施網頁抓取時會對內容進行處理篩選，盡量保證只抓取與需求相關的網頁數據。

三、Robots協議

robots是網站跟爬蟲間的協議，用簡單直接的txt格式文本方式告訴對應的爬蟲被允許的權限，也就是說robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。當一個搜索蜘蛛訪問一個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在，所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。——百度百科

Robots協議也叫爬蟲協議、機器人協議等，全稱是“網絡爬蟲排除標準”(Robots ExclusionProtocol)，網站通過Robots協議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取，例如:

淘寶: https://www.taobao.com/robots.txt
百度: https://www.baidu.com/robots.txt

四、請求與相應

網絡通信由兩部分組成:客戶端請求消息與服務器響應消息

瀏覽器發送HTTP請求的過程：

1.當我們在瀏覽器輸入URL https://www.baidu.com的時候，瀏覽器發送一個Request請求去
獲取 https://www.baidu.com 的html文件，服務器把Response文件對象發送回給瀏覽器。

2.瀏覽器分析Response中的HTML，發現其中引用了很多其他文件，比如Images文件，CSS文件，JS文件。瀏覽器會自動再次發送Request去獲取圖片，CSS文件，或者JS文件。

3.當所有的文件都下載成功后，網頁會根據HTML語法結構，完整的顯示出來了。

實際上我們通過學習爬蟲技術爬取數據，也是向服務器請求數據,獲取服務器響應數據的過程。

關于“Python爬蟲分類知識點有哪些”這篇文章的內容就介紹到這里，感謝各位的閱讀！相信大家對“Python爬蟲分類知識點有哪些”知識都有一定的了解，大家如果還想學習更多知識，歡迎關注億速云行業資訊頻道。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Python爬蟲分類知識點有哪些

一、通用爬蟲

二、搜索引擎的局限性

三、Robots協議

四、請求與相應

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Python爬蟲分類知識點有哪些

一、通用爬蟲

二、搜索引擎的局限性

三、Robots協議

四、請求與相應

猜你喜歡

最新資訊

相關推薦

相關標簽