91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

java爬蟲框架webmagic包含什么組件

發布時間:2021-04-27 14:06:27 來源:億速云 閱讀:259 作者:小新 欄目:編程語言

這篇文章主要介紹了java爬蟲框架webmagic包含什么組件,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

Java的優點是什么

1. 簡單,只需理解基本的概念,就可以編寫適合于各種情況的應用程序;2. 面向對象;3. 分布性,Java是面向網絡的語言;4. 魯棒性,java提供自動垃圾收集來進行內存管理,防止程序員在管理內存時容易產生的錯誤。;5. 安全性,用于網絡、分布環境下的Java必須防止病毒的入侵。6. 體系結構中立,只要安裝了Java運行時系統,就可在任意處理器上運行。7. 可移植性,Java可以方便地移植到網絡上的不同機器。8.解釋執行,Java解釋器直接對Java字節碼進行解釋執行。

在java爬蟲中,Spider是一個大的容器,也是java爬蟲框架webmagic的核心。java爬蟲框架webmagic有四個組件,這四個組件它也是由通過Spider啟動和管理。本文介紹java爬蟲中支撐WebMagic框架運行的四個組件:PageProcessor、Scheduler、Downloader和Pipeline。

一、WebMagic框架

WebMagic是一個開源的Java爬蟲框架,目標是簡化爬蟲的開發流程,讓開發者專注于邏輯功能的開發。

WebMagic框架的核心非常簡單,但是覆蓋爬蟲的整個流程,也是很好的學習爬蟲開發的材料。

二、WebMagic框架組件

包含四個組件:PageProcessor、Scheduler、Downloader和Pipeline。

四大組件由Spider將它們彼此組織起來,讓它們可以互相交互,流程化的執行。

1、PageProcessor 

對應爬蟲生命周期中的處理功能,負責解析頁面,抽取有用信息,以及發現新的鏈接。需要自己定義。

注意:對于每個站點每個頁面都不一樣,是需要使用者定制的部分。

2、Scheduler 

這四大組件對應爬蟲生命周期中的管理功能,負責管理待抓取的URL,以及一些去重的工作。

注意:除非項目有一些特殊的分布式需求,否則一般無需自己定制Scheduler。

3、Pipeline 

對應爬蟲生命周期中的持久化功能,負責抽取結果的處理,包括計算、持久化到文件、數據庫等。

注意:對于一類需求一般只需編寫一個Pipeline。

4、Downloader 

對應爬蟲生命周期中的下載功能,負責從互聯網上下載頁面,以便后續處理。

注意:一般無需自己實現。

感謝你能夠認真閱讀完這篇文章,希望小編分享的“java爬蟲框架webmagic包含什么組件”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關注億速云行業資訊頻道,更多相關知識等著你來學習!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

林甸县| 阿图什市| 墨竹工卡县| 南丰县| 罗城| 麻栗坡县| 双辽市| 壶关县| 香河县| 彩票| 南丹县| 常德市| 衡阳市| 沧州市| 柳林县| 贵德县| 正阳县| 温泉县| 石狮市| 旅游| 泰兴市| 南投市| 阳谷县| 聂拉木县| 体育| 霍林郭勒市| 钦州市| 县级市| 汾阳市| 叶城县| 略阳县| 平南县| 于都县| 星子县| 远安县| 杭锦旗| 红河县| 孟州市| 伊川县| 新民市| 安宁市|