您好,登錄后才能下訂單哦!
這篇文章主要介紹了java爬蟲框架webmagic包含什么組件,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
1. 簡單,只需理解基本的概念,就可以編寫適合于各種情況的應用程序;2. 面向對象;3. 分布性,Java是面向網絡的語言;4. 魯棒性,java提供自動垃圾收集來進行內存管理,防止程序員在管理內存時容易產生的錯誤。;5. 安全性,用于網絡、分布環境下的Java必須防止病毒的入侵。6. 體系結構中立,只要安裝了Java運行時系統,就可在任意處理器上運行。7. 可移植性,Java可以方便地移植到網絡上的不同機器。8.解釋執行,Java解釋器直接對Java字節碼進行解釋執行。
在java爬蟲中,Spider是一個大的容器,也是java爬蟲框架webmagic的核心。java爬蟲框架webmagic有四個組件,這四個組件它也是由通過Spider啟動和管理。本文介紹java爬蟲中支撐WebMagic框架運行的四個組件:PageProcessor、Scheduler、Downloader和Pipeline。
一、WebMagic框架
WebMagic是一個開源的Java爬蟲框架,目標是簡化爬蟲的開發流程,讓開發者專注于邏輯功能的開發。
WebMagic框架的核心非常簡單,但是覆蓋爬蟲的整個流程,也是很好的學習爬蟲開發的材料。
二、WebMagic框架組件
包含四個組件:PageProcessor、Scheduler、Downloader和Pipeline。
四大組件由Spider將它們彼此組織起來,讓它們可以互相交互,流程化的執行。
1、PageProcessor
對應爬蟲生命周期中的處理功能,負責解析頁面,抽取有用信息,以及發現新的鏈接。需要自己定義。
注意:對于每個站點每個頁面都不一樣,是需要使用者定制的部分。
2、Scheduler
這四大組件對應爬蟲生命周期中的管理功能,負責管理待抓取的URL,以及一些去重的工作。
注意:除非項目有一些特殊的分布式需求,否則一般無需自己定制Scheduler。
3、Pipeline
對應爬蟲生命周期中的持久化功能,負責抽取結果的處理,包括計算、持久化到文件、數據庫等。
注意:對于一類需求一般只需編寫一個Pipeline。
4、Downloader
對應爬蟲生命周期中的下載功能,負責從互聯網上下載頁面,以便后續處理。
注意:一般無需自己實現。
感謝你能夠認真閱讀完這篇文章,希望小編分享的“java爬蟲框架webmagic包含什么組件”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關注億速云行業資訊頻道,更多相關知識等著你來學習!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。