您好,登錄后才能下訂單哦!
【導讀】數據采集是進行大數據分析的前提也是必要條件,在整個流程中占據重要地位。本文將介紹大數據三種采集形式:系統日志采集法、網絡數據采集法以及其他數據采集法。
(一)系統日志采集法
系統日志是記錄系統中硬件、軟件和系統問題的信息,同時還可以監視系統中發生的事件。用戶可以通過它來檢查錯誤發生的原因,或者尋找受到***時***者留下的痕跡。系統日志包括系統日志、應用程序日志和安全日志。(百度百科)大數據平臺或者說類似于開源Hadoop平臺會產生大量高價值系統日志信息,如何采集成為研究者研究熱點。目前基于Hadoop平臺開發的Chukwa、Cloudera的Flume以及Facebook的Scribe(李聯寧,2016)均可成為是系統日志采集法的典范。目前此類的采集技術大約可以每秒傳輸數百MB的日志數據信息,滿足了目前人們對信息速度的需求。一般而言與我們相關的并不是此類采集法,而是網絡數據采集法。
在這里還是要推薦下我自己建的大數據學習交流群:529867072,群里都是學大數據開發的,如果你正在學習大數據 ,小編歡迎你加入,大家都是軟件開發黨,不定期分享干貨(只有大數據軟件開發相關的),包括我自己整理的一份最新的大數據進階資料和高級開發教程,歡迎進階中和進想深入大數據的小伙伴加入。
(二)網絡數據采集法
做自然語言的同學可能對這點感觸頗深,除了目前已經存在的公開數據集,用于日常的算法研究外,有時為了滿足項目的實際需求,需要對現實網頁中的數據進行采集,預處理和保存。目前網絡數據采集有兩種方法一種是API,另一種是網絡爬蟲法。
1.API
API又叫應用程序接口,是網站的管理者為了使用者方面,編寫的一種程序接口。該類接口可以屏蔽網站底層復雜算法僅僅通過簡簡單單調用即可實現對數據的請求功能。目前主流的社交媒體平臺如新浪微博、百度貼吧以及Facebook等均提供API服務,可以在其官網開放平臺上獲取相關DEMO。但是API技術畢竟受限于平臺開發者,為了減小網站(平臺)的負荷,一般平臺均會對每天接口調用上限做限制,這給我們帶來極大的不便利。為此我們通常采用第二種方式——網絡爬蟲。
2.網絡爬蟲
網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOFA社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。(百度百科)最常見的爬蟲便是我們經常使用的搜索引擎,如百度,360搜索等。此類爬蟲統稱為通用型爬蟲,對于所有的網頁進行無條件采集。通用型爬蟲具體工作原理見圖1。
圖1 爬蟲工作原理[2]
給予爬蟲初始URL,爬蟲將網頁中所需要提取的資源進行提取并保存,同時提取出網站中存在的其他網站鏈接,經過發送請求,接收網站響應以及再次解析頁面,提取所需資源并保存,再將網頁中所需資源進行提取......以此類推,實現過程并不復雜,但是在采集時尤其注意對IP地址,報頭的偽造,以免被網管發現禁封IP(我就被封過),禁封IP也就意味著整個采集任務的失敗。當然為了滿足更多需求,多線程爬蟲,主題爬蟲也應運而生。多線程爬蟲是通過多個線程,同時執行采集任務,一般而言幾個線程,數據采集數據就會提升幾倍。主題爬蟲和通用型爬蟲截然相反,通過一定的策略將于主題(采集任務)無關的網頁信息過濾,僅僅留下需要的數據。此舉可以大幅度減少無關數據導致的數據稀疏問題。
(三)其他采集法
其他采集法是指對于科研院所,企業政府等擁有機密信息,如何保證數據的安全傳遞?可以采用系統特定端口,進行數據傳輸任務,從而減少數據被泄露的風險。
【結語】大數據采集技術是大數據技術的開端,好的開端是成功的一半,因此在做數據采集時一定要謹慎選擇方法,尤其是爬蟲技術,主題爬蟲應該是對于大部分數據采集任務而言是較好的方法,可以深入研究。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。