您好,登錄后才能下訂單哦!
零基礎學習Hadoop該如何下手,很多同學是通過學習hadoop來學習大數據的,學習資料可能是以圖書為主要參考方向,《hadoop權威指南》的確是一本很好的入門大數據圖書,但大數據系統本身是分布式系統,所以我以為分布式系統的相關概念才是掌握大數據各類框架、知識的基礎。
1?入門:
hadoop框架是集存儲(hdfs)、計算(mr計算模型)、資源管理(yarn)等于一體的綜合框架,當然它是一個歷史的階段產物,刨除此因我們來看看大家所熟知的wordcount的具體做法(mr)是什么場景下如何進行計算的?
1-1?分布式系統
首先wordcount程序放到傳統單機模式下也可以處理,這里大家一定會想到多線程、文件切割等實現方式,簡單來說并行計算的想法由來已久,隨著硬件的不斷進步、性能不斷提升,多核計算也已發展多年了,與此同時這個世界產生的數據更是增長飛速,那么原來單機下多任務多線程的計算方式與其后的多核并行都遇到了一個處理速度與處理數據間嚴重不匹配的問題,如何提高計算能力是發展的必然,那么集群方式解決了計算資源水平擴展的能力并同時具有并行性,這是目前的核心思想,我們可以理解目前的集群(一個黑盒子)類比于傳統單機方式,集群中的節點間并行計算涉及到了主從架構、集群管理、消息通訊、容錯處理等等方面,然后這些都是分布式系統所要考慮和解決的問題,因為它本身就是分布式系統。
1-2?分布式存儲
剛才簡單提到了分布式系統,說到了計算方面,其實還有一個隱含的問題是要計算必須有數據,必然涉及到存儲,所以存儲才是根本,那么如何使用分布式存儲系統(hdfs)就必須了解其的組成部分(如什么是塊、文件系統、分布式文件系統)、使用方式(讀寫HDFS),但由于大部分同學都是相對熟悉關系型數據庫及它的使用方式SQL,這些都是應用層面的事情具體底層的各種情況并不了解,或者沒有參與數據庫軟件的開發、對于文件類的學習工作經驗相對較少,對其中提到的文件IO操作、序列化、壓縮、內置或自定義文件讀寫格式、讀寫方式有種陌生,因為hdfs本質是文件系統。
1-3?分布式計算
mr計算模型也是之前接觸較少,沒有具體的實際經驗感受,比如mr具體能做什么、什么場景下使用等等,因為之前大家接觸的是OLTP(聯機事務處理【OLTP Online Transaction Processing】
聯機事務處理,表示事務性非常高的系統,一般都是高可用的在線系統,以小的事務以及小的查詢為主,以傳統的關系型數據庫為主要應用,主要是基本的、日常的事務處理,主要為業務數據,例如銀行交易)操作,而大數據起初是用來進行數據挖掘的它更多的是一個OLAP(聯機分析處理【OLAP Online Analytical Processing】:
?
聯機分析處理,有的時候也叫DSS決策支持系統,就是我們說的數據倉庫,重點主要是面向分析,會產生大量的查詢,一般很少涉及增刪改。)操作,mr計算模型的map操作和reduce操作是我們經常遇到的需求,map操作負責數據清洗、轉換,reduce操作負責數據聚合,同時sql里的select子句和group by子句不也對應了這類實際需求嗎,只是方式方法不同而已。
?
?
2?進階
?
2-1?建議以分布式系統的角度來看待大數據中的各類框架,了解下分布式理論如CAP理論、主從架構方式等等
?
2-2?當然由于這些框架所處理的不是同一方向的問題,所以我們首先框架分類,參考如下
技術架構
?
```
1?數據采集:flume、logstash
2?數據存儲:hdfs、hbase、alluxio、es、neo4j、janusGraph、redis、mongodb、tidb
3?數據計算:hive、impala、spark、flink、druid
4?數據通道:kafka、pulsar
5?任務調度:azkaban、airflow
6?多維數據模型
7?數據同步:sqoop、datax、canal
8?數據格式:parquet?、orc?、csv?、json
9?協調服務:zookeeper
10?監控:zabbix、prometheus
?
3?推薦
?
3.1?大數據的各類框架 官網永遠是第一手資源,一定要看
?
3.2?大量的公眾號、stackoverflow、github等
?
3.3 google查詢資源
?
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。