您好,登錄后才能下訂單哦!
大數據平臺搭建的層次有哪些,針對這個問題,這篇文章詳細介紹了相對應的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。
大數據分析處理平臺就是整合當前主流的各種具有不同側重點的大數據處理分析框架和工具,實現對數據的挖掘和分析,大數據平臺是隨著大數據技術的發展而逐漸被企業所關注的一個技術,而今天我們就一起來了解一下,大數據平臺搭建都有哪些架構層次。
1、數據傳輸層
Sqoop:支持RDBMS和HDFS之間的雙向數據遷移,通常用于抽取業務數據庫(比如MySQL、SQLServer、Oracle)的數據到HDFS.
Cannal:阿里開源的數據同步工具,通過監聽MySQL binlog,實現增量數據訂閱和近實時同步。
Flume:用于海量日志采集、聚合和傳輸,將產生的數據保存到HDFS或者Hbase中。
Flume+Kafka:滿足實時流式日志的處理,后面再通過Spark Streaming等流式處理技術,可完成日志的實時解析和應用。
2、數據存儲層
HDFS:分布式文件系統,它是分布式計算中數據存儲管理的基礎,是Google GFS的開源實現,可部署在廉價商用機器上,具備高容錯、高吞吐和高擴展性。
Hbase:分布式的、面向列的NoSQL KV數據庫,它是Google BigTable的開源實現,利用HDFS作為其文件存儲系統,適合大數據的實時查詢(比如:IM場景)。
Kudu:折中了HDFS和Hbase的分布式數據庫,既支持隨機讀寫、又支持OLAP分析的大數據存儲引擎(解決Hbase不適合批量分析的痛點)。
3、資源管理層
Yarn:Hadoop的資源管理器,負責Hadoop集群資源的統一管理和調度,為運算程序(MR任務)提供服務器運算資源(CPU、內存),能支持MR、Spark、Flink等多種框架。
Kubernates:由Google開源,一種云平臺的容器化編排引擎,提供應用的容器化管理,可在不同云、不同版本操作系統之間進行遷移。目前,Spark、Storm已經支持K8S。
4、數據計算層
大數據計算引擎決定了計算效率,是大數據平臺最核心的部分,它大致了經歷以下4代的發展,又可以分成離線計算框架和實時計算框架。
5、離線計算框架
MapReduce:面向大數據并行處理的計算模型、框架和平臺(將計算向數據靠攏、減少數據傳輸,這個設計思路非常巧妙)。
Hive:一個數據倉庫工具,能管理HDFS存儲的數據,可以將結構化的數據文件映射為一張數據庫表,并提供完整的SQL查詢功能(實際運行時,是將Hive SQL翻譯成了MapReduce任務),適用離線非實時數據分析。
Spark sql:引入RDD(彈性分布式數據集)這一特殊的數據結構,將SQL轉換成RDD的計算,并將計算的中間結果放在內存中,因此相對于Hive性能更高,適用實時性要求較高的數據分析場景。
6、實時計算框架
Spark Streaming:實時流數據處理框架(按時間片分成小批次,s級延遲),可以接收Kafka、Flume、HDFS等數據源的實時輸入數據,經過處理后,將結果保存在HDFS、RDBMS、Hbase、Redis、Dashboard等地方。
Storm:實時流數據處理框架,真正的流式處理,每條數據都會觸發計算,低延遲(ms級延遲)。
Flink:更高級的實時流數據處理框架,相比Storm,延遲比storm低,而且吞吐量更高,另外支持亂序和調整延遲時間。
7、多維分析層
Kylin:分布式分析引擎,能在亞秒內查詢巨大的Hive表,通過預計算(用空間換時間)將多維組合計算好的結果保存成Cube存儲在Hbase中,用戶執行SQL查詢時,將SQL轉換成對Cube查詢,具有快速查詢和高并發能力。
Druid:適用于實時數據分析的高容錯、高性能開源分布式系統,可實現在秒級以內對十億行級別的表進行任意的聚合分析。
關于大數據平臺搭建的層次有哪些問題的解答就分享到這里了,希望以上內容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關注億速云行業資訊頻道了解更多相關知識。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。