您好,登錄后才能下訂單哦!
這期內容當中小編將會給大家帶來有關大數據技術該怎樣分析,文章內容豐富且以專業的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
數據采集傳輸主要技術
分為兩類,一類是離線批處理、另一類是實時數據采集和傳輸
離線批處理最有名的是Sqoop、實時數據采集和傳輸最為常用的是Flume和Kafka
Sqoop:一款開源的離線數據傳輸工具,主要用于Hadoop(Hive)與傳統數據庫(Mysql、Oracle)之間數據傳遞。
Flume:實時日志采集平臺,一個高可用、高可靠、分布式的海量日志采集、聚合和傳輸的系統。
Kafka:通常來說Flume采集數據的速度與下游處理數據通常不同步,因此實時平臺架構都會用一個消息中間件進行緩沖,這方面使用最廣泛的無疑是Kafka,Kafka是一個分布式消息系統,以其可以水平擴展和高吞吐率而被廣泛使用,是基于消息發布-訂閱系統。和kafka類似的消息中間件產品還包括RabbitMQ、ActiveMQ、ZeroMQ等
數據處理主要技術
MapReduce:運行與大規模集群上的復雜并行計算過程高度抽象為兩個函數:map和reduce。
Hive:是一個建立在Hadoop體系結構上的一層SQL抽象
Spark:具有可伸縮、基于內存計算等特點,可以讀寫Hadoop上任何格式的數據。
Strom:實時數據處理框架,擁有低延遲、分布式、可擴展、高容錯等特征,可以保證消息不丟(diu)失。
Flink:是一個同時面向分布式實時流處理和批量數據處理的開源計算平臺,它能夠基于同一個Flink運行時提供支持流處理和批處理兩種類型應用的功能。
Beam:在Flink基礎上更進一步,不但希望統一批處理和流處理,而且希望統一大數據處理范式和標準。
數據儲存主要技術
HDFS:分布式文件系統。
Hbase:構建在HDFS之上的分布式、面向列族的存儲系統,在需要實時讀寫并隨機訪問超大規模數據集等場景下,Hbase目前是市場上主流的技術選擇。
數據應用技術
Drill:實時大數據分布式查詢引擎,Drill兼容ANSI SQL語法作為接口,支撐對本地文件、HDFS、Hive、HBase、MongeDB作為存儲數據查詢,文件格式支持Parquet、CSV、TSV以及JSON這種無模式數據,所有這些數據都可以像使用傳統數據庫的表查詢一樣進行快速實時查詢。
R:數據分析語言
TensorFlow:基于數據流圖的處理框架,Tensorflow節點表示數據運算,邊表示運算節點之間的數據交互。
上述就是小編為大家分享的大數據技術該怎樣分析了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。