91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

大數據分析查詢引擎Impala的原理及用法是什么

發布時間:2021-12-28 14:12:08 來源:億速云 閱讀:266 作者:柒染 欄目:大數據

大數據分析查詢引擎Impala的原理及用法是什么,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。

一、Impala概述

準實時分析系統Impala,提供SQL語義,能夠為存儲在Hadoop的HDFS和Hbase中的PB級大數據提供快速、交互式的SQL查詢。傳統倉庫查詢工具Hive底層是基于MapReduce引擎處理,是一個批處理過程,難以滿足快速響應的查詢,而Impala是基于MPP的查詢系統,最大特點就是快速。

二、Impala組件構成

大數據分析查詢引擎Impala的原理及用法是什么

Impala由以下的組件組成:

1、Clients:Hue、ODBC clients、JDBC clients和Impala Shell都可以與Impala進行交互,這些接口都可以用在Impala的數據查詢以及對Impala的管理。

2、Hive Metastore: 存儲Impala可訪問數據的元數據。例如,這些元數據可以讓Impala知道哪些數據庫以及數據庫的結構是可以訪問的,當你創建、刪除、修改數據庫對象或者加載數據到數據表里面,相關的元數據變化會自動通過廣播的形式通知所有的Impala節點,這個通知過程由catalog service完成。

3、Cloudera Impala: Impala的進程運行在各個數據節點(Datanode)上面。每一個Impala的實例都可以從Impala client端接收查詢,進而產生執行計劃、協調執行任務。數據查詢分布在各個Impala節點上,這些節點作為worker,并行執行查詢。

4、HBase和HDFS: 存儲用于查詢的數據。

三、Impala 系統架構

Impala整體分為兩部分 StateStore 和 Impalad。

StateStore是Impala的子服務,用來監控集群中各個節點的健康狀況,提供節點注冊,錯誤檢測等功能。

Impalad是運行在集群每個節點的守護進程,主要有兩個作用,一個是協調Client提交的Query的執行,給其他Impalad分配任務,收集其他Impalad的執行結果進行匯總,二是這個Impalad也會執行其他Impalad給分配的任務,執行這部分任務主要就是對本地HDFS和Hbase里的部分數據進行操作。

四、Impala 查詢處理流程

大數據分析查詢引擎Impala的原理及用法是什么

1、三類客戶端可與Impala進行交互:

基于驅動程序客戶端ODBC driver 和 JDBC driver

Hue接口,可以通過Hue Beeswax接口來與Impala進行交互

Impala shell 命令行

2、Impala使用Hive Metastore來存在元數據,Impala會在HDFS集群的DataNode上啟動進程,協調位于集群上的多個Impala進程(即Impalad)執行查詢,在Impala架構中,每個Impala節點都可以接收來自客戶端的查詢請求,然后負責解析查詢,生產查詢計劃,并進行優化,協調查詢請求在多個impalad上并行處理,最終有負責接收請求的impala節點匯總結果,響應客戶端。

五、Impala和Hive的關系和對比

1、Hive適合長時間的批處理查詢分析,而Impala適合于實時交互式SQL查詢。

2、Hive是基于MapReduce進行并行計算,而Impala把整個查詢分析成一個執行計劃樹,而不是一連串的MapReduce任務,他使用與商用并行關系數據庫MPP中類似的查詢機制。

3、Impala速度快于Hive,原因在于Impala不需要把中間結果寫入磁盤,省掉了大量的I/O開銷,Impala省掉了MapReduce作業啟動的開銷。

4、Impala適合用來處理輸出數據適中或比較小的且對響應時間有要求的查詢,而對于大數據量的批處理任務,MapReduce依然是更好的選擇。

5、Impala可以與Hive配合使用,比如先使用Hive對數據進行轉換處理,然后使用Impala對處理后的數據進行快速數據分析。

六、Impala與Presto 比較

共同點就是吃內存,當然在內存充足的情況下,并且有規模適當的集群,性能應該會更可觀,Impala性能稍領先于presto,但是presto在數據源支持上非常豐富,包括hive、圖數據庫、傳統關系型數據庫Redis等。

七、impala presto SparkSql性能測試對比

impala與presto性能相當,SparkSql遜色不少

看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注億速云行業資訊頻道,感謝您對億速云的支持。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

兴山县| 格尔木市| 海原县| 长乐市| 福建省| 黎川县| 门头沟区| 贵德县| 南丹县| 浮山县| 白水县| 姜堰市| 基隆市| 烟台市| 谢通门县| 顺昌县| 康乐县| 永年县| 西乌珠穆沁旗| 肥东县| 子长县| 平塘县| 元朗区| 平利县| 石渠县| 旌德县| 舒兰市| 延川县| 吉安市| 阳原县| 白水县| 休宁县| 凉山| 雷波县| 嘉荫县| 读书| 瓮安县| 通榆县| 克什克腾旗| 武功县| 新沂市|