91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

hive組件能提供什么服務

發布時間:2022-11-18 14:06:36 來源:億速云 閱讀:184 作者:iii 欄目:大數據

本篇內容介紹了“hive組件能提供什么服務”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!

hive組件可提供的服務:1、把SQL語句轉化成mapreduce代碼;2、可以對數據進行存儲,存儲使用 HDFS;3、可以對數據進行計算,計算使用MapReduce。hive是基于Hadoop的一個數據倉庫工具,用來進行數據提取、轉化、加載;hive數據倉庫工具能將結構化的數據文件映射為一張數據庫表,并提供SQL查詢功能,能將SQL語句轉變成MapReduce任務來執行。

在搭建數據倉庫時,Hive組件在其中發揮了非常關鍵的作用,我們知道Hive是一個基于Hadoop的重要數據倉庫工具,但具體如何應用則需要我們進一步進行探索。


Hive是什么

hive是基于Hadoop的一個數據倉庫工具,用來進行數據提取、轉化、加載,這是一種可以存儲、查詢和分析存儲在Hadoop中的大規模數據的機制。hive數據倉庫工具能將結構化的數據文件映射為一張數據庫表,并提供SQL查詢功能,能將SQL語句轉變成MapReduce任務來執行。Hive的優點是學習成本低,可以通過類似SQL語句實現快速MapReduce統計,使MapReduce變得更加簡單,而不必開發專門的MapReduce應用程序。hive十分適合對數據倉庫進行統計分析

Hive用來做什么

1.把SQL語句轉化成mapreduce代碼
2.可以對數據進行存儲 存儲使用 HDFS
3.可以對數據進行計算 計算使用 MapReduce

Hive的優勢是什么

a.Hive的優點

(1)簡單容易上手:提供了類SQL查詢語言HQL

(2)可擴展:為超大數據集設計了計算/擴展能力(MR作為計算引擎,HDFS作為存儲系統)

一般情況下不需要重啟服務Hive可以自由的擴展集群的規模。

(3)提供統一的元數據管理

(4)延展性:Hive支持用戶自定義函數,用戶可以根據自己的需求來實現自己的函數

(5)容錯:良好的容錯性,節點出現問題SQL仍可完成執行

b.Hive的缺點

(1)hive的HQL表達能力有限

  • 1)迭代式算法無法表達,比如pagerank

  • 2)數據挖掘方面,比如kmeans

(2)hive的效率比較低

  • 1)hive自動生成的mapreduce作業,通常情況下不夠智能化

  • 2)hive調優比較困難,粒度較粗

  • 3)hive可控性差

(3)Hive不支持事物。主要用作OLAP(聯機分析處理)

hive組件能提供什么服務

1) Hive 處理的數據存儲在 HDFS

2) Hive 分析數據底層的默認實現是 MapReduce

3) 執行程序運行在 Yarn 上

總結:相當于是hadoop的一個客戶端的作用。

為什么用Hive

(1)Hive與傳統數據庫的比較

hive組件能提供什么服務

Hive用于海量數據的離線數據分析。Hive具有sql數據庫的外表,但應用場景完全不同,Hive只適合用來做批量數據統計分析。

(2)Hive的優勢

Hive利用HDFS存儲數據,利用MapReduce查詢分析數據。因為直接使用Hadoop MapReduce處理數據,會面臨人員學習成本太高的問題,而且MapReduce實現復雜查詢邏輯開發難度太大。而使用Hive,操作接口采用類SQL語法,提供快速開發的能力的同時還避免了去寫MapReduce,從而減少開發人員的學習成本,功能擴展更加方便。

Hive解決了什么問題

Hive解決了大數據的查詢功能,讓不會寫MR的人也能使用MR,它的本質就是將HQL轉換為MR. 它的底層走的是MR,寫MR效率低,而且痛苦,Hive的出現就為JAVAEE的兄弟帶來了捷徑和福音.

Hive 架構原理

hive組件能提供什么服務

1. 用戶接口: Client

CLI(hive shell)、 JDBC/ODBC(java 訪問 hive)、 WEBUI(瀏覽器訪問 hive)

2. 元數據: Metastore

元數據包括:表名、表所屬的數據庫(默認是 default)、表的擁有者、列/分區字段、表

的類型(是否是外部表)、表的數據所在目錄等;

元數據: Metastore

元數據包括:表名、表所屬的數據庫(默認是 default)、表的擁有者、列/分區字段、表

的類型(是否是外部表)、表的數據所在目錄等;

默認存儲在自帶的 derby 數據庫中,推薦使用 MySQL 存儲 Metastore。

3. Hadoop

使用 HDFS 進行存儲,使用 MapReduce 進行計算。

4. 驅動器: Driver

(1)解析器(SQL Parser):將 SQL 字符串轉換成抽象語法樹 AST,這一步一般都用

第三方工具庫完成,比如 antlr;對 AST 進行語法分析,比如表是否存在、字段是否存

在、 SQL 語義是否有誤。

(2)編譯器(Physical Plan):將 AST 編譯生成邏輯執行計劃。

(3)優化器(Query Optimizer):對邏輯執行計劃進行優化。

(4)執行器(Execution):把邏輯執行計劃轉換成可以運行的物理計劃。對于 Hive 來

說,就是 MR/Spark。

hive組件能提供什么服務

Hive 是建立在 Hadoop 之上的,所有 Hive 的數據都是存儲在 HDFS 中的。而數據庫則

可以將數據保存在塊設備或者本地文件系統中。

由于 Hive 是針對數據倉庫應用設計的,而數據倉庫的內容是讀多寫少的。 因此, Hive

中不建議對數據的改寫,所有的數據都是在加載的時候確定好的。而數據庫中的數據通常是

需要經常進行修改的,因此可以使用INSERT INTO … VALUES 添加數據,使用UPDATE … SET 修改數據。

Hive 和數據庫比較

由于 Hive 采用了類似 SQL 的查詢語言 HQL(Hive Query Language),因此很容易將 Hive 理解為數據庫。其實從結構上來看, Hive 和數據庫除了擁有類似的查詢語言,再無類似之處。本節將從多個方面來闡述 Hive 和數據庫的差異。數據庫可以用在 Online 的應用中,但是 Hive 是為數據倉庫而設計的,清楚這一點,有助于從應用角度理解 Hive 的特性。

1、查詢語言
由于 SQL 被廣泛的應用在數據倉庫中,因此,專門針對 Hive 的特性設計了類 SQL 的查詢語言 HQL。熟悉 SQL 開發的開發者可以很方便的使用 Hive 進行開發。

2、數據存儲位置Hive 是建立在 Hadoop 之上的,所有 Hive 的數據都是存儲在 HDFS 中的。而數據庫則可以將數據保存在塊設備或者本地文件系統中。

3 、數據更新:由于 Hive 是針對數據倉庫應用設計的,而數據倉庫的內容是讀多寫少的。 因此, Hive中不建議對數據的改寫,所有的數據都是在加載的時候確定好的。 而數據庫中的數據通常是需 要 經 常 進 行 修 改 的 , 因 此 可 以 使 用 INSERT INTO … VALUES 添 加 數 據 , 使用 UPDATE … SET 修改數據。

4 、索引:Hive 在加載數據的過程中不會對數據進行任何處理,甚至不會對數據進行掃描,因此也沒有對數據中的某些 Key 建立索引。 Hive 要訪問數據中滿足條件的特定值時,需要暴力掃描整個數據,因此訪問延遲較高。由于 MapReduce 的引入, Hive 可以并行訪問數據,因此即使沒有索引,對于大數據量的訪問, Hive 仍然可以體現出優勢。數據庫中,通常會針對一個或者幾個列建立索引,因此對于少量的特定條件的數據的訪問,數據庫可以有很高的效率,較低的延遲。由于數據的訪問延遲較高,決定了 Hive 不適合在線數據查詢。

5、 執行:Hive 中大多數查詢的執行是通過 Hadoop 提供的 MapReduce 來實現的。而數據庫通常有自己的執行引擎。

6、執行延遲:Hive 在查詢數據的時候,由于沒有索引,需要掃描整個表,因此延遲較高。另外一個導致 Hive 執行延遲高的因素是 MapReduce 框架。由于 MapReduce 本身具有較高的延遲,因此在利用 MapReduce 執行 Hive 查詢時,也會有較高的延遲。相對的,數據庫的執行延遲較低。當然,這個低是有條件的,即數據規模較小,當數據規模大到超過數據庫的處理能力的時候, Hive 的并行計算顯然能體現出優勢。

7 、可擴展性:由于 Hive 是建立在 Hadoop 之上的,因此 Hive 的可擴展性是和 Hadoop 的可擴展性是一致的(世界上最大的 Hadoop 集群在 Yahoo!, 2009 年的規模在 4000 臺節點左右)。而數據庫由于 ACID 語義的嚴格限制,擴展行非常有限。目前最先進的并行數據庫 Oracle 在理論上的擴展能力也只有 100 臺左右。

8、 數據規模:由于 Hive 建立在集群上并可以利用 MapReduce 進行并行計算,因此可以支持很大規模的數據;對應的,數據庫可以支持的數據規模較小。

“hive組件能提供什么服務”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

黑山县| 穆棱市| 莱芜市| 大连市| 延寿县| 四平市| 连州市| 太湖县| 银川市| 池州市| 拉萨市| 康保县| 平武县| 中西区| 东海县| 铜陵市| 灵宝市| 古丈县| 凤冈县| 绥阳县| 崇左市| 息烽县| 彝良县| 揭阳市| 乐昌市| 古田县| 蒙阴县| 藁城市| 迭部县| 浏阳市| 永泰县| 屏东县| 中山市| 新乡市| 永平县| 阿拉善盟| 弥渡县| 兴安盟| 平江县| 湟源县| 锡林浩特市|