Hive中Map端JOIN的示例分析

發布時間：2022-03-11 13:53:52 來源：億速云閱讀：158 作者：小新欄目：移動開發

小編給大家分享一下Hive中Map端JOIN的示例分析，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

Map端JOIN

map端join適用于當一張表很小(可以存在內存中)的情況，即可以將小表加載至內存。Hive從0.7開始支持自動轉為map端join，具體配置如下：

SET hive.auto.convert.join=true; --  hivev0.11.0之后默認true
SET hive.mapjoin.smalltable.filesize=600000000; -- 默認 25m
SET hive.auto.convert.join.noconditionaltask=true; -- 默認true，所以不需要指定map join hint
SET hive.auto.convert.join.noconditionaltask.size=10000000; -- 控制加載到內存的表的大小

一旦開啟map端join配置，Hive會自動檢查小表是否大于hive.mapjoin.smalltable.filesize配置的大小，如果大于則轉為普通的join，如果小于則轉為map端join。

關于map端join的原理，如下圖所示：

Hive中Map端JOIN的示例分析

首先，Task A(客戶端本地執行的task)負責讀取小表a，并將其轉成一個HashTable的數據結構，寫入到本地文件，之后將其加載至分布式緩存。

然后，Task B任務會啟動map任務讀取大表b，在Map階段，根據每條記錄與分布式緩存中的a表對應的hashtable關聯，并輸出結果

注意：map端join沒有reduce任務，所以map直接輸出結果，即有多少個map任務就會產生多少個結果文件。

以上是“Hive中Map端JOIN的示例分析”這篇文章的所有內容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內容對大家有所幫助，如果還想學習更多知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Hive中Map端JOIN的示例分析

Map端JOIN

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Hive中Map端JOIN的示例分析

Map端JOIN

猜你喜歡

最新資訊

相關推薦

相關標簽