91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Spark SQL解析查詢parquet格式Hive表獲取分區字段和查詢條件的示例分析

發布時間:2021-12-17 09:28:46 來源:億速云 閱讀:520 作者:柒染 欄目:大數據

這篇文章給大家介紹Spark SQL解析查詢parquet格式Hive表獲取分區字段和查詢條件的示例分析,內容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。

首先說一下,這里解決的問題應用場景:
sparksql處理Hive表數據時,判斷加載的是否是分區表,以及分區表的字段有哪些?再進一步限制查詢分區表必須指定分區?
這里涉及到兩種情況:select SQL查詢和加載Hive表路徑的方式。這里僅就"加載Hive表路徑的方式"解析分區表字段,在處理時出現的一些問題及解決作出詳細說明。
如果大家有類似的需求,建議通過解析Spark SQL logical plan和下面說的這種方式解決方案結合,封裝成一個通用的工具。

問題現象

sparksql加載指定Hive分區表路徑,生成的DataSet沒有分區字段。

如,

sparkSession.read.format("parquet").load(s"${hive_path}"),hive_path為Hive分區表在HDFS上的存儲路徑。

hive_path的幾種指定方式會導致這種情況的發生(test_partition是一個Hive外部分區表,dt是它的分區字段,分區數據有dt為20200101和20200102):
1.hive_path  為"/spark/dw/test.db/test_partition/dt=20200101"
2.hive_path為"/spark/dw/test.db/test_partition/*"

因為牽涉到的源碼比較多,這里僅以示例的程序中涉及到的源碼中的class、object和方法,繪制成xmind圖如下,想細心研究的可以參考該圖到spark源碼中進行分析。

Spark SQL解析查詢parquet格式Hive表獲取分區字段和查詢條件的示例分析

問題分析

我這里主要給出幾個源碼段,結合上述xmind圖理解:  

Spark SQL解析查詢parquet格式Hive表獲取分區字段和查詢條件的示例分析

Spark SQL解析查詢parquet格式Hive表獲取分區字段和查詢條件的示例分析

在沒有指定參數basePath的情況下:

1.hive_path為/spark/dw/test.db/test_partition/dt=20200101
sparksql底層處理后得到的basePaths: Set(new Path(“/spark/dw/test.db/test_partition/dt=20200101”))【偽代碼】

leafDirs: Seq(new Path(“/spark/dw/test.db/test_partition/dt=20200101”))【偽代碼】
2.hive_path為/spark/dw/test.db/test_partition/*  
sparksql底層處理后得到的basePaths: Set(new Path(“/spark/dw/test.db/test_partition/dt=20200101”),new Path(“/spark/dw/test.db/test_partition/dt=20200102”))【偽代碼】

leafDirs: Seq(new Path(“/spark/dw/test.db/test_partition/dt=20200101”),new Path(“/spark/dw/test.db/test_partition/dt=20200102”))【偽代碼】
這兩種情況導致源碼if(basePaths.contains(currentPath))為true,還沒有解析分區就重置變量finished為true跳出循環,因此最終生成的結果也就沒有分區字段:

Spark SQL解析查詢parquet格式Hive表獲取分區字段和查詢條件的示例分析

解決方案(親測有效)

1.在Spark SQL加載Hive表數據路徑時,指定參數basePath,如

sparkSession.read.option("basePath","/spark/dw/test.db/test_partition")
2.主要重寫basePaths方法和parsePartition方法中的處理邏輯,同時需要修改其他涉及的代碼。由于涉及需要改寫的代碼比較多,可以封裝成工具    

關于Spark SQL解析查詢parquet格式Hive表獲取分區字段和查詢條件的示例分析就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

淅川县| 丘北县| 永年县| 鸡西市| 保德县| 疏附县| 徐汇区| 原平市| 乐清市| 沧源| 皋兰县| 本溪市| 漾濞| 揭东县| 平阳县| 正定县| 纳雍县| 舒兰市| 屯留县| 麻江县| 临猗县| 新化县| 杂多县| 呼玛县| 岑溪市| 延川县| 尼木县| 辽阳市| 霍林郭勒市| 辽宁省| 衡水市| 搜索| 深水埗区| 贵州省| 吉木乃县| 玉树县| 纳雍县| 图片| 墨竹工卡县| 平顺县| 镶黄旗|