基于CDP7.1.1的Spark3.0技術預覽版本分析是怎樣的

發布時間：2021-12-09 16:07:38 來源：億速云閱讀：138 作者：柒染欄目：大數據

本篇文章給大家分享的是有關基于CDP7.1.1的Spark3.0技術預覽版本分析是怎樣的，小編覺得挺實用的，因此分享給大家學習，希望大家閱讀完這篇文章后可以有所收獲，話不多說，跟著小編一起來看看吧。

以下是Spark3的關鍵新特性：

1.Spark3的TPC-DS性能進一步提升；

2.語言支持

a)Scala version is upgraded to 2.12

b)JDK11 is fully supported.

c)Python3.6+ is supported. Python 2 and Python 3 prior to version 3.6 are deprecated

3.Adaptive execution of Spark SQL

a)對于AQE而言，最重要的問題就是什么時候去重新計算優化執行計劃。Spark任務的算子如果管道排列，依次并行執行。然而，shuffle或者broadcast exchange會打斷算子的排列執行，我們稱其為物化點（Materialization Points），并且用"Query Stages"來代表那些被物化點所分割的小片段。每個Query Stage會產出中間結果，當且僅當該stage及其并行的所有stage都執行完成后，下游的Query Stage才能被執行。所以當上游部分stage執行完成，partitions的統計數據也獲取到了，并且下游還未開始執行，這就給AQE提供了reoptimization的機會。在查詢開始時，生成完了執行計劃，AQE框架首先會找到并執行那些不存在上游的stages。一旦這些stage有一個或多個完成，AQE框架就會將其在physical plan中標記為完成，并根據已完成的stages提供的執行數據來更新整個logical plan。基于這些新產出的統計數據，AQE框架會執行optimizer，根據一系列的優化規則來進行優化；AQE框架還會執行生成普通physical plan的optimizer以及自適應執行專屬的優化規則，例如分區合并、數據傾斜處理等。于是，我們就獲得了最新優化過的執行計劃和一些已經執行完成的stages，至此為一次循環。接著我們只需要繼續重復上面的步驟，直到整個query都跑完。

基于CDP7.1.1的Spark3.0技術預覽版本分析是怎樣的

4.Dynamic Partition Pruning (DPP)

a)Spark 3.0引入了動態分區裁剪功能，這是SQL分析工作負載的一項重大性能改進。DPP背后的想法是將維度表上的篩選器集直接應用到事實表上，以便跳過掃描不需要的分區。DPP的優化是在邏輯計劃優化和物理計劃上實現的。它大大增強了許多TPC-DS查詢的速度，并且可以很好的適應星型模型，而無需對表進行反范式化(Denormalization)。

基于CDP7.1.1的Spark3.0技術預覽版本分析是怎樣的

5.Binary files data source

a)Spark 3.0支持二進制文件數據源。它可以讀取二進制文件，并將每個文件轉換為包含文件原始內容和元數據的一行。

6.DataSource V2 Improvements

a)Pluggable catalog integration

b)改進謂詞下推功能，可通過減少數據加載來加快查詢速度

7.YARN Features

a)Spark 3.0可以自動在YARN集群上發現GPU，并將任務調度到指定的GPU節點。

8.Kafka connector delegation token (0.10+)

a)對應用只需要配置Spark的參數就可以完成認證登錄，而不是非需要使用JAAS配置登錄。

該試驗版本不支持以下組件：

Hive Warehouse Connector
Kudu
HBase Connector
Oozie
Livy
Zeppelin

以上就是基于CDP7.1.1的Spark3.0技術預覽版本分析是怎樣的，小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

基于CDP7.1.1的Spark3.0技術預覽版本分析是怎樣的

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

基于CDP7.1.1的Spark3.0技術預覽版本分析是怎樣的

猜你喜歡

最新資訊

相關推薦

相關標簽