您好,登錄后才能下訂單哦!
這篇文章將為大家詳細講解有關如何解析Spark運行模式,文章內容質量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關知識有一定的了解。
1.1 簡介
Spark是一種基于內存的快遞、通用、可擴展的大數據分析引擎。
1.2 spark內置模塊:
1.3 Spark的兩個重要角色:
Driver(驅動器):負責管理調度任務
Executor(執行器):負責執行具體的任務
Local模式:運行在一臺機器上,通常是練手或者測試環境。
Standalone:構建一個基于 Mster+Slaves 的資源調度集群,Spark 任務提交給 Master運行。是 Spark 自身的一個調度系統,不依賴Yarn等其他框架。
Yarn: Spark 客戶端直接連接 Yarn,不需要額外構建 Spark 集群。有 yarn-client 和yarn-cluster 兩種模式,主要區別在于:Driver 程序的運行節點。
yarn-client:Driver程序運行在客戶端,適用于交互、調試,希望立即看到app的輸出。
yarn-cluster:Driver程序運行在由RM(ResourceManager)啟動的AP(APPMaster)適用于生產環境。
Mesos:國內大環境比較少用。
幾種模式的對比:
3.1 Spark-Wordcount基本思路
文件加載load:加載文件
扁平化:將句子分割成一個一個的單詞;
分組:將相同的單詞放到一個組里面;
聚合:統計每個組里成員的數量;
(上述過程是左圖的簡化過程,不太準確,按照下面的步驟來記憶;右圖才是準確的過程)
3.2 Wordcount代碼實現
相關方法說明:
TextFile:用于加載文件;
FlatMap:用于扁平化處理,單詞切分;
Map:將每一個單詞映射為元祖;
ReduceByKey:按照key進行分組聚合;
3.3 Wordcount過程圖示
4.1 概述
Spark客戶端直接連接Yarn,不需要額外構建Spark集群。有yarn-client和yarn-cluster兩種模式,主要區別在于:Driver程序的運行節點。
yarn-client:Driver程序運行在客戶端,適用于交互、調試,希望立即看到app的輸出
yarn-cluster:Driver程序運行在由RM(ResourceManager)啟動的AP(APPMaster)適用于生產環境。
4.2 Yarn運行模式(重點)
要清晰知道每一步的過程。
兩張圖結合起來一起看
就是只用spark自己的東西,不用Yarn等其他的框架。
5.1 概述
構建一個由Master+Slave構成的Spark集群,Spark運行在集群中。
5.2 Standalone模式
Master相當于Yarn中的RM;
Worker相當于Yarn中的NM;
關于如何解析Spark運行模式就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。