91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Spark筆記整理(二):RDD與spark核心概念名詞

發布時間:2020-07-09 04:14:44 來源:網絡 閱讀:10602 作者:xpleaf 欄目:大數據

[TOC]


Spark RDD

非常基本的說明,下面一張圖就能夠有基本的理解:

Spark筆記整理(二):RDD與spark核心概念名詞

Spark RDD基本說明

1、Spark的核心概念是RDD (resilient distributed dataset,彈性分布式數據集),指的是一個只讀的,可分區的分布式數據集,這個數據集的全部或部分可以緩存在內存中,在多次計算間重用。

2、RDD在抽象上來說是一種元素集合,包含了數據。它是被分區的,分為多個分區,每個分區分布在集群中的不同Worker節點上,從而讓RDD中的數據可以被并行操作。(分布式數據集)

3、RDD通常通過Hadoop上的文件,即HDFS文件或者Hive表,來進行創建;有時也可以通過RDD的本地創建轉換而來。

4、傳統的MapReduce雖然具有自動容錯、平衡負載和可拓展性的優點,但是其最大缺點是采用非循環式的數據流模型,使得在迭代計算式要進行大量的磁盤IO操作(每跑完一個Job,拿到其中間結果后,再跑下一個Job,聯想使用MR做數據清洗的案例)。RDD正是解決這一缺點的抽象方法。RDD最重要的特性就是,提供了容錯性,可以自動從節點失敗中恢復過來。即如果某個節點上的RDD partition,因為節點故障,導致數據丟了,那么RDD會自動通過自己的數據來源重新計算該partition。這一切對使用者是透明的。RDD的lineage特性(類似于族譜,像上面的圖,假如某個partition的數據丟失了,找到其父partition重新計算即可,我稱之為溯源)。

5、RDD的數據默認情況下存放在內存中的,但是在內存資源不足時,Spark會自動將RDD數據寫入磁盤。(彈性)

RDD在Spark中的地位和作用

(1)為什么會有Spark?因為傳統的并行計算模型無法有效的解決迭代計算(iterative)和交互式計算(interactive);而Spark的使命便是解決這兩個問題,這也是他存在的價值和理由。

(2)Spark如何解決迭代計算?其主要實現思想就是RDD,把所有計算的數據保存在分布式的內存中。迭代計算通常情況下都是對同一個數據集做反復的迭代計算,數據在內存中將大大提升IO操作。這也是Spark涉及的核心:內存計算。(一行搞定wc:sc.textFile("./hello").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect.foreach(println),這就是典型的迭代計算了)

(3)Spark如何實現交互式計算?因為Spark是用scala語言實現的,Spark和scala能夠緊密的集成,所以Spark可以完美的運用scala的解釋器,使得其中的scala可以向操作本地集合對象一樣輕松操作分布式數據集。

(4)Spark和RDD的關系?可以理解為:RDD是一種具有容錯性基于內存的集群計算抽象方法,Spark則是這個抽象方法的實現。

Spark常用核心模塊

1、核心模塊開發:離線批處理 Spark Core
2、實時計算:底層也是基于RDD Spark Streaming
3、Spark SQL/Hive:交互式分析
4、Spark Graphx:圖計算
5、Spark Mlib: 數據挖掘和機器學習 

核心概念名詞

大多數應該都要實地寫過spark程序和提交任務到spark集群后才有更好的理解。

  • ClusterManager:在Standalone模式中即為Master(主節點),控制整個集群,監控Worker。在YARN模式中為資源管理器。
  • Worker:從節點,負責控制計算節點,啟動Executor。在YARN模式中為NodeManager,負責計算節點的控制。
  • Driver:運行Application的main()函數并創建SparkContext。
  • Executor:執行器,在worker node上執行任務的組件、用于啟動線程池運行任務。每個Application擁有獨立的一組Executors。
  • SparkContext:整個應用的上下文,控制應用的生命周期。
  • RDD:Spark的基本計算單元,一組RDD可形成執行的有向無環圖RDD Graph。
  • DAG Scheduler:實現將Spark作業分解成一到多個Stage,每個Stage根據RDD的Partition個數決定Task的個數,然后生成相應的Task set放到TaskScheduler中。
  • TaskScheduler:將任務(Task)分發給Executor執行。(所以Executor執行的就是我們的代碼)
  • Stage:一個Spark作業一般包含一到多個Stage。
  • Task:一個Stage包含一到多個Task,通過多個Task實現并行運行的功能。
  • Transformations:轉換(Transformations) (如:map, filter, groupBy, join等),Transformations操作是Lazy的,也就是說從一個RDD轉換生成另一個RDD的操作不是馬上執行,Spark在遇到Transformations操作時只會記錄需要這樣的操作,并不會去執行,需要等到有Actions操作的時候才會真正啟動計算過程進行計算。(后面的wc例子就會有很好的說明)
  • Actions:操作(Actions) (如:count, collect, save等),Actions操作會返回結果或把RDD數據寫到存儲系統中。Actions是觸發Spark啟動計算的動因。
  • SparkEnv:線程級別的上下文,存儲運行時的重要組件的引用。SparkEnv內創建并包含如下一些重要組件的引用。
    • MapOutPutTracker:負責Shuffle元信息的存儲。
    • BroadcastManager:負責廣播變量的控制與元信息的存儲。
    • BlockManager:負責存儲管理、創建和查找塊。
    • MetricsSystem:監控運行時性能指標信息。
    • SparkConf:負責存儲配置信息。
向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

南充市| 古浪县| 万载县| 多伦县| 牡丹江市| 宝清县| 青阳县| 彰化市| 大理市| 潮安县| 常熟市| 盈江县| 台南市| 莱阳市| 壤塘县| 温泉县| 彰武县| 高州市| 女性| 扎鲁特旗| 长沙县| 邵阳市| 北流市| 潮州市| 南漳县| 泗水县| 开封市| 随州市| 进贤县| 普兰店市| 沈阳市| 闵行区| 宁晋县| 宽城| 红河县| 龙山县| 深泽县| 稻城县| 云霄县| 化隆| 临高县|