91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

spark基礎-rdd特性

發布時間:2020-07-11 19:31:44 來源:網絡 閱讀:346 作者:xiao酒窩 欄目:大數據

RDD特性:

1.RDD是spark提供的核心抽象,全稱:Resillient Distributed Dataset,即彈性分布式數據集。

2.RDD在抽象上來說是一種元素集合,包含了數據。它是被分區的,氛圍多個分區,每個分區分布在集群中的不同節點上,從而讓RDD中的數據可以并行操作(分布式數據集)

3.RDD通常通過Hadoop上的文件來創建。有時也可以通過應用程序中的集合賴床見。

4.RDD最重要的特性就是提供了容錯性,可以從節點失敗中恢復過來。即:如果某個節點的RDD partition因為節點故障導致數據丟失,那么RDD會自動通過自己的數據來源重新計算該partitin。

5.RDD的每個partition在spark節點上,默認都是放在內存中,但是如果內存中放不下這么多數據,多出來的數據,就會把partition中的部分數據寫在磁盤上,進而保存。對于用戶來說,并不知道RDD內存數據存儲在哪里。RDD的這種自動進行內存和詞牌之間的切換機制,就是RDD的彈性特點所在。

一個RDD在邏輯上抽象地代表了一個HDFS文件。但是實際上是唄分區的,氛圍多個分區,多個分區散落在spark集群中,不同的節點上。

Spark核心編程是什么:

首先,定義初始的RDD,就是說,要定義訂一個數據從哪里來。

第二:定義對RDD的計算操作,這個在spark里稱為算子

第三:就是循環往復的過程第一次計算完成后,數據就會到了新的一批節點上,變成了新的RDD,然后再次反復,針對新的RDD定義算子操作。

第四:獲得最終的數據,將數據保存起來。


向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

游戏| 鄢陵县| 临洮县| 毕节市| 宜兴市| 曲麻莱县| 天长市| 贺州市| 文安县| 平顶山市| 大渡口区| 崇阳县| 四子王旗| 东平县| 永吉县| 门源| 新干县| 阿鲁科尔沁旗| 布尔津县| 大足县| 岫岩| 遂溪县| 门源| 舟曲县| 涿州市| 天峨县| 沙雅县| 阳信县| 赫章县| 新兴县| 金阳县| 庄河市| 隆林| 宜良县| 盈江县| 东乌| 罗定市| 怀安县| 会泽县| 苏尼特右旗| 洛阳市|