Spark運行原理及RDD解密

發布時間：2020-06-30 15:21:17 來源：網絡閱讀：299 作者：moviebat 欄目：大數據

Spark是分布式內存計算框架，而不是分布式內容存儲框架，搭配tachyon分布式內存文件系統，會更加有效果。

在文件模式下，spark比hadoop快10倍，在內存計算模式下，快100倍！

下面是一些

1 spark是分布式基于內存特別適合于迭代計算的計算框架

2 mapReduce就兩個階段map和reduce，而spark是不斷地迭代計算，更加靈活更加強大，容易構造復雜算法。

3 spark不能取代hive，hive做數據倉庫存儲，spark sql只是取代hive的計算引擎，成為分析平臺，hadoop作為存儲平臺

4 spark中間數據可以在內存也可以在磁盤

5 partition是一個數據集合

6 注意：初學者執行多個步驟要注意分步檢驗，不然不知哪里錯了

7 var data = sc.textFile("/user") 不必寫hdfs:// ，根據上下文判斷

8 讀文件得到HadoopRDD，去掉文件中索引，得到MapPartitionsRDD,這樣一系列分片的數據分布在不同的機器。

9 移動計算而不是移動數據

移動計算表示分布到各個機器上，分別計算自身負責的那部分數據，而不是把數據從各個機器上移動來進行計算。

計算完后進行數據匯總。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本