您好,登錄后才能下訂單哦!
Spark是分布式內存計算框架,而不是分布式內容存儲框架,搭配tachyon分布式內存文件系統,會更加有效果。
在文件模式下,spark比hadoop快10倍,在內存計算模式下,快100倍!
下面是一些
1 spark是分布式 基于內存 特別適合于迭代計算的計算框架
2 mapReduce就兩個階段map和reduce,而spark是不斷地迭代計算,更加靈活更加強大,容易構造復雜算法。
3 spark不能取代hive,hive做數據倉庫存儲,spark sql只是取代hive的計算引擎,成為分析平臺,hadoop作為存儲平臺
4 spark中間數據可以在內存也可以在磁盤
5 partition是一個數據集合
6 注意:初學者執行多個步驟要注意分步檢驗,不然不知哪里錯了
7 var data = sc.textFile("/user") 不必寫hdfs:// ,根據上下文判斷
8 讀文件得到HadoopRDD,去掉文件中索引,得到MapPartitionsRDD,這樣一系列分片的數據分布在 不同的機器。
9 移動計算而不是移動數據
移動計算表示分布到各個機器上,分別計算自身負責的那部分數據,而不是把數據從各個機器上移動來進行計算。
計算完后進行數據匯總。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。