91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

【科普】一篇文章讓你知曉Spark

發布時間:2020-06-03 07:45:42 來源:網絡 閱讀:489 作者:小程序員一 欄目:大數據

說起大數據的工具,最廣為人知的就是Hadoop和Spark了,Hadoop在上一篇文章中已經有所介紹,這期小編就為大家介紹后起之秀Spark。

Spark是一個運算速度快如閃電的Apache項目,研發人員聲稱它是“一種用于數據大規模處理的快速通用引擎”,[A1]  Spark是UC BerkeleyAMP lab所開源的類Hadoop MapReduce的通用的并行計算框架,基于map reduce算法實現的分布式計算,擁有Hadoop MapReduce所具有的優點。[A2] 

 

它提供了一個運算速度快的一般化數據處理平臺,可以讓你程序的內存計算速度提高到100倍,或者磁盤計算速度(Hadoop)提高10倍。去年的Daytona GraySort比賽中,Spark只用了Hadoop十分之一數量的機器就實現了其三倍多的速度,目前,Spark已經成了處理PB級別數據運算速度最快的開源工具。[A3] 

Spark核心概念是ResilientDistributed Dataset (RDD)彈性分布數據集,RDD實現了以操作本地集合的方式來操作分布式數據集的抽象實現。RDD是Spark最核心的東西,它表示已被分區,不可變的并能夠被并行操作的數據集合,不同的數據集格式對應不同的RDD實現。RDD必須是可序列化的,可以cache到內存中,每次對RDD數據集的操作之后的結果,都可以存放到內存中,下一個操作可以直接從內存中輸入,省去了MapReduce大量的磁盤IO操作。這對于迭代運算比較常見的機器學習算法, 交互式數據挖掘來說,效率提升比較大。[A4] 

以RDD為核心的Spark構架圖如下

Spark在機器學習方面有著無與倫比的優勢,特別適合需要多次迭代計算的算法。同時Spark擁有非常出色的容錯和調度機制,確保系統的穩定運行[A5] ,而在易用性方面,更是大有名氣,它隨帶易于使用的API,支持Scala(原生語言)、Java、Python和Spark SQL。SparkSQL非常類似于SQL 92,所以幾乎不需要經歷一番學習,馬上可以上手。[A6] 

Spark幫助人們簡化了處理大規模數據的步驟流程,將許多復雜的功能(比如機器學習算法和圖算法)無縫地結合起來,并以其快如閃電的計算速度,正在快速地擴大著自己的影響力,我們有理由相信,憑借Spark獨特的優異性能,未來Spark必將會綻放出更為璀璨的光芒。

 

 [A1]來源:別再比較HadoopSpark了,那不是設計人員的初衷

 

 [A2]來源科普SparkSpark是什么,如何使用Spark;百度百科

 [A3]來源:Apache Spark介紹及案例展示

 [A4]來源:科普SparkSpark核心是什么,如何使用Spark2http://www.aboutyun.com/thread-6850-1-1.html

 [A5]來源:跟我一起數據挖掘(22)——spark入門

 [A6]來源:別再比較HadoopSpark了,那不是設計人員的初衷

最終來源:啟創方舟微信公眾號

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

开阳县| 安龙县| 洮南市| 泰兴市| 镇平县| 烟台市| 辉南县| 敦煌市| 平江县| 二连浩特市| 娄烦县| 甘孜县| 铁力市| 普定县| 灵寿县| 偃师市| 纳雍县| 夏河县| 铁岭县| 公安县| 武邑县| 武城县| 璧山县| 阿合奇县| 呼和浩特市| 芷江| 唐山市| 金平| 米林县| 定结县| 基隆市| 四川省| 东安县| 阿拉善左旗| 江西省| 通榆县| 七台河市| 东乌| 天门市| 铜陵市| 桃园市|