91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

IMF前期知識儲備-What is Spark詳細講解(四大特性)

發布時間:2020-04-09 11:39:58 來源:網絡 閱讀:67 作者:lqding1980 欄目:大數據

Spark 官方網站使用如下簡潔的語言描述了Spark

IMF前期知識儲備-What is Spark詳細講解(四大特性)我們可以從中提取出如下信息:

Spark是一個引擎

  1. 快速

  2. 通用

Spark可以用來處理數據

  1. 數據是大規模的

Spark本身并不提供數據存儲能力,它只是一個計算框架


它的快速體現在什么地方呢?

IMF前期知識儲備-What is Spark詳細講解(四大特性)如果處理的數據在內存中,運行MapReduce比hadoop要快100倍以上,要是數據在磁盤中,也比Hadoop快10倍以上。

為什么會快呢,Spark在處理數據的時候,使用了一個高級的執行引擎:DAG - 有向無環圖 。以及內存計算。


易于使用:

可以使用scala、java、Python等語言快速的開發應用程序。Spark提供了超過80個操作來簡單的構建并行應用。只需幾行代碼,就可以完成wordcount的計算。

IMF前期知識儲備-What is Spark詳細講解(四大特性)


通用性:

Spark 提供了大數據一棧式解決方案。包含了流計算、圖計算、機器學習、SQL等。

IMF前期知識儲備-What is Spark詳細講解(四大特性)

對于開發、維護、學習成本都是大大的降低。


運行在任何地方:

Spark可以運行在Hadoop的YARN、Mesos, standalone,或者運行在云上。

Spark 處理的數據,可以存儲在HDFS, Cassandra, HBase,和S3等等。 


IMF前期知識儲備-What is Spark詳細講解(四大特性)


Spark的發展非常快速,TimeLine如下

IMF前期知識儲備-What is Spark詳細講解(四大特性)

Spark進入Apache后,發展非常迅速。版本發布比較頻繁。


Spark的生態體系(BDAS,中文:伯克利分析棧)

  • MapReduce屬于Hadoop生態體系之一,Spark則屬于BDAS生態體系之一

  • Hadoop包含了MapReduce、HDFS、HBase、Hive、Zookeeper、Pig、Sqoop等

  • BDAS包含了Spark、Shark(相當于Hive)、BlinkDB、Spark Streaming(消息實時處理框架,類似Storm)等等

BDAS生態體系圖:

IMF前期知識儲備-What is Spark詳細講解(四大特性)



MapReduce和Spark比較

IMF前期知識儲備-What is Spark詳細講解(四大特性)

異同點:

  1. 基本原理上

  • MapReduce 是基于磁盤的大數據批量處理

  • Spark 是基于RDD(彈性分布式數據集)數據處理,RDD可以存儲在內存中,也可以存儲在磁盤中。

2. 模型上

  • MapReduce 適合處理超大規模的數據集,用于批處理。適合處理較少迭代的長任務需求。

  • Spark 適合數據挖掘,迭代次數較多的,例如機器學習等多輪迭代任務。 

3. 容錯性

  • MapReduce的每一步迭代,都需要將結果寫入硬盤,然后再從硬盤中讀取數據計算。只要一步失敗,則整個任務都失敗。

  • Spark使用DAG將任務拆分成許多步驟,每個步驟迭代的過程中,數據寫內存。而且Spark還提供容錯功能。






向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

西乌珠穆沁旗| 仲巴县| 仁寿县| 景泰县| 上思县| 凌源市| 枞阳县| 淮滨县| 姚安县| 西贡区| 新绛县| 榆中县| 张家界市| 井冈山市| 兴安盟| 定日县| 法库县| 辰溪县| 军事| 靖宇县| 九龙坡区| 定州市| 福清市| 岳阳县| 北京市| 玉田县| 格尔木市| 江口县| 黔东| 凤冈县| 罗田县| 英德市| 铜山县| 奈曼旗| 延安市| 双桥区| 常熟市| 华亭县| 武穴市| 万全县| 水富县|