高速性:Spark 是一個基于內存計算的分布式計算框架,可以比傳統的 MapReduce 作業快上幾個數量級,因為它可以在內存中進行數據處理,減少了磁盤讀寫的開銷。
易用性:Spark 提供了豐富的 API,支持多種語言(如 Scala、Java、Python 和 R),并且提供了豐富的高級功能(如 SQL 查詢、機器學習和圖計算),使得用戶可以輕松地開發復雜的分布式應用程序。
彈性:Spark 提供了彈性的分布式數據集(Resilient Distributed Dataset, RDD)抽象,可以在內存中緩存數據,容錯性強,可以在節點故障時自動恢復數據,保證作業的穩定執行。
通用性:Spark 不僅支持批處理作業(如 MapReduce),還支持交互式查詢、流處理和機器學習等多種應用場景,因此可以滿足不同領域的需求。