您好,登錄后才能下訂單哦!
這篇文章主要介紹“五種主流的大數據計算框架是什么”的相關知識,小編通過實際案例向大家展示操作過程,操作方法簡單快捷,實用性強,希望這篇“五種主流的大數據計算框架是什么”文章能幫助大家解決問題。
Hadoop框架
提起大數據,第一個想起的肯定是Hadoop,因為Hadoop是目前世界上應用最廣泛的大數據工具,他憑借極高的容錯率和極低的硬件價格,在大數據市場上風生水起。Hadoop還是第一個在開源社區上引發高度關注的批處理框架,他提出的Map和Reduce的計算模式簡潔而優雅。迄今為止,Hadoop已經成為了一個廣闊的生態圈,實現了大量算法和組件。由于Hadoop的計算任務需要在集群的多個節點上多次讀寫,因此在速度上會稍顯劣勢,但是其吞吐量也同樣是其他框架所不能匹敵的。
Storm框架
與Hadoop的批處理模式不同,Storm采用的是流計算框架,由Twitter開源并且托管在GitHub上。與Hadoop類似的是,Storm也提出了兩個計算角色,分別為Spout和Bolt。如果說Hadoop是水桶,只能一桶一桶的去井里扛,那么Storm就是水龍頭,只要打開就可以源源不斷的出水。Storm支持的語言也比較多,Java、Ruby、Python等語言都能很好的支持。由于Storm是流計算框架,因此使用的是內存,延遲上有極大的優勢,但是Storm不會持久化數據。
Samza框架
Smaza也是一種流計算框架,但他目前只支持JVM語言,靈活度上略顯不足,并且Samza必須和Kafka共同使用。但是響應的,其也繼承了Kafka的低延時、分區、避免回壓等優勢。對于已經有Hadoop+Kafka工作環境的團隊來說,Samza是一個不錯的選擇,并且Samza在多個團隊使用的時候能體現良好的性能。
Spark框架
Spark屬于前兩種框架形式的集合體,是一種混合式的計算框架。它既有自帶的實時流處理工具,也可以和Hadoop集成,代替其中的MapReduce,甚至Spark還可以單獨拿出來部署集群,但是還得借助HDFS等分布式存儲系統。Spark的強大之處在于其運算速度,與Storm類似,Spark也是基于內存的,并且在內存滿負載的時候,硬盤也能運算,運算結果表示,Spark的速度大約為Hadoop的一百倍,并且其成本可能比Hadoop更低。但是Spark目前還沒有像Hadoop哪有擁有上萬級別的集群,因此現階段的Spark和Hadoop搭配起來使用更加合適。
Flink框架
Flink也是一種混合式的計算框架,但是在設計初始,Fink的側重點在于處理流式數據,這與Spark的設計初衷恰恰相反,而在市場需求的驅使下,兩者都在朝著更多的兼容性發展。Flink目前不是很成熟,更多情況下Flink還是起到一個借鑒的作用。
關于“五種主流的大數據計算框架是什么”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識,可以關注億速云行業資訊頻道,小編每天都會為大家更新不同的知識點。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。