您好,登錄后才能下訂單哦!
本篇文章為大家展示了Spark 1.4 新特性有哪些,內容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。
功能介紹Scala & Apache Spark
經過4個RC版本,Spark 1.4最終還是趕在Spark Summit前發布了,本文簡單談下本版本中那些非常重要的新feature和improvement.
SparkR就不細說了,于data scientists而言,簡直是望眼欲穿,千呼萬喚始出來........ 這顯然要用單獨一篇文章來說下 : )
Spark Core:
現在大家最關心什么?性能和運維呀! 什么最影響性能?必須shuffle呀!什么是運維第一要務?必須是監控呀(就先不扯alert了)!1.4在這兩點都做足了功夫。 1.4中,Spark為應用提供了REST API來獲取各種信息(jobs / stages / tasks / storage info),使用這個API搭建個自己的監控簡直是分分鐘的事情,不止于此,DAG現在也能可視化了,不清楚Spark的DAGScheduler怎么運作的同學,現在也能非常輕易地知道DAG細節了。再來說說shuffle, 大家都知道,從1.2開始sort-based shuffle已經成為默認的shuffe策略了,基于sort的shuffle不需要同時打開很多文件,并且也能減少中間文件的生成,但是帶來的問題是在JVM的heap中留了大量的java對象,1.4開始,shuffle的map階段的輸出會被序列化,這會帶來兩個好處:1、spill到磁盤上的文件變小了 2、GC效率大增 ,有人又會說,序列化反序列化會產生額外的cpu開銷啊,事實上,shuffle過程往往都是IO密集型的操作,帶來的這點cpu開銷,是可以接受。
大家期待的鎢絲計劃(Project Tungsten)也在1.4初露鋒芒,引入了新的shuffle manager “UnsafeShuffleManager”, 來提供緩存友好的排序算法,及其它一些改進,目的是降低shuffle過程中的內存使用量,并且加速排序過程。 鎢絲計劃必定會成為接下來兩個版本(1.5,1.6)重點關注的地方。
Spark Streaming:
Streaming在這個版本中增加了新的UI, 簡直是Streaming用戶的福音啊,各種詳細信息盡收眼底。話說Spark中國峰會,TD當時坐我旁邊review這部分的code,悄悄對說我”this is awesome”。對了,這部分主要是由朱詩雄做的,雖然詩雄在峰會上放了我鴿子,但必須感謝他給我們帶來了這么好的特性!另外此版本也支持了0.8.2.x的Kafka版本。
Spark SQL(DataFrame)
支持老牌的ORCFile了,雖然比Parquet年輕,但是人家bug少啊 : ) 1.4提供了類似于Hive中的window function,還是比較實用的。本次對于join的優化還是比較給力的,特別是針對那種比較大的join,大家可以體會下。JDBC Server的用戶肯定非常開心了,因為終于有UI可以看了呀。
Spark ML/MLlib
ML pipelines從alpha畢業了,大家對于ML pipelines的熱情還真的蠻高的啊。我對Personalized PageRank with GraphX倒是蠻感興趣的,與之相關的是recommendAll in matrix factorization model。 事實上大多數公司還是會在Spark上實現自己的算法。
上述內容就是Spark 1.4 新特性有哪些,你們學到知識或技能了嗎?如果還想學到更多技能或者豐富自己的知識儲備,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。