您好,登錄后才能下訂單哦!
這篇文章主要介紹“tungsten-sort有哪些優點”,在日常操作中,相信很多人在tungsten-sort有哪些優點問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”tungsten-sort有哪些優點”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
spark實現了多種shuffle方法,通過 spark.shuffle.manager來確定。暫時總共有三種:hash shuffle、sort shuffle和tungsten-sort shuffle,從1.2.0開始默認為sort shuffle。
spark在1.4以后可以通過(spark.shuffle.manager = tungsten-sort)開啟Tungsten-sort shuffle。如果Tungsten-sort 發現自己無法處理,則會自動使用 Sort Based Shuffle進行處理。Tungsten-sort優化點主要有:
直接在serialized binary data上操作,不需要反序列化,使用unsafe內存copy函數直接copy數據。
提供cache-efficient sorter ShuffleExternalSorter 排序壓縮記錄指針和partition ids,使用一個8bytes的指針,把排序轉化成了一個指針數組的排序。
spilling的時候不需要反序列化和序列化
spill的merge過程也無需反序列化即可完成,但需要shuffle.unsafe.fastMergeEnabled的支持
當且僅當下面條件都滿足時,才會使用新的Shuffle方式:
Shuffle dependency 不能帶有aggregation 或者輸出需要排序
Shuffle 的序列化器需要是 KryoSerializer 或者 Spark SQL's 自定義的一些序列化方式.* > Shuffle 文件的數量不能大于 16777216
序列化時,單條記錄不能大于 128 MB
##優點 很多性能的優化
##缺點
不可以在mapper端排序
不穩定
沒有提供off-heap排序緩存
到此,關于“tungsten-sort有哪些優點”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。