您好,登錄后才能下訂單哦!
ashMap 是 Spark shuffle read 過程中頻繁使用的、用于 aggregate 的數據結構。Spark 設計了兩種:一種是全內存的 AppendOnlyMap,另一種是內存+磁盤的 ExternalAppendOnlyMap。
在Sort Based Shuffle的Shuffle Write階段,map端的任務會按照Partition id以及key對記錄進行排序。同時將全部結果寫到一個數據文件中,同時生成一個索引文件,reduce端的Task可以通過該索引文件獲取相關的數據。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。