91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何用mapreduce處理數據傾斜問題

發布時間:2022-01-04 10:56:17 來源:億速云 閱讀:345 作者:iii 欄目:云計算

本篇內容主要講解“如何用mapreduce處理數據傾斜問題”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“如何用mapreduce處理數據傾斜問題”吧!

map /reduce 程序執行時, reduce 節點大部分執行完畢,但是有一個或者幾個 reduce
節點運行很慢,導致整個程序的處理時間很長,這是因為某一個 key 的條數比其他 key 多
很多(有時是百倍或者千倍之多),這條 key 所在的 reduce 節點所處理的數據量比其他節
點就大很多,從而導致某幾個節點遲 遲運行不完,此稱之為數據傾斜.
解決方法:
(1)設置一個 hash 份數 N,用來對條數眾多的 key 進行打散。
(2)對有多條重復 key 的那份數據進行處理:從 1 到 N 將數字加在 key 后面作為新 key,
如果需要和另一份數據關聯的話,則要重寫比較類和分發類。如此實現多條 key 的平均分發。
(3)上一步之后, key 被平均分散到很多不同的 reduce 節點。如果需要和其他數據關聯,
為了保證每個 reduce 節點上都有關聯的 key,對另一份單一 key 的數據進行處理:循環的
從 1 到 N 將數字加在 key 后面作為新 key
用上述的方法雖然可以解決數據傾斜,但是當關聯的數據量巨大時,如果成倍的增長某
份數據,會導致 reduce shuffle 的數據量變的巨大,得不償失,從而無法解決運行時間慢的
問題.
在 兩份數據中找共同點,比如兩份數據里除了關聯的字段以外,還有另外相同含義的字段,
如果這個字段在所有 log 中的重復率比較小,則可以用這個字段作為計算 hash 的值,如果
是數字,可以用來模 hash 的份數,如果是字符可以用 hashcode 來模 hash 的份數(當然數
字為了避免落到同一個 reduce 上 的數據過多,也可以用 hashcode),這樣如果這個字段
的值分布足夠平均的話,就可以解決上述的問題。
解決方法: 1. 增加 reduce 的 jvm 內存 2. 增加 reduce 個數

到此,相信大家對“如何用mapreduce處理數據傾斜問題”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

汝州市| 金坛市| 富民县| 穆棱市| 花垣县| 都兰县| 桂阳县| 孟津县| 大安市| 平阴县| 三河市| 随州市| 南安市| 贵定县| 蕲春县| 吴忠市| 文水县| 长沙县| 五峰| 辽阳市| 册亨县| 滦平县| 田林县| 新巴尔虎右旗| 绥棱县| 大余县| 威海市| 栾城县| 衡水市| 互助| 龙口市| 分宜县| 平南县| 红原县| 南澳县| 凌源市| 和顺县| 广水市| 潞城市| 会泽县| 勃利县|