您好,登錄后才能下訂單哦!
這篇文章主要講解了“Reduce統計結果匯總混亂怎么辦”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“Reduce統計結果匯總混亂怎么辦”吧!
在hadoop2.7.1上寫了一段MapReduce程序,做一個word cloud統計,程序執行結果中有數據,但是混亂:很多完全相同的關鍵字沒有歸并到一起,也有個別的歸并到了一起,但匯總值沒有超過2的,如下:
中國紅 1
中國紅 1
中國紅 1
摩卡黑 2
摩卡黑 2
百度說,其他同仁遇到的大多是reduce沒有輸出結果,其原因是Reduce應該用Iterable還是Iterator造成的,而且還是0.19和0.20版本時代的問題。而我有結果輸出,只是沒有完全執行合計。Reduce代碼如下:
static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable> { LongWritable result = new LongWritable(); public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } }
莫非對Reduce處理中文Key有問題?不太可能。遂將所有Key用URLEncoder轉碼,結果仍然一樣,不能歸并。查半天,未果。
一覺醒來,忽然發現程序import中竟然還有IntWritable,我曾經把所有Int改成了LongWritable,這個程序竟然漏了!看上面代碼中Class定義中使用了LongWritable,計算的時候卻使用的IntWritable,修改,再運行,歸并正常。
原來如此!Map和Reduce的數據類型不匹配通常會有ClassCastException,但LongWritable和IntWritable的轉換沒有報異常,默默的計算錯了,竟然!
感謝各位的閱讀,以上就是“Reduce統計結果匯總混亂怎么辦”的內容了,經過本文的學習后,相信大家對Reduce統計結果匯總混亂怎么辦這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。