Hadoop中TeraSort修改后輸出翻倍異常怎么辦

發布時間：2021-11-19 16:49:14 來源：億速云閱讀：209 作者：小新欄目：云計算

小編給大家分享一下Hadoop中TeraSort修改后輸出翻倍異常怎么辦，希望大家閱讀完這篇文章之后都有所收獲，下面讓我們一起去探討吧！

簡而言之，就是在修改了ＴeraInputFormat.java之后，運行TeraSort所得到的輸出數據不同程度的翻倍，剛開始并沒有什么頭緒，并且把采樣的線程和Ｍap的讀入＜key, value＞搞混了，邏輯不清晰，導致很多時間都在無關緊要的地方反復調試．

其實應該可以想到一種辦法，就是在MapTask里設斷點觀察，但不知道是自己懶還是因為對隱藏在深處的ＭapTask有一種畏懼心里，起初我并沒有仔細進去看，后來在ＭapTask里ＲecordReader部分的nextKeyValue()方法里設置變量計數并輸出，來觀察每次split所獲取的記錄條數，結果發現，我的每個split都完整的獲取了整個（注意是整個輸入文件）而不是一個split大小的記錄，所以輸出也隨著翻倍了．

那么關鍵點找出來了，問題出在哪里呢？ＭapTask部分是Ｈadoop默認綁定的，TeraSort并沒有重寫，所以這部分不可能出錯；TeraInputFormat的前半部分是取樣部分，問題不可能出在這里；后半部分的RecordReader的initialize部分和修改前基本無變化，那錯誤的部分一定是在nextKeyValue()部分了，于是一行一行分析，最終鎖定了這一句：

newSize = in.readLine(record);

很普通的讀取一行記錄，那有沒有可能是readLine()這個方法對長度沒有限定呢？雖然nextKeyValue()方法是split對象調用的，但會不會readLine()并不理會你每個split塊的大小而是一股氣往下讀取直到讀到文件末尾呢？

為了驗證這個可能，我添加了全局變量:

long recordLen;
//將下面這句加在nextKeyValue()中
recordLen += newSize;

來記錄讀取記錄的總長度,，并設定當

if(recordLen ＞＝ split.getLength)｛
    return false;
}

修改后打jar包放到節點上運行，結果正確！！！

看完了這篇文章，相信你對“Hadoop中TeraSort修改后輸出翻倍異常怎么辦”有了一定的了解，如果想了解更多相關知識，歡迎關注億速云行業資訊頻道，感謝各位的閱讀！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Hadoop中TeraSort修改后輸出翻倍異常怎么辦

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Hadoop中TeraSort修改后輸出翻倍異常怎么辦

猜你喜歡

最新資訊

相關推薦

相關標簽