您好,登錄后才能下訂單哦!
這篇文章主要介紹“hadoop下Illegal partition for問題怎么處理”,在日常操作中,相信很多人在hadoop下Illegal partition for問題怎么處理問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”hadoop下Illegal partition for問題怎么處理”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
1.背景:
對一個文件中的key進行過濾,需要過濾的key存儲在另一個文件中。需要過濾的key數量很大,有上億條,因此采用bloomfilter等方法不太合適。同時文件中的帶過濾的key可能會很多也可能很少。因此采用value二次排序的方法過濾,將需要過濾的key做成key0,真實的key做成key1。使用分區函數和key比較函數將相同的key發送到同一個機器上,只要判斷key的第一個key值key0是否存在就可以確定key是否需要過濾。
2.問題:
采用二次排序,需要實現getPartition函數。考慮到hash函數可能返回負數,因此返回是使用了這樣一個函數Math.abs(k)%numReduceTasks。 一開始測試的時候沒有發現問題,后來將輸入文件增多后發現程序會報Illegal partition for錯誤。
3.處理過程:
直接求助google, 從http://blog.csdn.net/hezuoxiang/article/details/6878026 中看出來,錯誤是因為分區函數返回了負數,這個值不合理。一時有點懵,難道Math.abs(x)返回的不是正數?再次求助google, 明白了原來x很大(溢出變成負數)或者很小的負數時,即超過了int的表示范圍。返回會是個負數。至此,知道了問題的關鍵,通過hash得到的k值太大,或者太小,超過了int的可表示范圍。嗯,c/c++程序員用java寫hadoop就是一堆坑要踩。
4.解決方法:
(1) 換一個hash函數,使得hash值在int能表示的范圍內。
(2) 對hash函數的值先取模在取絕對值 Math.abs(k % numReduceTasks);。
到此,關于“hadoop下Illegal partition for問題怎么處理”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。