hadoop下Illegal partition for問題怎么處理

發布時間：2021-12-09 16:21:00 來源：億速云閱讀：129 作者：iii 欄目：云計算

這篇文章主要介紹“hadoop下Illegal partition for問題怎么處理”，在日常操作中，相信很多人在hadoop下Illegal partition for問題怎么處理問題上存在疑惑，小編查閱了各式資料，整理出簡單好用的操作方法，希望對大家解答”hadoop下Illegal partition for問題怎么處理”的疑惑有所幫助！接下來，請跟著小編一起來學習吧！

1.背景：

對一個文件中的key進行過濾，需要過濾的key存儲在另一個文件中。需要過濾的key數量很大，有上億條，因此采用bloomfilter等方法不太合適。同時文件中的帶過濾的key可能會很多也可能很少。因此采用value二次排序的方法過濾，將需要過濾的key做成key0,真實的key做成key1。使用分區函數和key比較函數將相同的key發送到同一個機器上，只要判斷key的第一個key值key0是否存在就可以確定key是否需要過濾。

2.問題：

采用二次排序，需要實現getPartition函數。考慮到hash函數可能返回負數，因此返回是使用了這樣一個函數Math.abs（k）%numReduceTasks。一開始測試的時候沒有發現問題，后來將輸入文件增多后發現程序會報Illegal partition for錯誤。

3.處理過程：

直接求助google，從http://blog.csdn.net/hezuoxiang/article/details/6878026 中看出來，錯誤是因為分區函數返回了負數，這個值不合理。一時有點懵，難道Math.abs（x）返回的不是正數？再次求助google，明白了原來x很大（溢出變成負數）或者很小的負數時，即超過了int的表示范圍。返回會是個負數。至此，知道了問題的關鍵，通過hash得到的k值太大，或者太小，超過了int的可表示范圍。嗯，c/c++程序員用java寫hadoop就是一堆坑要踩。

4.解決方法：

（1）換一個hash函數，使得hash值在int能表示的范圍內。

（2）對hash函數的值先取模在取絕對值 Math.abs(k % numReduceTasks);。

到此，關于“hadoop下Illegal partition for問題怎么處理”的學習就結束了，希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習，快去試試吧！若想繼續學習更多相關知識，請繼續關注億速云網站，小編會繼續努力為大家帶來更多實用的文章！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

hadoop下Illegal partition for問題怎么處理

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

hadoop下Illegal partition for問題怎么處理

猜你喜歡

最新資訊

相關推薦

相關標簽