您好,登錄后才能下訂單哦!
這篇文章主要介紹“如何用mapreduce得到top最大的前n條記錄”,在日常操作中,相信很多人在如何用mapreduce得到top最大的前n條記錄問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”如何用mapreduce得到top最大的前n條記錄”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
在最初接觸mapreduce時,top n 問題的解決辦法是將mapreduce輸出(排序后)放入一個集合中,取前n個,但這種寫法過于簡單,內存能夠加載的集合的大小是有上限的,一旦數據量大,很容易出現內存溢出。
今天在這里介紹另一種實現方式,當然這也不是最好的方式。
需求,得到top最大的前n條記錄
這里只給出一些核心的代碼,其他job等配置的代碼略
Configuration conf = new Configuration(); conf.setInt("N", 5);
初始化job之前需要 conf.setInt("N",5); 意在在mapreduce階段讀取N,N就代表著top N
以下是map
package com.lzz.one; import java.io.IOException; import java.util.Arrays; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; /** * topN * #orderid,userid,payment,productid * [root@x00 hd]# cat seventeen_a.txt * 1,9819,100,121 * 2,8918,2000,111 * 3,2813,1234,22 * 4,9100,10,1101 * 5,3210,490,111 * 6,1298,28,1211 * 7,1010,281,90 * 8,1818,9000,20 * [root@x00 hd]# cat seventeen_b.txt * 100,3333,10,100 * 101,9321,1000,293 * 102,3881,701,20 * 103,6791,910,30 * 104,8888,11,39 * 預測結果:(求 Top N=5 的結果) * 1 9000 * 2 2000 * 3 1234 * 4 1000 * 5 910 * @author Administrator * */ public class TopNMapper extends Mapper<LongWritable, Text, IntWritable, IntWritable>{ int len; int top[]; @Override public void setup(Context context) throws IOException,InterruptedException { len = context.getConfiguration().getInt("N", 10); top = new int[len+1]; } @Override public void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException { String line = value.toString(); String arr []= line.split(","); if(arr != null && arr.length == 4){ int pay = Integer.parseInt(arr[2]); add(pay); } } public void add(int pay){ top[0] = pay; Arrays.sort(top); } @Override public void cleanup(Context context) throws IOException,InterruptedException { for(int i=1;i<=len;i++){ context.write(new IntWritable(top[i]),new IntWritable(top[i])); } } }
接下來是reduce
package com.lzz.one; import java.io.IOException; import java.util.Arrays; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.mapreduce.Reducer; public class TopNReduce extends Reducer<IntWritable, IntWritable, IntWritable, IntWritable>{ int len; int top[]; @Override public void setup(Context context) throws IOException, InterruptedException { len = context.getConfiguration().getInt("N", 10); top = new int[len+1]; } @Override public void reduce(IntWritable key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { for(IntWritable val : values){ add(val.get()); } } public void add(int pay){ top[0] = pay; Arrays.sort(top); } @Override public void cleanup(Context context) throws IOException, InterruptedException { for(int i=len;i>0;i--){ context.write(new IntWritable(len-i+1),new IntWritable(top[i])); } } }
說一下邏輯,雖然畫圖比較清晰,但是時間有限,畫圖水平有限,只用語言來描述吧,希望能說的明白
如果要取top 5,則應該定義一個長度為為6的數組,map所要做的事情就是將每條日志的那個需要排序的字段放入數組第一個元素中,調用Arrays.sort(Array[])方法可以將數組按照正序,從數字角度說是從小到大排序,比如第一條記錄是9000,那么排序結果是[0,0,0,0,0,9000],第二條日志記錄是8000,排序結果是[0,0,0,0,8000,9000],第三條日志記錄是8500,排序結果是[0,0,0,8000,8500,9000],以此類推,每次放進去一個數字如果大于數組里面最小的元素,相當于將最小的覆蓋掉了,也就是說數組中元素永遠是拿到日志中最大的那些個記錄
ok,map將數組原封不動按照順序輸出,reduce接收到從每個map拿到的五個排好序的元素,在進行跟map一樣的排序,排序后數組里面就是按照從小到大排好序的元素,將這些元素倒序輸出就是最終我們要的結果了
與之前的方式做個比較,之前的map做的事情很少,在reduce中排序后哪前5條,reduce的壓力是很大的,要把所有的數據都處理一遍,而一般設置reduce的個數較少,一旦數據較多,reduce就會承受不了,悲劇了。而現在的方式巧妙的將reduce的壓力轉移到了map,而map是集群效應的,很多臺服務器來做這件事情,減少了一臺機器上的負擔,每個map其實只是輸出了5個元素而已,如果有5個map,其實reduce才對5*5個數據進行了操作,也就不會出現內存溢出等問題了
到此,關于“如何用mapreduce得到top最大的前n條記錄”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。