91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Hadoop如何實現

發布時間:2021-12-06 11:06:56 來源:億速云 閱讀:128 作者:小新 欄目:開發技術

這篇文章給大家分享的是有關Hadoop如何實現的內容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。

Hadoop入門

Hadoop是GoogleMapReduce的一個Java實現。MapReduce是一種簡化的分布式編程模式,讓程序自動分布到一個由普通機器組成的超大集群上并發執行。就如同java程序員可以不考慮內存泄露一樣,MapReduce的run-time系統會解決輸入數據的分布細節,跨越機器集群的程序執行調度,處理機器的失效,并且管理機器之間的通訊請求。這樣的模式允許程序員可以不需要有什么并發處理或者分布式系統的經驗,就可以處理超大的分布式系統得資源。

一、概論
作為Hadoop程序員,他要做的事情就是:
1、定義Mapper,處理輸入的Key-Value對,輸出中間結果。
2、定義Reducer,可選,對中間結果進行規約,輸出最終結果。
3、定義InputFormat和OutputFormat,可選,InputFormat將每行輸入文件的內容轉換為Java類供Mapper函數使用,不定義時默認為String。
4、定義main函數,在里面定義一個Job并運行它。
然后的事情就交給系統了。Hadoop入門首先要了解一下基本概念。

1.基本概念:Hadoop的HDFS實現了google的GFS文件系統,NameNode作為文件系統的負責調度運行在master,DataNode運行在每個機器上。同時Hadoop實現了Google的MapReduce,JobTracker作為MapReduce的總調度運行在master,TaskTracker則運行在每個機器上執行Task。

2.main()函數,創建JobConf,定義Mapper,Reducer,Input/OutputFormat和輸入輸出文件目錄,***把Job提交給JobTracker,等待Job結束。

3.JobTracker,創建一個InputFormat的實例,調用它的getSplits()方法,把輸入目錄的文件拆分成FileSplist作為Mappertask的輸入,生成Mappertask加入Queue。

4.TaskTracker向JobTracker索求下一個Map/Reduce。

MapperTask先從InputFormat創建RecordReader,循環讀入FileSplits的內容生成Key與Value,傳給Mapper函數,處理完后中間結果寫成SequenceFile.
ReducerTask從運行Mapper的TaskTracker的Jetty上使用http協議獲取所需的中間內容(33%),Sort/Merge后(66%),執行Reducer函數,***按照OutputFormat寫入結果目錄。
TaskTracker每10秒向JobTracker報告一次運行情況,每完成一個Task10秒后,就會向JobTracker索求下一個Task。
Nutch項目的全部數據處理都構建在Hadoop之上,詳見ScalableComputingwithHadoop。下面我們再來看一下Hadoop入門介紹中程序員編寫的代碼。

二、程序員編寫的代碼
我們做一個簡單的分布式的Grep,簡單對輸入文件進行逐行的正則匹配,如果符合就將該行打印到輸出文件。因為是簡單的全部輸出,所以我們只要寫Mapper函數,不用寫Reducer函數,也不用定義Input/OutputFormat。

packagedemo.hadoop  publicclassHadoopGrep{  publicstaticclassRegMapperextendsMapReduceBaseimplementsMapper{  privatePatternpattern;  publicvoidconfigure(JobConfjob){  pattern=Pattern.compile(job.get("mapred.mapper.regex"));  }   publicvoidmap(WritableComparablekey,Writablevalue,OutputCollectoroutput,Reporterreporter)  throwsIOException{  Stringtext=((Text)value).toString();  Matchermatcher=pattern.matcher(text);  if(matcher.find()){  output.collect(key,value);  }}  }  privateHadoopGrep(){  }//singleton   publicstaticvoidmain(String[]args)throwsException{  JobConfgrepJob=newJobConf(HadoopGrep.class);  grepJob.setJobName("grep-search");  grepJob.set("mapred.mapper.regex",args[2]);  grepJob.setInputPath(newPath(args[0]));  grepJob.setOutputPath(newPath(args[1]));  grepJob.setMapperClass(RegMapper.class);  grepJob.setReducerClass(IdentityReducer.class);  JobClient.runJob(grepJob);  }  }

RegMapper類的configure()函數接受由main函數傳入的查找字符串,map()函數進行正則匹配,key是行數,value是文件行的內容,符合的文件行放入中間結果。
main()函數定義由命令行參數傳入的輸入輸出目錄和匹配字符串,Mapper函數為RegMapper類,Reduce函數是什么都不做,直接把中間結果輸出到最終結果的的IdentityReducer類,運行Job。整個代碼非常簡單,絲毫沒有分布式編程的任何細節。

感謝各位的閱讀!關于“Hadoop如何實現”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,讓大家可以學到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

伊金霍洛旗| 蛟河市| 镇江市| 格尔木市| 太仆寺旗| 康保县| 岑巩县| 太康县| 诏安县| 延庆县| 临邑县| 镇雄县| 青浦区| 旬阳县| 平泉县| 济南市| 天全县| 五峰| 大港区| 牡丹江市| 阳信县| 赣榆县| 仙桃市| 郑州市| 东明县| 仙居县| 灵丘县| 库尔勒市| 麻阳| 开平市| 安义县| 东丰县| 册亨县| 宜城市| 河东区| 水城县| 磐安县| 贵州省| 庄河市| 郧西县| 广宗县|