您好,登錄后才能下訂單哦!
小編給大家分享一下Hadoop中的MapReduce是什么,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
在MapReduce中,它也是主從結構,主節點:JobTracker,從節點:TaskTracker。主節點只有一個從節點有很多個,主節點在主機上,從節點分布到其他機器上。
JobTracker:
作用:
1、負責接收用戶提交的作業;
2、負責把計算任務分給TaskTracker執行;
3、監控TaskTracker的執行情況;
TaskTracker:
作用:
1、執行JobTracker分配的計算任務;
JobClient:
概念:是用戶作業與JobTracker交互的主要接口。
作用:
1、負責提交作業,負責啟動;
2、跟蹤任務執行;
3、訪問任務狀態和日志等;
Hadoop中基于RPC的通信協議
1、JobSubmissionProtocol:是JobClient與JobTracker通信的接口。
執行過程:TaskTracker每隔一段時間向JobTracker發送hearbeat(心跳機制)提交當前TaskTracker所在機
器的內存,CPU,磁盤等狀態信息,是否可以接收新任務等信息;JobTracker接收到hearbeat
給TaskTracker返回需要所做的job或task操作,是否開啟新的任務。TaskTracker可以從取
得JobTracker取得當前文件系統路徑,需要執行Job的Jar文件路徑等.
2、InterTrackerProtocol:是TaskTracker與JobTracker通信的接口。
作用:主要用來提交,執行Job和取得當前Job狀態;JobClient可以通過此協議提交Job(submitJob),
取得當前Job的參數,狀態,Counter,Task狀態,文件系統路徑,jar文件路徑,所有Job的狀
態,還有Job隊列的信息,此外JobClient還可以提交KillJob和設定Job優先級等任務到 JobTracker。
MapReduce中驅動默認設置:
InputFormat | TextInputFormat |
MapperClass | IdentityMapper |
MapOutputKeyClass | LongWritable |
MapOutputValueClass | Text |
PartitionerClass | HashPartitioner |
ReduceClass | IdentityReduce |
OutputKeyClass | LongWritable |
OutputValueClass | Text |
OutputFormatClass | TextOutputFormat |
MapReduce中常見的算法
1、單詞計數
2、數據去重
3、排序
4、Top k
5、選擇
6、投影
7、分組
8、多表連接
9、單表關聯
MapReduce原理
MapReduce為什么能實現失敗檢測?
正是由于采用了無共享框架,所有MapReduce才能夠實現失敗檢測,這也意味著各個任務之間彼此獨立。
MapReduce作業:
MapReduce作業(Job)是客戶端需要執行的一個工作單元:它包括輸入數據,MapReduce程序和配置信息等。
注意:在MapReduce中不能處理文件名以_(下劃線)開頭的文件.
以上是“Hadoop中的MapReduce是什么”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。