您好,登錄后才能下訂單哦!
這篇文章主要介紹“怎么安裝配置MapReduce”,在日常操作中,相信很多人在怎么安裝配置MapReduce問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”怎么安裝配置MapReduce”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
win10 安裝hadoop 3.1.2
解壓 tar.gz
配置JAVA_HOME
配置HADOOP_HOME ,PATH等
tar -zxvf hadoop-3.1.2.tar vim .bashrc export JAVA_HOME export PATH=$PATH:${JAVA_HOME}/bin export HADOOP_HOME export PATH=$PATH:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin
hdoop version 驗證是否成功
三種模式
獨立(或本地)模式,無需運行任何守護進程,所有程序都在同一個JVM上執行。適合測試和調試MapReduce 程序
偽分布式,運行在本地機器上,模擬一個小規模的集群
全分布式
修改配置文件,參照代碼 -- hdoopconfig
配置ssh
ssh-keygen -t rsa -p '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys ssh localhost #測試
格式化HDFS hdfs namenode -format
啟動和終止守護進程
start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver
終止服務
mr-jobhistory-daemon.sh stop historyserver
stop-yarn.sh
stop-dfs.sh
創建用戶目錄
hadoop fs -mkdir -p /user/$USER
新api 位于 org.apache.hadoop.mapreduce
新api 大量使用了 Context
新api 通過Job來完成作業控制
hadoop 權威指代碼
數據流
輸入數據 MapReduce 程序 配置信息
Hadoop 將作業分成若干個任務來執行,并通過 YARN進行調度。如果一個任務失敗,它將在另一個不同的節點上自動重新調度運行
Hadoop將MapReduce 的輸入數據劃分成等長的小數據塊,成為輸入分片。每個分片構建一個map任務
分片大小要合適,一個合理分片大小趨向于HDFS一個塊的大小默認128MB
Hadoop 在存儲有輸入數據(HDFS中的數據)的節點上運行map任務,可獲得最佳性能,因為不需要使用帶寬資源
map任務將輸出寫入本地硬盤而非HDFS,因為是中間結果
混洗?
combiner 函數
combiner 函數輸出作為reduce 函數的輸入,可以減少map和reduce任務之間的數據傳輸
combiner的規則制約著可用的函數類型
不能取代reduce ,例如求平均值得程序就不能用combiner
hadoop Streaming
允許使用非java 語言開發MapReduce
到此,關于“怎么安裝配置MapReduce”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。