您好,登錄后才能下訂單哦!
這篇文章主要講解了“HadoopStudio中怎么實現MapReduce應用”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“HadoopStudio中怎么實現MapReduce應用”吧!
HadoopStudio開發部署MapReduce應用
HadoopStudio是基于Hadoop框架的MapReduce應用集成開發和部署環境。HadoopStudio以NetBeans模塊插件的方式使用,可在NetBeans插件中心獲取。開發者可以通過HadoopStudio的可視化界面,部署分布在不同節點的計算任務,并監控MapReduce處理過程中各階段的輸入、輸出以及交互過程。
針對MapReduce任務執行過程的各要素,HadoopStudio提供了HDFS、JobTracker以及Cluster節點的配置工具。使用HadoopStudio配置之前,需要預先在目標機器上部署Hadoop作業執行環境,在UbuntuLinux上的Hadoop配置過程,已有詳盡教程(單節點,多節點)可供參考。
在HadoopStudio中對作業節點配置,首先需要定義負責數據存儲的Filesystems節點,可選節點包含本地磁盤訪問、HDFS文件系統和AmazonS3連接三種方式。HDFS節點的配置,需要指定NameNode節點的地址、訪問端口和登錄用戶名,其中登錄用戶名為可選項。對于目前***的r0.20版本,Filesystems節點的端口配置由conf/hadoop-site.xml改為在conf/core-site.xml中設定。
在HadoopCluster配置部分,添加遠程計算節點對應的JobTracker,指定節點的地址,并在下拉列表中選擇之前添加的Filesystems節點,添加的節點則會出現在Hadoop可用節點的列表中。在主節點計算任務啟動之后,包含DataNode、TaskTracker、JobTracker、NameNode、SecondaryNameNode進程。對于數據處理,集群中結點由一個NameNode和若干DataNode組成,SecondaryNameNode為NameNode的備份。計算任務中,節點由一個JobTracker和若干TaskTracker組成,JobTracker負責任務調度,TaskTracker執行并行計算任務。TaskTracker須運行在DataNode上以獲取用于計算的數據。
對于已編寫的計算任務,HadoopStudio提供了簡化的作業部署流程。首先在HadoopJobs中添加生成好的jar包(如Hadoop自帶的Hadoop-*-examples.jar示例),之后選擇要執行的主類并添加依賴項,并選擇執行任務的目標Cluster節點和目標Filesystems后即可啟動計算任務。同時,HadoopStudio提供了實時顯示的MapReduce任務工作流視圖,可顯示任務執行過程中的作業類型、完成情況、執行狀態、起止時間、報錯信息以及輸出結果等內容。
Hadoop應用開發方面,HadoopStudio將Hadoop類庫進行打包,可直接在項目中添加所有依賴項。編碼過程中,HadoopStudio為每種作業的提供了模板,并能夠在代碼編輯的同時自動對模板視圖進行更新。
目前HadoopStudio支持Hadoop0.18.x版本的ClientAPI和Hadoop0.20.x的Client與Server的API,并且支持不同版本Hadoop的混合使用。但HadoopStudio目前的文檔比較簡單,感興趣的朋友可以在freshmeat.net的項目站點跟蹤HadoopStudio的***信息。
感謝各位的閱讀,以上就是“HadoopStudio中怎么實現MapReduce應用”的內容了,經過本文的學習后,相信大家對HadoopStudio中怎么實現MapReduce應用這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。