您好,登錄后才能下訂單哦!
本篇內容主要講解“hadoop搭建及wordcount實例運行分析”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“hadoop搭建及wordcount實例運行分析”吧!
前提準備:由于hadoop是基于linux,那就先要在windows下模擬出linux環境來,現推薦幾款軟件:cygwin、hadoop4win、HDP和vmware。
cygwin:Cygwin是一個在windows平臺上運行的類UNIX模擬環境,Cygwin 提供一個UNIX 模擬 DLL 以及在其上層構建的多種可以在 Linux 系統中找到的軟件包,在 Windows XP SP3 以上的版本提供良好的支持。簡單說就是unix下的命令行和windows的cmd一樣!
hadoop4win:是一個集成包包括cygwin、hadoop、jdk、hbase。這些都是hadoop需要的,安裝上hadoop4win都包括了,直接運行hadoop就行了。這個還在增加包,有個缺點就是自帶的hadoop版本是0.2.0有點低最新的是2.6.0.
HDP:Hortonworks Data Platform (HDP) 完全在開源的環境下設計、開發和構建,提供企業可用的數據平臺,讓組織能夠采用現代化數據架構。
HDP 以 YARN 作為其架構中心,是一系列處理方法(從批量到交互式再到實時)的多個工作負荷數據處理平臺,擁有企業數據平臺所需的關鍵能力 - 廣泛的管制、安全和運營。
這個是個集成工具,可以在vmware下打開,這是個虛擬機,可以直接打開不用安裝。估計這是趨勢。我在研究中,大家可以一起討論。
正文開始:我用了3中方法,第一種失敗,第二種和第3中成功,花了不少時間,真是獲益頗多。
1:現在windows下安裝cygwin,這個安裝起來比較麻煩,俺花了3天時間,最后還是沒成功,這是很重要的一步。雖然沒成功,可學了不少東西,對后面其他的安裝很有幫助。*下載cygwin一定去官網下最新的,要不然安裝是有一步提示選擇鏡像,就會出錯,或者直接在地址欄輸入http://www.cygwin.com/setup-x86.exe這是32位,要是64位把x86改成x86_64就行了。
安裝的過程中會提示安裝包,有兩個要選上openssh和openssl這兩個在net目錄下,或者直接在上面搜就可以。這2個一定要選的。安裝好后要配置運行cygwin輸入ssh-host-config,下面的我就不說了,網上一搜一大把。中間會提示錯誤/var pression denied 這就要給這個文件付權限。只要輸入下面代碼:chmod 777 /var和 chown :Users /var這兩個多試幾遍就行了,我的也是有時候數一遍不行。777代表最高權限,網上還有其他數字,這個就行。
最重要的一步:我就卡在這里了,開啟ssh服務,用命令net start sshd,再把私鑰設置成公搖命令:ssh-keygen這一步會有提示直接點回車就行,接著輸入cd ~/.ssh、cp id_rsa.pub authorized_keys.
最后要驗證net start sshd輸入命令ssh localhost沒提示說明正確。如果提示Connection closed by ::1 就錯了
。我的就到這就走不動了,因為跑hadoop項目是ssh要聯通,要不然跑不動的。cygwin配置網上很多,可以嘗試,接下來就是俺成功的配置。
注意:可能和系統有關,我換了個win7,安裝上了,原來問win8.1安裝不上,具體沒去研究。你可以試試換個系統試試
2:下載hadoop4win 地址http://sourceforge.net/projects/hadoop4win/files/0.1.4/hadoop4win-setup-net_0.1.4.zip/download 直接安裝就行了,里面的東西都有了,運行hadoop4win,先看安裝目錄有個opt/hadoop/bin,進入這個文件夾內,(注意:安裝時必須以管理員身份運行,不然會出現安裝不全,缺少快捷方式的錯誤)輸入命令 ls 下圖:
選擇里面的hadoop-daemon.sh腳本命令:hadoop-daemon.sh start namenode
用jps命令查看進程
顯示namenode 這個進程說明成功了,一共有5個進程都要開啟,namenode、datanode、secondarynamenode、jobtracker、tasktracker.這5個有順序的就是上面順序,具體這5個的作用自已可以google,下圖顯示
接下來打開瀏覽器輸入:localhost:50030和localhost:50070,查看是否成功顯示如下:
1:
2:
顯示這兩個說明你安裝成功了,下面跑一個wordcount例子,是hadoop4win自帶的一個jar包,有2種方法一個命令行,一個是eclipse下,新手建議命令行,這樣可以了解過程,熟悉后在eclipse。
先建一個txt文件隨便輸入內容我的如下
把這個文件上傳到HDFS文件系統下現在hadoop4win命令下進入本地目錄下 cd d: 再用命令:hadoop fs -put hello.tex /
接下來打開localhost:50070查看文件,點擊browser the filesystem,看有沒有hello.txt
1:
2:
這樣就是給上傳成功了。接下來運行jar包。命令如下圖
運行hadoop-0.20.2-examples.jar這個包,命令如下:hadoop jar hadoop-0.20.2-examples.jar wordcount hello.txt /sum.txt其中、sum.txt是自己定義的文件,可以其他。圖如下:
然后打開localhost:50070,就會出現sum.txt,查看里面的內容,點開查看內容:
上面的寫的很賤減略,能力有限,其中許多linux下的命令沒說,看不懂的可以看一下這個視頻很詳細 http://www.ppvke.com/10354.html
上面的算是講完了,可能要花點時間去查看其中的很多地方,多去想,多動手,多google!下面是第3種正在研究中,分享一下子:
3:
先安裝虛擬機,vmware這就不講了,安裝后打開虛擬機導入下載的文件,地址:http://zh.hortonworks.com/hdp/downloads/
直接打開就行了,打開后到最后會出現一個地址形式是:192.168.xxx.xxx
到此,相信大家對“hadoop搭建及wordcount實例運行分析”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。