您好,登錄后才能下訂單哦!
小編給大家分享一下Cloudera下如何實現Hadoop,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
前言
Hadoop 是一個實現了 MapReduce 計算模型的開源分布式并行編程框架。MapReduce的概念來源于Google實驗室,它是一個簡化并行計算的編程模型,適用于大規模集群上的海量數據處理,目前最成功的應用是分布式搜索引擎。隨著2007年底該模式Java開源實現項目Apache Hadoop的出現,使得程序員可以輕松地編寫分布式并行程序,并將其運行于計算機集群上,完成海量數據的計算。近兩年尤其是今年國內外采用 MapReduce模型的應用也逐漸豐富起來,如像NTT KDDI和中國移動這類的電信公司采用該模型分析用戶信息,優化網絡配置;美國供電局采用該模型來分析電網現狀;包括VISA和JP摩根在內的金融公司采用該模型來分析股票數據;包括Amazon和ebay在內的零售商和電子商務公司也開始采用該模型;甚至部分生物公司也采用該模型來進行DNA測序和分析。然而Hadoop安裝、部署、管理的難度非常大,這使用很多用戶對Hadoop望而卻步,好在這種情況不久就得到了改善,Cloudera提供了非常簡單的Hadoop的發布版本,能夠十分方便地對Hadoop進行安裝、部署和管理,這導致目前大約有75%的Hadoop新用戶使用Cloudera。下面是利用Cloudera 實現Hadoop 的具體規劃。
規劃
運行模式
Hadoop有三種運行模式:單機(非分布)運行模式、偽分布運行模式和分布式運行模式。其中前兩種運行模式體現不了 Hadoop 分布式計算的優勢,并沒有什么實際意義(當然它們對程序的測試及調試還是很有幫助的),因此在這里還是采用實際環境中使用的分布式運行模式來部署。
主機規劃
在這里擬采用三臺主機搭建Hadoop環境,由于后期還需要測試增刪主機及跨網段主機對Hadoop環境的影響,特將Hadoop主機規劃如下:Hadoop-01 10.137.253.201Hadoop-02 10.137.253.202Hadoop-03 10.137.253.203 準備后期加入的測試主機Hadoop-04 10.137.253.204Firehare-303 10.10.3.30 準備后期加入的跨網段測試主機
Hadoop環境規劃
對于Hadoop來說,最主要的是兩個內容,一是分布式文件系統HDFS,一是MapReduce計算模型。在分布式文件系統HDFS看來,節點分為NameNode 和DataNode,其中NameNode只有一個,DataNode可以是很多;在MapReduce計算模型看來,節點又可分為JobTracker 和 TaskTracker,其中JobTracker只有一個,TaskTracker可以是很多。因此在實際的Hadoop環境中通常有兩臺主節點,一臺作為NameNode(I/O節點??),一臺作為JobTracker(管理節點??),剩下的都是從節點,同時當做DataNode和 TaskTracker使用。當然也可以將NameNode和JobTracker安裝在一臺主節點上。由于測試機數量有限,所以在這里是讓 Hadoop-01做為Namenode和Jobtracker,其它主機則作為DataNode和TaskTracker(如果Hadoop環境中主機數量很多的話,還是建議將Namenode和JobTracker部署到不同的主機,以提高計算的性能)。
以上是“Cloudera下如何實現Hadoop”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。