您好,登錄后才能下訂單哦!
本篇內容介紹了“Hadoop需要知道的事項有哪些”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!
如何工作的?
Hadoop是從Google文件系統發源而來,并且他是一個用Java開發的跨平臺的應用.核心組件有: Hadoop Common,擁有其他模塊所依賴的庫和基礎工具,Hadoop分布式文件系統 (HDFS), 負責存儲, Hadoop YARN, 管理計算資源, 和Hadoop MapReduce, 負責處理的過程。
Hadoop把文件拆成小塊并且把他們分發給集群中的節點.然后,它使用打包的代碼分發到節點上并行處理數據. 這意味著可以處理數據的速度會比使用傳統的體系結構的更快.
一個典型的Hadoop集群都會有主節點和從節點或者叫工作節點. 主節點有一個任務跟蹤器,任務調度,名字節點和數據節點組成.從節點通常作為一個數據節點和任務調度器,不過特殊的場景下程序可能只有數據節點然后在其他的從節點進行處理計算。
在大的Hadoop集群中,通常會使用一個專用的名字節點來管理HDFS節點的文件系統索引信息。這防止了文件系統的數據丟失和損壞。
Hadoop文件系統
Hadoop分布式文件系統是Hadoop擴展的核心. HDFS當處理大數據的優點是,它可以跨多臺機器存儲gb或tb大小的文件. 因為數據的副本存在了多個機器上,而不是使用附加RAID來在單臺機器上保證. 不過RAID還是會被用來提升性能. 提供進一步的保護,允許主NameNode服務器自動切換到備份失敗的事件。
HDFS被設計成可以直接掛載在Linux系統的用戶空間(FUSE)或者虛擬文件系統. 通過一個Java API來處理文件的訪問權限.HDFS被設計為跨硬件平臺和操作系統的可移植性。
Hadoop也能配合其他的文件系統工作 ,包括FTP, Amazon S3 和Microsoft Azure, 然而,它需要一個特定的文件系統的橋梁,以確保沒有性能損失。
Hadoop 和他的云
相對傳統數據中心, Hadoop也經常被部署在云上. 這樣做的好處是,公司可以很容易地部署Hadoop更迅速和較低的安裝費用. 大多數云供應商都提供某種形式的Hadoop部署方案。
Microsoft 提供Azure HDInsight, 允許用戶使用他們所需要的節點的數量,并收取他們使用的計算能力和存儲的費用. HDInsight是基于 Hortonworks 并且可以很容易地在內部系統和云備份,或開發和測試之間移動數據.
Amazon Elastic Compute Cloud (EC2) 和Amazon Simple Storage Service (S3) 也支持 Hadoop, 加上Amazon 提供了 Elastic MapReduce 產品,所以能自動化Hadoop集群的配置,作業的運行和終止以及處理EC2和S3存儲之間的數據傳輸。
Google提供一個管理Spark和Hadoop 服務叫做Cloud Dataproc,用一系列的Shell腳本來創建和管理 Spark和Hadoop 集群.他支持第三方的Hadoop 發行版像Cloudera, Hortonworks和MapR.Google Cloud Storage 也可以和 Hadoop 配合使用.
Hadoop 近況
Hadoop已經有些初步的進展. 2015年的 Gartner study只有18%的人表示會在接下來的兩年使用.不愿意采用這種技術的原因包括成本太高,相對于預期的利益, 和缺乏必要的技能。
仍然有一些高調的用戶。 雅虎的搜索引擎由Hadoop驅動,公司已經通過開源社區向公眾提供了其使用的版本的源代碼。 Facebook也使用Hadoop,并且在2012年該公司宣布其集群具有100PB的數據,并且每天增長約為一個PB。
盡管初始占有慢,Hadoop也在增長。 Allied Market Research在2016年初的一項調查估計,到2021年Hadoop市場的收入將超過840億美元。
由于Hadoop工作的方式,看到了一些回歸到舊時代批處理信息的東西。 雖然從大量歷史數據中提取洞察力很有用,但對于實時應用程序或連續傳入的數據流有效性較低。
特性
Hadoop一直與大數據密切相關。隨著物聯網設備的擴展以及收集的數據量增加,因而Hadoop的處理能力需求也將增加。其快速處理大數據的能力意味著Hadoop系統對于做日常業務決定起著越來越重要的作用。
各種規模的組織都熱衷于使用大數據。Hadoop開源的特性以及其在商業硬件上運行的能力意味著其處理能力不僅在大型公司可用,也可以幫助大眾使用大數據。
對于所有這些運作成功的公司需要能夠利用Hadoop可以提供的優勢。 這意味著需要解決技能差距,并且可能仍然需要那些掌握Java,Linux,文件系統和數據庫背景的員工,這些員工能夠快速獲得Hadoop技能。 這也意味著越來越多地使用云以一種不太復雜的方式提供Hadoop的優勢。
“Hadoop需要知道的事項有哪些”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。