Hadoop的開源工具有哪些

發布時間：2021-12-10 09:21:48 來源：億速云閱讀：198 作者：iii 欄目：云計算

本篇內容主要講解“Hadoop的開源工具有哪些”，感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷，實用性強。下面就讓小編來帶大家學習“Hadoop的開源工具有哪些”吧!

1. Apache Mesos

代碼托管地址： Apache SVN

Mesos提供了高效、跨分布式應用程序和框架的資源隔離和共享，支持Hadoop、 MPI、Hypertable、Spark等。

Mesos是Apache孵化器中的一個開源項目，使用ZooKeeper實現容錯復制，使用Linux Containers來隔離任務，支持多種資源計劃分配（內存和CPU）。提供Java、Python和C++ APIs來開發新的并行應用程序，提供基于Web的用戶界面來提查看集群狀態。

Hadoop的開源工具有哪些

2. Hadoop YARN

代碼托管地址： Apache SVN

YARN又被稱為MapReduce 2.0，借鑒Mesos，YARN提出了資源隔離解決方案Container，但是目前尚未成熟，僅僅提供 Java 虛擬機內存的隔離。

對比MapReduce 1.x，YARN架構在客戶端上并未做太大的改變，在調用 API 及接口上還保持大部分的兼容，然而在YARN中，開發人員使用 ResourceManager、ApplicationMaster 與 NodeManager代替了原框架中核心的 JobTracker 和 TaskTracker。其中 ResourceManager 是一個中心的服務，負責調度、啟動每一個 Job 所屬的 ApplicationMaster，另外還監控 ApplicationMaster 的存在情況；NodeManager負責 Container 狀態的維護，并向 RM 保持心跳。ApplicationMaster 負責一個 Job 生命周期內的所有工作，類似老的框架中 JobTracker。

Hadoop上的實時解決方案

前面我們有說過，在互聯網公司中基于業務邏輯需求，企業往往會采用多種計算框架，比如從事搜索業務的公司：網頁索引建立用MapReduce，自然語言處理用Spark等。本節為大家分享的則是Storm、Impala、Spark三個框架：

Hadoop的開源工具有哪些

3. Cloudera Impala

代碼托管地址： GitHub

Impala是由Cloudera開發，一個開源的Massively Parallel Processing（MPP）查詢引擎。與Hive相同的元數據、SQL語法、ODBC驅動程序和用戶接口(Hue Beeswax)，可以直接在HDFS或HBase上提供快速、交互式SQL查詢。Impala是在Dremel的啟發下開發的，第一個版本發布于2012年末。

Impala不再使用緩慢的Hive+MapReduce批處理，而是通過與商用并行關系數據庫中類似的分布式查詢引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分組成），可以直接從HDFS或者HBase中用SELECT、JOIN和統計函數查詢數據，從而大大降低了延遲。

Hadoop的開源工具有哪些

4. Spark

代碼托管地址： Apache

Spark是個開源的數據分析集群計算框架，最初由加州大學伯克利分校AMPLab開發，建立于HDFS之上。Spark與Hadoop一樣，用于構建大規模、低延時的數據分析應用。Spark采用Scala語言實現，使用Scala作為應用框架。

Spark采用基于內存的分布式數據集，優化了迭代式的工作負載以及交互式查詢。與Hadoop不同的是，Spark和Scala緊密集成，Scala像管理本地collective對象那樣管理分布式數據集。Spark支持分布式數據集上的迭代式任務，實際上可以在Hadoop文件系統上與Hadoop一起運行（通過YARN、Mesos等實現）。

Hadoop的開源工具有哪些

5. Storm

代碼托管地址： GitHub

Storm是一個分布式的、容錯的實時計算系統，由BackType開發，后被Twitter捕獲。Storm屬于流處理平臺，多用于實時計算并更新數據庫。Storm也可被用于“連續計算”（continuous computation），對數據流做連續查詢，在計算時就將結果以流的形式輸出給用戶。它還可被用于“分布式RPC”，以并行的方式運行昂貴的運算。

Hadoop上的其它解決方案

就像前文說，基于業務對實時的需求，各個實驗室發明了Storm、Impala、Spark、Samza等流實時處理工具。而本節我們將分享的是實驗室基于性能、兼容性、數據類型研究的開源解決方案，其中包括Shark、Phoenix、Apache Accumulo、Apache Drill、Apache Giraph、Apache Hama、Apache Tez、Apache Ambari。

Hadoop的開源工具有哪些

6. Shark

代碼托管地址： GitHub

Shark，代表了“Hive on Spark”，一個專為Spark打造的大規模數據倉庫系統，兼容Apache Hive。無需修改現有的數據或者查詢，就可以用100倍的速度執行Hive QL。

Shark支持Hive查詢語言、元存儲、序列化格式及自定義函數，與現有Hive部署無縫集成，是一個更快、更強大的替代方案。

Hadoop的開源工具有哪些

7. Phoenix

代碼托管地址： GitHub

Phoenix是構建在Apache HBase之上的一個SQL中間層，完全使用Java編寫，提供了一個客戶端可嵌入的JDBC驅動。Phoenix查詢引擎會將SQL查詢轉換為一個或多個HBase scan，并編排執行以生成標準的JDBC結果集。直接使用HBase API、協同處理器與自定義過濾器，對于簡單查詢來說，其性能量級是毫秒，對于百萬級別的行數來說，其性能量級是秒。Phoenix完全托管在GitHub之上。

Phoenix值得關注的特性包括：1，嵌入式的JDBC驅動，實現了大部分的java.sql接口，包括元數據API；2，可以通過多個行鍵或是鍵/值單元對列進行建模；3，DDL支持；4，版本化的模式倉庫；5，DML支持；5，通過客戶端的批處理實現的有限的事務支持；6，緊跟ANSI SQL標準。

Hadoop的開源工具有哪些

8. Apache Accumulo

代碼托管地址： Apache SVN

Apache Accumulo是一個可靠的、可伸縮的、高性能、排序分布式的鍵值存儲解決方案，基于單元訪問控制以及可定制的服務器端處理。使用 Google BigTable設計思路，基于Apache Hadoop、Zookeeper和Thrift構建。Accumulo最早由NSA開發，后被捐獻給了Apache基金會。

對比Google BigTable，Accumulo主要提升在基于單元的訪問及服務器端的編程機制，后一處修改讓Accumulo可以在數據處理過程中任意點修改鍵值對。

Hadoop的開源工具有哪些

9. Apache Drill

代碼托管地址： GitHub

本質上，Apache Drill是Google Dremel的開源實現，本質是一個分布式的mpp查詢層，支持SQL及一些用于NoSQL和Hadoop數據存儲系統上的語言，將有助于Hadoop用戶實現更快查詢海量數據集的目的。當下Drill還只能算上一個框架，只包含了Drill愿景中的初始功能。

Drill的目的在于支持更廣泛的數據源、數據格式及查詢語言，可以通過對PB字節數據的快速掃描（大約幾秒內）完成相關分析，將是一個專為互動分析大型數據集的分布式系統。

Hadoop的開源工具有哪些

10. Apache Giraph

代碼托管地址： GitHub

Apache Giraph是一個可伸縮的分布式迭代圖處理系統，靈感來自BSP（bulk synchronous parallel）和Google的Pregel，與它們區別于則是是開源、基于 Hadoop 的架構等。

Giraph處理平臺適用于運行大規模的邏輯計算，比如頁面排行、共享鏈接、基于個性化排行等。Giraph專注于社交圖計算，被Facebook作為其Open Graph工具的核心，幾分鐘內處理數萬億次用戶及其行為之間的連接。

Hadoop的開源工具有哪些

11. Apache Hama

代碼托管地址： GitHub

Apache Hama是一個建立在Hadoop上基于BSP（Bulk Synchronous Parallel）的計算框架，模仿了Google的Pregel。用來處理大規模的科學計算，特別是矩陣和圖計算。集群環境中的系統架構由 BSPMaster/GroomServer（Computation Engine）、Zookeeper（Distributed Locking）、HDFS/HBase（Storage Systems）這3大塊組成。

Hadoop的開源工具有哪些

12. Apache Tez

代碼托管地址： GitHub

Apache Tez是基于Hadoop Yarn之上的DAG（有向無環圖，Directed Acyclic Graph）計算框架。它把Map/Reduce過程拆分成若干個子過程，同時可以把多個Map/Reduce任務組合成一個較大的DAG任務，減少了Map/Reduce之間的文件存儲。同時合理組合其子過程，減少任務的運行時間。由Hortonworks開發并提供主要支持。

Hadoop的開源工具有哪些

13. Apache Ambari

代碼托管地址： Apache SVN

Apache Ambari是一個供應、管理和監視Apache Hadoop集群的開源框架，它提供一個直觀的操作工具和一個健壯的Hadoop API,可以隱藏復雜的Hadoop操作，使集群操作大大簡化，首個版本發布于2012年6月。

Apache Ambari現在是一個Apache的頂級項目，早在2011年8月，Hortonworks引進Ambari作為Apache Incubator項目，制定了Hadoop集群極致簡單管理的愿景。在兩年多的開發社區顯著成長，從一個小團隊，成長為Hortonworks各種組織的貢獻者。Ambari用戶群一直在穩步增長，許多機構依靠Ambari在其大型數據中心大規模部署和管理Hadoop集群。

目前Apache Ambari支持的Hadoop組件包括：HDFS、MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig及Sqoop。

到此，相信大家對“Hadoop的開源工具有哪些”有了更深的了解，不妨來實際操作一番吧！這里是億速云網站，更多相關內容可以進入相關頻道進行查詢，關注我們，繼續學習！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Hadoop的開源工具有哪些

Hadoop上的實時解決方案

Hadoop上的其它解決方案

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Hadoop的開源工具有哪些

Hadoop上的實時解決方案

Hadoop上的其它解決方案

猜你喜歡

最新資訊

相關推薦

相關標簽