您好,登錄后才能下訂單哦!
Hadoop3.x中增強了很多特性,并且也改進了很多地方,是Hadoop2.x的升級(這不是廢話嗎)。需要注意的是,在Hadoop3.x中,不能再使用jdk1.7,而是需要升級到jdk1.8以上版本。這是因為Hadoop 2.0是基于JDK 1.7開發的,而JDK 1.7在2015年4月已停止更新,這直接迫使Hadoop社區基于JDK 1.8重新發布一個新的Hadoop版本,而這正是Hadoop3.x。Hadoop3.x以后將會調整方案架構,將Mapreduce 基于內存+io+磁盤,共同處理數據。
Hadoop 3.x中引入了一些重要的功能和優化,包括HDFS 可擦除編碼、多Namenode支持、MR Native Task優化、YARN基于cgroup的內存和磁盤IO隔離、YARN container resizing等。
Hadoop3.x官方文檔地址如下:
http://hadoop.apache.org/docs/r3.0.1/
Hadoop Common改進:
精簡Hadoop內核,包括剔除過期的API和實現,將默認組件實現替換成最高效的實現(比如將FileOutputCommitter缺省實現換為v2版本,廢除hftp轉由webhdfs替代,移除Hadoop子實現序列化庫org.apache.hadoop.Records
lasspath isolation以防止不同版本jar包沖突,比如google Guava在混合使用Hadoop、HBase和Spark時,很容易產生沖突。(https://issues.apache.org/jira/browse/HADOOP-11656)
Hadoop3.x中最大改變的是HDFS,HDFS通過最近black塊計算,根據最近計算原則,本地black塊,加入到內存,先計算,通過IO,共享內存計算區域,最后快速形成計算結果。
HDFS支持數據的擦除編碼,這使得HDFS在不降低可靠性的前提下,節省一半存儲空間。(https://issues.apache.org/jira/browse/HDFS-7285)
關于這兩個特性的官方文檔地址:
http://hadoop.apache.org/docs/r3.0.1/hadoop-project-dist/hadoop-hdfs/HDFSErasureCoding.html
http://hadoop.apache.org/docs/r3.0.1/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html
官方文檔地址:
http://hadoop.apache.org/docs/r3.0.1/hadoop-yarn/hadoop-yarn-site/TimelineServiceV2.html
Tasknative優化。為MapReduce增加了C/C++的map output collector實現(包括Spill,Sort和IFile等),通過作業級別參數調整就可切換到該實現上。對于shuffle密集型應用,其性能可提高約30%。(https://issues.apache.org/jira/browse/MAPREDUCE-2841)
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。