您好,登錄后才能下訂單哦!
這篇文章主要介紹Cloudera Enterprise 6.2.0更新了什么,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
Cloudera Enterprise 6.2.0包括了許多新功能,可用性改進以及性能提升。Cloudera Enterprise 6.2.0同時也包括很多組件版本的更新,如下:
組件 | 組件描述 | 版本 |
Hadoop | 可靠的,可擴展的,分布式的存儲和計算平臺 | v3.0.0 |
HBase | 實時讀寫訪問的可擴展的記錄和表的存儲 | v2.1.2 |
Hive | 具備類SQL接口和ODBC/JDBC驅動的元數據知識庫連接BI應用和Hadoop | v2.1.1 |
Hue | 遵循Apache許可協議的基于瀏覽器的桌面Hadoop接口 | v4.2.0 |
Impala | 遵循Apache許可協議的、針對存放在HDFS和HBase數據的實時SQL查詢引擎 | v3.2.0 |
Kafka | 高度可擴展的、容錯的發布訂閱制消息系統 | V2.1.0 |
Yarn | Hadoop各組件資源協調 | V3.0.0 |
Flume | 收集和聚合日志和事件數據,實時流寫入HDFS或HBase的分布式框架 | v1.9.0 |
Pig | 處理存放在Hadoop里的數據的高級數據流語言 | v0.17.0 |
Solr | 文本、模糊數學和分面搜索引擎 | v7.4.0 |
Spark | 支持循環數據流和內存計算的高速通用數據處理引擎 | v2.4 |
Sqoop | 為集成Hadoop和關系數據庫的數據傳輸引擎 | v1.4.7 |
Zookeeper | 高可靠的分布式協同服務 | v3.4.5 |
Kudu | 一種新的列式存儲 | V1.9 |
Cloudera Manager:
1.在Cloudera Manager中支持共享數據體驗(Shared Data Experience,SDX)。Cloudera Manager現在支持創建一個或多個“計算集群”,為具有更強隔離性和可靠性的獨立租戶提供不同的工作負載,同時使用“數據上下文”(data context)抽象操作共享數據,元數據,安全和治理。這允許在每個租戶的管理中,通過部署來實現存儲和計算的分離,并與私有云基礎設施進行協作。
2.BDR在集群間做數據復制時支持云對象存儲。Cloudera BDR現在支持將存儲在HDFS中的Hive和Impala表直接復制到使用S3和ADLS進行表存儲的集群中,從而實現針對混合云用例的定期同步。
3.支持在YARN中調度GPU資源。Cloudera Manager和YARN一起支持對多個工作負載共享的GPU資源進行自動檢測,隔離和使用報告,以便用戶在集群中請求像GPU這種專有資源時可以被分配到相應的節點上。
4.Automated wire encryption (TLS)設置和秘鑰輪換現在可用于最初未使用TLS的現有CDH集群。
5.針對安全集群中的Hive的AWS/Azure憑據處理,為共享集群中的多個Hive用戶提供對S3/ADLS數據的透明訪問,同時保持云憑據的安全性并遠離最終用戶。
6.支持在Cloudera Manager中配置TLS安全的Hive Metastore數據庫。
7.跨集群網絡帶寬測試工具。Cloudera Manager現在有一個API來測試集群之間的網絡帶寬,有助于確定基礎架構是否適合分離存儲和計算服務
8.自動化的對重復主機進行檢測和主機名遷移。Cloudera Manager現在可以檢測并拒絕重復加入集群的主機,并且可以優雅地容忍托管主機的主機名更改,從而更好地支持自動部署。這個問題可以參考Fayson之前的文章《0519-如何解決Cloudera Manager主機頁面出現重復主機異常》
Hue:
1.在HUE中,我們顯著改進了Impala查詢的故障排查體驗,以便SQL開發人員能夠更快地了解正在發生的事情,花費的時間以及應該優化哪里。
Impala:
1.Impala Web UI中添加了一個新部分(/admission),可提供對Admission Control資源池,運行和排隊查詢以及其他相關指標的查看。
2.添加了一個新的護欄(guardrail),當查詢產生的行數多于護欄(guardrail)限制時自動取消。
3.用戶現在可以設置默認文件格式查詢選項,該選項將應用于未指定STORED AS子句的CREATE TABLE命令。
4.(預覽)零接觸元數據:目前,如果是非Impala引擎,例如Hive或Spark將新分區添加到現有表或新表中,Impala用戶需要運行REFRESH table或INVALIDATE metadata操作后才能訪問它們。在6.2中,我們引入了一種自動機制,可以避免Impala用戶手動刷新元數據。在可配置的時間段內(默認為30秒),Impala用戶可以自動訪問現有表的新添加的分區以及Impala之外的新添加的表。
Hive:
1.編譯鎖刪除:由于HiveServer2(HS2)中存在通用編譯鎖,因此在Hive中編譯單個大型查詢可能會阻止所有其他較小查詢的編譯。在6.2中,已刪除此鎖,并對查詢啟用并行編譯。并行級別是可配置的,默認設置為3。
2.改進了連接池代理的可配置性(DBCP和BoneCP):配置更改為連接池代理,用于從HiveServer2連接到Hive Metastore,例如DBCP和BoneCP需要重新編譯jar。 現在,在6.2中,可以通過更改hive-site.xml文件來完成。
3.Hive現在支持Google Cloud Storage作為表的數據存儲。
安全:
1.HMS Metadata Read Authorization: 在6.2之前,HMS API有一個Sentry插件,授權所有元數據更改(寫入)。現在在6.2中,Sentry的權限也擴展到了讀取元數據。默認情況下,為了向后兼容性,此功能會被關閉。啟用此功能后,直接訪問HMS API的用戶(例如SparkSQL用戶)現在必須至少具有對對象的SELECT訪問權限才能查看與該對象相關的元數據。請注意,Hive和Impala DESCRIBE命令也類似地過濾用戶看到的元數據。
Navigator:
1.列序號 - 現在跟蹤列添加到表中的順序。
2.元數據清除改進:清除可以設置為更高的優先級 - 在確定的時間運行(run at exact time)。注意:Navigator UI將不可用,但不會丟失元數據或審計。
3.批量更新API:合作伙伴產品和客戶集成的元數據更新速度提高了100倍
HBase:
1.串行復制(Serial replication)。此前HBase復制最終是一致的。這意味著更新可以無序傳遞到replication的end-points。Serial replication是replication的一個標志(flag),可確保為replication的end-points傳遞更新。
2.支持Intel Optane內存DC持久內存。 客戶可以將DC持久性內存用于BucketCache,從而可以創建比DRAM更大的bucket cache。
3.Minor replication improvements(新配置選項,驗證復制工具的改進,bug修復)。
Kudu:
1.現在,Kudu可以部署在跨機架,數據中心(DC)或可用區(AZ)的集群中。Kudu Master會將tablet分布到跨機架,DC或AZ,以便在發生故障時提供持續可用性。如果發生機架,DC或AZ中斷,不需要手動進行故障轉移。
Platform:
1.支持部署到Ubuntu 18
以上是“Cloudera Enterprise 6.2.0更新了什么”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。