91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Apache Hudi統一批和近實時分析的存儲和服務是什么

發布時間：2021-12-10 09:53:55 來源：億速云閱讀：142 作者：柒染欄目：大數據

Apache Hudi統一批和近實時分析的存儲和服務是什么，相信很多沒有經驗的人對此束手無策，為此本文總結了問題出現的原因和解決方法，通過這篇文章希望你能解決這個問題。

下面介紹了Hudi產生的背景及設計，現在看來也很有意義。

分為產生背景、動機、設計、使用案例、demo幾個模塊講解。

Uber的行程在2018年已經達到700個城市，70個國家，200w+司機的規模。

而數據在Uber中可分為攝取和查詢，而攝取包括從kafka、hdfs上消費數據；查詢則包括使用spark notebook的數據科學家，使用Hive/Presto進行ad hoc查詢和dashboard展示，使用Spark/Hive構建數據管道或ETL任務等。引入Hudi，Hudi可以管理原始數據集，提供upsert、增量處理語義及快照隔離。

流、批處理會共同消費消息中間件（如kafka）的數據，流處理提供小于1min延遲的結果，批處理提供大約1小時延遲的結果，而批處理結果可修正流處理結果，這是一種典型的Lambda架構，即需要維護兩套系統，維護成本會較高。

當使用數據湖后，會提供如下優勢：

1.支持最新數據上的Ad hoc查詢；

2. 近實時處理（微批），很多業務場景并不需要完全實時；

3. 對于數據的處理更為得當，如檢查文件大小，這對HDFS這類存儲非常重要，無需重寫整個分區的處理；

4. 維護成本更低，如不需要復制數據，也不需要維護多套系統。

Hudi作為Uber開源的數據湖框架，抽象了存儲層（支持數據集的變更，增量處理）；為Spark的一個Lib（任意水平擴展，支持將數據存儲至HDFS）；開源（現已在Apache孵化）。

Apache Hudi統一批和近實時分析的存儲和服務是什么

基于Hudi的架構設計，支持upsert，支持增量處理，支持不同的視圖等等，可以看到與典型的Lambda框架不同，此時基于Hudi的分析架構只需要維護Hudi即可，由Hudi提供的能力來滿足上層應用不同的需求。

Apache Hudi統一批和近實時分析的存儲和服務是什么

Hudi在HDFS上管理了數據集，主要包括索引，數據文件和元數據，并且支持Hive/Presto/Spark進行查詢。

Apache Hudi統一批和近實時分析的存儲和服務是什么

Hudi提供了三種不同類型的視圖，讀優化視圖、實時視圖、增量視圖，社區正在重構這三個定義，分別為讀優化視圖、快照視圖、增量視圖。

Apache Hudi統一批和近實時分析的存儲和服務是什么

對于COW類型，支持讀優化視圖，對于MOR類型，支持讀優化視圖、實時視圖，而對于最新的發布版而言，COW支持讀優化視圖和增量視圖，MOR支持讀優化視圖、實時視圖和增量視圖。

Apache Hudi統一批和近實時分析的存儲和服務是什么

Apache Hudi統一批和近實時分析的存儲和服務是什么

在COW模式下，讀優化視圖僅僅讀取parquet數據文件，在批次1upsert后，讀優化視圖讀取File1和File2文件；在批次2upsert后，讀優化視圖讀取File 1'和File2文件。

Apache Hudi統一批和近實時分析的存儲和服務是什么

使用COW模式可以解決很多問題，但其也存在一些問題，如寫方法，即更新的時延會比較大（由于復制整個文件導致）。

Apache Hudi統一批和近實時分析的存儲和服務是什么

下面的工作流表示了如何處理延遲到達的更新，更新首先會反應至源表（Source table），然后源表更新至ETL table A，然后更新至ETL table B，這種工作流的延遲更大。

Apache Hudi統一批和近實時分析的存儲和服務是什么

根據上面分析，可歸納出如下問題，高社區延遲、寫放大、數據新鮮度受限以及小文件問題。

Apache Hudi統一批和近實時分析的存儲和服務是什么

與COW模式下更新時復制整個文件不同，可以將更新寫入一個增量文件，這樣便可降低數據攝取延遲，降低寫放大。

Apache Hudi統一批和近實時分析的存儲和服務是什么

MOR模式下提供了讀優化視圖和實時視圖。

Apache Hudi統一批和近實時分析的存儲和服務是什么

在批次1upsert之后，讀優化視圖讀取的也是Parquet文件，在批次2upsert之后，實時視圖讀取的是parquet文件和日志文件合并的結果。

Apache Hudi統一批和近實時分析的存儲和服務是什么

對比Hudi上不同視圖下的權衡，COW下的讀優化視圖擁有Parquet原生文件讀取性能，但數據攝取較慢；MOR下的讀優化視圖也有parquet原生文件讀取性能，但會讀取到過期的數據（并未更新）；MOR下實時視圖數據攝取性能高，在讀的時候會合并；合并（compaction）會將日志文件轉化為parquet文件，從實時視圖轉化為讀優化視圖。

Apache Hudi統一批和近實時分析的存儲和服務是什么

針對compaction（壓縮），Hudi提供了基于MVCC無鎖的異步壓縮方式，這樣便可解耦數據攝取，使得數據攝取不受影響。

Apache Hudi統一批和近實時分析的存儲和服務是什么

異步壓縮會將日志文件和數據文件合并形成新的數據文件，之后讀優化視圖便可反應最新的數據。

Apache Hudi統一批和近實時分析的存儲和服務是什么

Hudi還提供了并發保證，如快照隔離，批次寫入的原子性。

Apache Hudi統一批和近實時分析的存儲和服務是什么

Hudi使用案例分享

Apache Hudi統一批和近實時分析的存儲和服務是什么

在Uber，通過Uber自研的Marmaray消費kafka中的數據，然后再寫入Hudi數據湖，每天超過1000個數據集的100TB數據，Hudi管理的數據集大小已經達到10PB。

Apache Hudi統一批和近實時分析的存儲和服務是什么

而對于HDFS的典型的小文件問題，Hudi在攝取數據時會自動處理小文件來減輕namenode的壓力；支持大文件寫入；支持對現有文件的增量更新。

Apache Hudi統一批和近實時分析的存儲和服務是什么

Hudi也考慮了數據隱私問題，即數據如何刪除，Hudi提供了軟刪除和硬刪除兩種方式，軟刪除不會刪除key，只會刪除內容，而硬刪除會刪除key和內容。

Apache Hudi統一批和近實時分析的存儲和服務是什么

使用Hudi的增量處理來構建增量管道和dashboard。

Apache Hudi統一批和近實時分析的存儲和服務是什么

看完上述內容，你們掌握Apache Hudi統一批和近實時分析的存儲和服務是什么的方法了嗎？如果還想學到更多技能或想了解更多相關內容，歡迎關注億速云行業資訊頻道，感謝各位的閱讀！

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
Hive中RCFile數據存儲格式的示例分析
下一篇新聞：
Hive CLI beeline是什么

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

呼图壁县| 阿荣旗| 叶城县| 芦山县| 阿巴嘎旗| 法库县| 白城市| 淮阳县| 祥云县| 安陆市| 泸州市| 漯河市| 泰宁县| 阿克陶县| 黄平县| 荥经县| 长海县| 宁强县| 新乡县| 锡林浩特市| 广州市| 玛曲县| 启东市| 攀枝花市| 河间市| 菏泽市| 龙州县| 江安县| 安庆市| 罗源县| 灵川县| 南部县| 盐池县| 中西区| 霍城县| 石阡县| 丰都县| 团风县| 阜新市| 邻水| 新龙县|