91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

大數據OLAP系統知識點有哪些

發布時間:2021-12-21 10:00:10 來源:億速云 閱讀:160 作者:iii 欄目:大數據

本篇內容主要講解“大數據OLAP系統知識點有哪些”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“大數據OLAP系統知識點有哪些”吧!

數據生產面臨的挑戰

數據爆炸,每日使用最新維度對歷史數據進行回溯計算。在Kylin的MOLAP模式下存在如下問題:

  • 歷史數據每日刷新,失去了增量的意義。

  • 每日回溯歷史數據量大,10億+的歷史數據回溯。

  • 數據計算耗時3小時+,存儲1TB+,消耗大量計算存儲資源,同時嚴重影響SLA的穩定性。

  • 預計算的大量歷史數據實際使用率低下,實際工作中對歷史的回溯80%集中在近1個月左右,但為了應對所有需求場景,業務要求計算近半年以上的歷史。

  • 不支持明細數據的查詢。

引入MPP引擎,數據現用現算

歷史數據預計算成本巨大,最好的辦法就是現用現算,但現用現算需要強大的并行計算能力。
OLAP的實現有 MOLAP、ROLAP、HOLAP 三種形式。
MOLAP 以Cube為表現形式,但計算與管理成本較高。
ROLAP 需要強大的關系型DB引擎支撐。
長期以來,由于傳統關系型DBMS的數據處理能力有限,所以ROLAP模式受到很大的局限性。隨著分布式、并行化技術成熟應用,MPP引擎逐漸表現出強大的高吞吐、低時延計算能力,號稱“億級秒開”的引擎不在少數,ROLAP模式可以得到更好的延伸。單從業務實際應用考慮,性能在千萬量級關聯查詢現場計算秒開的情況下,已經可以覆蓋到很多應用場景,具備應用的可能性。例如:日數據量的ROLAP現場計算,周、月趨勢的計算,以及明細數據的瀏覽都可以較好的應對。

MOLAP模式的劣勢

  1. 應用層模型復雜,根據業務需要以及Kylin生產需要,還要做較多模型預處理。這樣在不同的業務場景中,模型的利用率也比較低。

  2. Kylin配置過程繁瑣,需要配置模型設計,并配合適當的“剪枝”策略,以實現計算成本與查詢效率的平衡。

  3. 由于MOLAP不支持明細數據的查詢,在“匯總+明細”的應用場景中,明細數據需要同步到DBMS引擎來響應交互,增加了生產的運維成本。

  4. 較多的預處理伴隨著較高的生產成本。

ROLAP模式的優勢

  1. 應用層模型設計簡化,將數據固定在一個穩定的數據粒度即可。比如商家粒度的星形模型,同時復用率也比較高。

  2. App層的業務表達可以通過視圖進行封裝,減少了數據冗余,同時提高了應用的靈活性,降低了運維成本。

  3. 同時支持“匯總+明細”。

  4. 模型輕量標準化,極大的降低了生產成本。

綜上所述,在變化維、非預設維、細粒度統計的應用場景下,使用MPP引擎驅動的ROLAP模式,可以簡化模型設計,減少預計算的代價,并通過強大的實時計算能力,可以支撐良好的實時交互體驗。

雙引擎下的應用場景適配問題

架構上通過MOLAP+ROLAP雙引擎模式來適配不同應用場景

技術權衡

MOLAP:通過預計算,提供穩定的切片數據,實現多次查詢一次計算,減輕了查詢時的計算壓力,保證了查詢的穩定性,是“空間換時間”的最佳路徑。實現了基于Bitmap的去重算法,支持在不同維度下去重指標的實時統計,效率較高。
ROLAP:基于實時的大規模并行計算,對集群的要求較高。
MPP引擎的核心是通過將數據分散,以實現CPU、IO、內存資源的分布,來提升并行計算能力。在當前數據存儲以磁盤為主的情況下,數據Scan需要的較大的磁盤IO,以及并行導致的高CPU,仍然是資源的短板。因此,高頻的大規模匯總統計,并發能力將面臨較大挑戰,這取決于集群硬件方面的并行計算能力。傳統去重算法需要大量計算資源,實時的大規模去重指標對CPU、內存都是一個巨大挑戰。目前Doris最新版本已經支持Bitmap算法,配合預計算可以很好地解決去重應用場景。

MOLAP: 當業務分析維度相對固化,并在可以使用歷史狀態時,按照時間進行增量生產,加工成本呈線性增長狀態,數據加工到更粗的粒度(如組織單元),減少結果數據量,提高交互效率。如上圖所示,由A模型預計算到B模型,使用Kylin是一個不錯的選擇。

ROLAP: 當業務分析維度靈活多變或者特定到最新的狀態時(如上圖A模型中,始終使用最新的商家組織歸屬查看歷史),預計算回溯歷史數據成本巨大。在這種場景下,將數據穩定在商家的粒度,通過現場計算進行歷史數據的回溯分析,實現現用現算,可以節省掉預計算的巨大成本,并帶來較大的應用靈活性。這種情況下適合MPP引擎支撐下的ROLAP生產模式。

MPP引擎的選型

目前開源的比較受關注的OLAP引擎很多,比如 Greenplum、Apache Impala、Presto、Doris、ClickHouse、Druid、TiDB 等等,但缺乏實踐案例的介紹,所以我們也沒有太多的經驗可以借鑒。于是,我們就結合自身業務的需求,從引擎建設成本出發,并立足于公司技術生態融合、集成、易用性等維度進行綜合考慮,作為選型依據,最終我們平臺部門選擇了2018年剛進入Apache社區的Doris。

大數據OLAP系統知識點有哪些

到此,相信大家對“大數據OLAP系統知識點有哪些”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

长垣县| 米脂县| 宽城| 丹棱县| 长白| 冕宁县| 宜章县| 文安县| 滦南县| 资中县| 龙泉市| 紫云| 铜鼓县| 沙湾县| 湖北省| 措美县| 嘉荫县| 嘉鱼县| 资讯| 大埔县| 保山市| 繁峙县| 喀喇沁旗| 苍南县| 武城县| 繁昌县| 比如县| 永胜县| 慈利县| 马公市| 黔东| 米易县| 汨罗市| 马山县| 青冈县| 安庆市| 辉南县| 神农架林区| 广南县| 汨罗市| 涞源县|