您好,登錄后才能下訂單哦!
這篇文章主要為大家展示了“數據倉庫企業數倉拉鏈表如何制作”,內容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領大家一起研究并學習一下“數據倉庫企業數倉拉鏈表如何制作”這篇文章吧。
拉鏈表是針對數據倉庫設計中表存儲數據的方式而定義的,顧名思義,所謂拉鏈,就是記錄歷史。記錄一個事物從開始,一直到當前狀態的所有變化的信息。
下面就是一張拉鏈表,存儲的是用戶的最基本信息以及每條記錄的生命周期。我們可以使用這張表拿到最新的當天的最新數據以及之前的歷史數據。
說明:
t_start_date 表示該條記錄的生命周期開始時間,t_end_date 表示該條記錄的生命周期結束時間;
t_end_date = ‘9999-12-31’表示該條記錄目前處于有效狀態;
如果查詢當前所有有效的記錄,則select * from user where t_end_date = ‘9999-12-31′
如果查詢2017-01-01的歷史快照,則select * from user where t_start_date <= ‘2017-01-01′ and end_date >= ‘2017-01-01’,這條語句會查詢到以下記錄:
在數據倉庫的數據模型設計過程中,經常會遇到下面這種表的設計:
1.有一些表的數據量很大,比如一張用戶表,大約10億條記錄,50個字段,這種表,即使使用ORC壓縮,單張表的存儲也會超過100G,在HDFS使用雙備份或者三備份的話就更大一些。
2.表中的部分字段會被update更新操作,如用戶聯系方式,產品的描述信息,訂單的狀態等等。
3.需要查看某一個時間點或者時間段的歷史快照信息,比如,查看某一個訂單在歷史某一個時間點的狀態。
4.表中的記錄變化的比例和頻率不是很大,比如,總共有10億的用戶,每天新增和發生變化的有200萬左右,變化的比例占的很小。
對于這種表的設計?下面有幾種方案可選:
方案一:每天只留最新的一份,比如我們每天用datax抽取最新的一份全量數據到Hive中。
方案二:每天保留一份全量的切片數據。
方案三:使用拉鏈表。
這種方案就不用多說了,實現起來很簡單,每天drop掉前一天的數據,重新抽一份最新的。優點很明顯,節省空間,一些普通的使用也很方便,不用在選擇表的時候加一個時間分區什么的。缺點同樣明顯,沒有歷史數據,先翻翻舊賬只能通過其它方式,比如從流水表里面抽。
每天一份全量的切片是一種比較穩妥的方案,而且歷史數據也在。缺點就是存儲空間占用量太大太大了,如果對這邊表每天都保留一份全量,那么每次全量中會保存很多不變的信息,對存儲是極大的浪費。當然我們也可以做一些取舍,比如只保留近一個月的數據?但是,需求是無恥的,數據的生命周期不是我們能完全左右的。
拉鏈表在使用上基本兼顧了我們的需求。首先它在空間上做了一個取舍,雖說不像方案一那樣占用量那么小,但是它每日的增量可能只有方案二的千分之一甚至是萬分之一。其實它能滿足方案二所能滿足的需求,既能獲取最新的數據,也能添加篩選條件也獲取歷史的數據。所以我們還是很有必要來使用拉鏈表的。
在2017-01-01表中的數據是:
在2017-01-02表中的數據是,用戶002和004資料進行了修改,005是新增用戶:
在2017-01-03表中的數據是,用戶004和005資料進行了修改,006是新增用戶:
如果在數據倉庫中設計成歷史拉鏈表保存該表,則會有下面這樣一張表,這是最新一天(即2017-01-03)的數據:
說明:
t_start_date 表示該條記錄的生命周期開始時間,t_end_date 表示該條記錄的生命周期結束時間;
t_end_date = ‘9999-12-31’表示該條記錄目前處于有效狀態;
如果查詢當前所有有效的記錄,則select * from user where t_end_date = ‘9999-12-31′
如果查詢2017-01-01的歷史快照,則select * from user where t_start_date <= ‘2017-01-01′ and end_date >= ‘2017-01-01’,這條語句會查詢到以下記錄:
我們需要一張ODS層的用戶全量表。至少需要用它來初始化。每日的用戶更新表。而且我們要確定拉鏈表的時間粒度,比如說拉鏈表每天只取一個狀態,也就是說如果一天有3個狀態變更,我們只取最后一個狀態,這種天粒度的表其實已經能解決大部分的問題了。
監聽Mysql數據的變化,比如說用Canal,最后合并每日的變化,獲取到最后的一個狀態。
假設我們每天都會獲得一份切片數據,我們可以通過取兩天切片數據的不同來作為每日更新表,這種情況下我們可以對所有的字段先進行concat,再取md5,這樣就ok了。
流水表,有每日的變更流水表。
表結構 ods層的user表
CREATE EXTERNAL TABLE ods.user (
user_num STRING COMMENT '用戶編號',
mobile STRING COMMENT '手機號碼',
reg_date STRING COMMENT '注冊日期'
COMMENT '用戶資料表'
PARTITIONED BY (dt string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
STORED AS ORC
LOCATION '/ods/user';
)
ods層的user_update表
CREATE EXTERNAL TABLE ods.user_update (
user_num STRING COMMENT '用戶編號',
mobile STRING COMMENT '手機號碼',
reg_date STRING COMMENT '注冊日期'
COMMENT '每日用戶資料更新表'
PARTITIONED BY (dt string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
STORED AS ORC
LOCATION '/ods/user_update';
)
拉鏈表
CREATE EXTERNAL TABLE dws.user_his (
user_num STRING COMMENT '用戶編號',
mobile STRING COMMENT '手機號碼',
reg_date STRING COMMENT '用戶編號',
t_start_date ,
t_end_date
COMMENT '用戶資料拉鏈表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
STORED AS ORC
LOCATION '/dws/user_his';
)
更新
假設已經初始化了2017-01-01的日期,然后需要更新2017-01-02那一天的數據
INSERT OVERWRITE TABLE dws.user_his
SELECT * FROM
(
SELECT A.user_num,
A.mobile,
A.reg_date,
A.t_start_time,
CASE
WHEN A.t_end_time = '9999-12-31' AND B.user_num IS NOT NULL THEN '2017-01-01'
ELSE A.t_end_time
END AS t_end_time
FROM dws.user_his AS A
LEFT JOIN ods.user_update AS B
ON A.user_num = B.user_num
UNION
SELECT C.user_num,
C.mobile,
C.reg_date,
'2017-01-02' AS t_start_time,
'9999-12-31' AS t_end_time
FROM ods.user_update AS C
) AS T
拉鏈表和流水表
流水表存放的是一個用戶的變更記錄,比如在一張流水表中,一天的數據中,會存放一個用戶的每條修改記錄,但是在拉鏈表中只有一條記錄。這是拉鏈表設計時需要注意的一個粒度問題。我們當然也可以設置的粒度更小一些,一般按天就足夠。
查詢性能
鏈表當然也會遇到查詢性能的問題,比如說我們存放了5年的拉鏈數據,那么這張表勢必會比較大,當查詢的時候性能就比較低了,個人認為兩個思路來解決:
在一些查詢引擎中,我們對start_date和end_date做索引,這樣能提高不少性能。
保留部分歷史數據,比如說我們一張表里面存放全量的拉鏈表數據,然后再對外暴露一張只提供近3個月數據的拉鏈表。
以上是“數據倉庫企業數倉拉鏈表如何制作”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。