您好,登錄后才能下訂單哦!
這篇文章主要從數據治理的基礎和核心之一:元數據入手,從以下幾個角度展開具體講解:
元數據概念
元數據的分布和采集
如果我說:元數據(Meta Data),就是描述數據的數據。沒有技術背景加持的路人粉看到這句「繞口令」,內心可能會浮現這樣的想法:
cdn.xitu.io/2019/7/31/16c45d87f2cba3c5?w=800&h=682&f=webp&s=20536">
簡單點,其實元數據相當于數據的戶口本。
戶口本是什么?它除了包含個人姓名、年齡、性別、×××號碼等各種基本描述信息外,還有這個人和家人的血緣關系,比如說父子,兄妹等等。所有的這些信息加起來,構成對這個人的全面描述,也可以稱之為這個人的元數據。
同樣的,如果我們要描述清楚一個實際的數據,以某張表為例,我們需要知道表名、表別名、表的所有者、數據存儲的物理位置、主鍵、索引、表中有哪些字段、這張表與其他表之間的關系等等。所有的這些信息加起來,就是這張表的元數據。這么一類比,我們對元數據的概念可能就清楚很多了:元數據是數據的戶口本。
是數據治理的核心和基礎
如果讓你帶兵打仗,現在你必須要掌握的信息是什么?沒錯,一張戰場的地圖必不可少!而元數據在數據治理當中,就相當于所有數據的地圖。
在這張關于數據的地圖中,我們可以知道:
我們有哪些數據?
數據分布在哪里?
這些數據分別是什么類型?
數據之間有什么關系?
哪些數據經常被引用?哪些數據無人光顧?
……
所以,如果我們做數據治理,卻沒有掌握這張地圖,就猶如瞎子摸象。后續的文章中我們要講到的數據資產管理,知識圖譜,其實大部分也是建立在元數據之上的。所以我們說:元數據是一個組織內的數據地圖,它是數據治理的核心和基礎。
元模型(Meta Model),是描述元數據的數據。它與元數據、數據之間的關系,可以用下面這張圖來描述。
對于元模型的概念,我們不做深入的討論。我們只需要知道下面這些:元數據本身的數據結構也是需要被定義和規范的,定義和規范元數據的就是元模型,國際上元模型的標準是 CWM(Common Warehouse Metamodel,公共倉庫元模型),一個成熟的元數據管理工具,需要支持 CWM 標準。
以下內容理解難度升級,請各位技術小白謹慎閱讀
如有不懂,蔣老師后臺單獨輔導!
在大數據平臺中,元數據貫穿大數據平臺數據流動的全過程,主要包括數據源元數據、數據加工處理過程元數據、數據主題庫專題庫元數據、服務層元數據、應用層元數據等。下圖以一個數據中心為例,展示了元數據的分布范圍:
業內通常把元數據分為以下類型:
技術元數據:庫表結構、字段約束、數據模型、ETL 程序、SQL 程序等。
業務元數據:業務指標、業務代碼、業務術語等。
元數據采集是指獲取數據生命周期中的元數據,對元數據進行組織,然后將元數據寫入數據庫中的過程。使用包括數據庫直連、接口、日志文件等技術手段,對結構化數據的數據字典、非結構化數據的元數據信息、業務指標、代碼、數據加工過程等元數據信息進行自動化和手動采集。元數據采集完成后,被組織成符合 CWM 模型的結構,存儲在關系型數據庫中。
先看一張元數據管理的整體功能架構圖,有了元數據,我們能做些什么,從這張圖里一目了然:
(如果你沒看懂,請來評論區告訴我)
① 元數據查看
一般是以樹形結構組織元數據,按不同類型對元數據進行瀏覽和檢索。如我們可以瀏覽表的結構、字段信息、數據模型、指標信息等。通過合理的權限分配,元數據查看可以大大提升信息在組織內的共享。
② 數據血緣和影響性分析
數據血緣和影響性分析主要解決「數據之間有什么關系」的問題。因其重要價值,有的廠商會從元數據管理中單獨提取出來,作為一個獨立的重要功能。但是考慮到數據血緣和影響性分析其實是來自于元數據信息,所以還是放在元數據管理中來描述。
血緣分析指的是獲取到數據的血緣關系,以歷史事實的方式記錄數據的來源,處理過程等。以某張表的血緣關系為例,血緣分析展示如下信息:
數據血緣分析對于用戶具有重要的價值,如:當在數據分析中發現問題數據的時候,可以依賴血緣關系,追根溯源,快速地定位到問題數據的來源和加工流程,減少分析的時間和難度。
數據血緣分析的典型應用場景:某業務人員發現「月度營銷分析」報表數據存在質量問題,于是向 IT 部門提出異議,技術人員通過元數據血緣分析發現「月度營銷分析」報表受到上游 FDM 層四張不同的數據表的影響,從而快速定位問題的源頭,低成本地解決問題。
除了血緣分析之外,還有一種影響性分析,它能分析出數據的下游流向。當系統進行升級改造的時候,如果修改了數據結構、ETL 程序等元數據信息,依賴數據的影響性分析,可以快速定位出元數據修改會影響到哪些下游系統,從而減少系統升級改造帶來的風險。從上面的描述可以知道:數據影響性分析和血緣分析正好相反,血緣分析指向數據的上游來源,影響性分析指向數據的下游。
影響性分析的典型應用場景:某機構因業務系統升級,在“FINAL_ZENT ”表中修改了字段:TRADE_ACCORD 長度由 8 修改為 64,需要分析本次升級對后續相關系統的影響。對元數據“FINAL_ZENT”進行影響性分析,發現對下游 DW 層相關的表和 ETL 程序都有影響,IT 部門定位到影響之后,及時修改下游的相應程序和表結構,避免了問題的發生。由此可見,數據的影響性分析有利于快速鎖定元數據變更帶來的影響,將可能發生的問題提前消滅在萌芽之中。
③ 數據冷熱度分析
冷熱度分析主要是對數據表的被使用情況進行統計,如:表與ETL 程序、表與分析應用、表與其他表的關系情況等,從訪問頻次和業務需求角度出發,進行數據冷熱度分析,用圖表的方式,展現表的重要性指數。
數據的冷熱度分析對于用戶有巨大的價值,典型應用場景:我們觀察到某些數據資源處于長期閑置,沒有被任何應用調用,也沒有別的程序去使用的狀態,這時候,用戶就可以參考數據的冷熱度報告,結合人工分析,對冷熱度不同的數據做分層存儲,以更好地利用 HDFS 資源,或者評估是否對失去價值的這部分數據做下線處理,以節省數據存儲空間。
④ 數據資產地圖
通過對元數據的加工,可以形成數據資產地圖等應用。數據資產地圖一般用于在宏觀層面組織信息,以全局視角對信息進行歸并、整理,展現數據量、數據變化情況、數據存儲情況、整體數據質量等信息,為數據管理部門和決策者提供參考。
⑤ 元數據管理的其他應用
元數據管理中還有其他一些重要功能,如:元數據變更管理,對元數據的變更歷史進行查詢,對變更前后的版本進行比對等等;元數據對比分析,對相似的元數據進行比對;元數據統計分析,用于統計各類元數據的數量,如各類數據的種類,數量等,方便用戶掌握元數據的匯總信息。諸如此類的應用,不一一列舉。
作者簡介:蔣珍波, 6年+大數據治理經驗,擅長為客戶提供科學合理的數據治理解決方案。曾先后供職于東南融通、軟通動力、普元信息等公司,負責過數據倉庫建設、BI、大數據平臺、數據治理等售前咨詢等工作,有政府、電力、制造業等行業經驗。目前在數瀾科技擔任大數據平臺售前咨詢工作。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。