您好,登錄后才能下訂單哦!
數據的一組固有屬性滿足數據消費者要求的程度。
1)數據固有屬性
2)高質量數據滿足要求(消費者角度)
數據質量管理,是指對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發的各類數據質量問題,進行識別、度量、監控、預警等一系列管理活動,并通過改善和提高組織的管理水平使得數據質量獲得進一步提高。
任何改善都是建立在評估的基礎上,知道問題在哪才能實施改進。通常數據質量評估和管理評估需通過以下幾個維度衡量。常見的以下維度:
1)完整性
完整性,是指數據信息是否完整,是否存在缺失情況。數據缺失的情況可能是整個數據記錄缺失,也可能是數據中某個字段信息的記錄缺失。記錄的完整性,一般使用統計的記錄數和唯一值個數。完整性的另一方面,記錄中某個字段的數據缺失,可使用統計信息中的NULL的個數進行審核。一般空值的占比基本恒定,同樣可以使用統計的空值個數來計算空值占比,如果空值的占比明顯增大,很可能這個字段的記錄出現了問題,信息出現缺失。總而言之,完整性可用記錄數、均值、唯一值、空值占比等指標來衡量。
2)規范性
規范性,是指記錄是否符合規范,是否按照規定的格式存儲(例如標準編碼規則)。數據規范性審核是數據質量審核中比較重要也是比較復雜的一塊。規范性檢驗主要是檢驗數據和數據定義是否一致,因此可以通過合規記錄的比率來衡量。比如取值范圍是枚舉集合的數據,其實際值超出范圍之外的數據占比,比如存在特定編碼規則的屬性值不符合其編碼規則的記錄占比。
3)一致性
一致性,是指數據是否符合邏輯,數據內單項或多項數據間存在邏輯關系。一致性檢驗,存在邏輯關系的屬性之間的校驗,比如屬性A取某定值時,屬性B的值應該在某個特定的數據范圍內,都可以通過合規率來衡量。
4)準確性
準確性,用于度量哪些數據和信息是不正確的,或者數據是超期的。準確性可能存在于個別記錄,也可能存在于整個數據集上。準確性和規范性的差別在于規范性關注合規,表示統一,而準確性關注數據錯誤。因此,同樣的數據表現,比如數據實際值不在定義的范圍內,如果定義的范圍準確,值完全沒有意義,那么這屬于數據錯誤。
數據的準確性可能存在于個別記錄,也可能存在于整個數據集。如果整個數據集的某個字段的數據存在錯誤,這種錯誤很容易發現,利用平均數和中位數也可以發現這類問題。當數據集中存在個別的異常值時,可使用最大值和最小值的統計量去審核,或者使用箱線圖也可以讓異常一目了然。
還有幾個準確性的審核問題,字符亂碼的問題或者字符被截斷的問題,可以使用分布來發現這類問題,一般的數據記錄基本符合正態分布或者類正態分布,那么那些占比異常小的數據項很可能存在問題。如果數據并沒有顯著異常,但仍然可能記錄的值是錯誤的,只是這些值和正常值比較接近而已,這類準確性檢驗最困難,一般只能與其他來源或者統計結果進行對比來發現問題。
5)時效性
數據從產生到可以查看的時間間隔,也叫數據的延時時長。某些實時分析和決策需要用到小時或者分鐘級的數據,這些需求對數據的時效性要求極高,所以及時性也是數據質量的組成要素之一。例如定義某張表在每月最晚達到的日期是幾號。
6)唯一性
唯一性,用于度量哪些數據是重復數據或者數據的哪些屬性是重復的。即對存在于系統內或系統間的特定字段、記錄或數據集意外重復的測量標準。
7)合理性
合理性,是從業務邏輯角度判斷數據是否正確。評估方面可參照規范性、一致性做法。
8)冗余性
冗余性,是指多層次數據中是否存在不必要的數據冗余。
9)獲取性
獲取性,是指數據是否易于獲取、易于理解和易于使用。
影響數據質量的因素主要來源于四方面:信息因素、技術因素、流程因素和管理因素。
1)信息因素
產生這部分數據質量問題的原因主要有:元數據描述及理解錯誤、數據度量的各種性質(如:數據源規格不統一)得不到保證和變化頻度不恰當等。
2)技術因素
主要是指由于具體數據處理的各技術環節的異常造成的數據質量問題。數據質量問題的產生環節主要包括數據創建、數據獲取、數據傳輸、數據裝載、數據使用、數據維護等方面的內容。
3)流程因素
是指由于系統作業流程和人工操作流程設置不當造成的數據質量問題,主要來源于系統數據的創建流程、傳遞流程、裝載流程、使用流程、維護流程和稽核流程等各環節。
4)管理因素
是指由于人員素質及管理機制方面的原因造成的數據質量問題。如人員培訓、人員管理、培訓或者獎懲措施不當導致的管理缺失或者管理缺陷。
可以遵從下面的十步法原則(此部分摘自御數坊公開材料)。
圖1
找出有哪些業務受到數據質量問題的影響,或者由于數據質量的改進將會為企業帶來更好的業務效益的需求,評估這些業務需求并按照重要等級排序,作為本次數據質量提升的目標與范圍。只有明確了業務需求與方法,才能確保要解決的數據質量問題是與業務需求相關的,從而真正的解決了業務問題。
細化已定義的業務需求,識別出業務需求與數據、數據規范、流程、組織和技術(如系統、軟件等)之間的關聯信息,定義信息生命周期,確定數據來源及范圍。通過分析信息環境,不僅可以為后續的原因分析提供幫助,也可以使我們對數據問題及現狀有一個更全面、直觀的理解與認識。
從相關數據源提取數據,圍繞已定義的業務需求,設計數據評估維度并利用相關工具完成評估,將數據質量評估結果以圖表或報告形式準確的表達出來,使相關領導或業務人員都能夠清晰的、直觀的了解實際的數據質量情況,確保數據問題是與業務需求相關的,并能夠得到相關領導或業務人員的重視與支持。
了解低質量數據是如何影響業務的,為什么這些數據很重要,如果改善這些問題會帶來哪些業務價值。評估方式的復雜度越高所花費的時間越長,不過與評估效果卻并不一定成正比,所以在評估業務影響時也要注意方法的選擇。另外,要將業務影響評估結果及時歸檔,這樣,隨著時間的推移即便問題被淡化,也能夠有跡可查。
在糾正數據問題之前要先確定其根本原因,產生問題的根源有很多。不過,有些問題的發生僅是表象,并不一定是導致錯誤數據的根本原因,所以在分析的過程中,要不斷的去追蹤數據進行問題定位,確定問題最早出現的根本原因;或者多問自己幾遍“WHY”以弄清楚問題的根本原因,進而使問題得到有效的解決,達到治標又治本的效果。
通過前面幾步詳細的問題分析及原因確定,在這一步則可以有針對性的制定出合理的數據質量改進方案,包括對已知數據問題的改進建議及如何預防未來類似錯誤數據的發生。
根據解決方案的設計,預防未來錯誤數據的發生。
根據解決方案的設計,解決現有數據問題。這一步更多是”臟活累活”,但對于最終質量目標的達成至關重要。
實施持續的監測,確定是否已經達到預期效果。
對結果和項目進展情況溝通,保證整體項目的持續推進。
1)質量評估
提供全方位數據質量評估能力,如數據的重復性、關聯性、正確性、完全性、一致性、合規性等,對數據進行體檢進而識別和理解數據質量問題。有評價體系作為參照,需要進行數據的采集、分析和監控,為數據質量提供全面可靠的信息。在數據流轉環節的關鍵點上設置采集點,根據系統對數據質量的要求,配置相應的采集規則,通過在采集點處進行質量數據采集并進行統計分析,就可以得到采集點處的數據分析報告。
2)檢核執行
提供配置化的度量規則和檢核方法生成能力,提供檢核腳本的定時調度執行和第三方調度工具的調度執行功能。
3)質量監控
系統提供報警機制,對檢核規則或方法進行閥值設置,對超出閥值的規則進行不同級別的告警和通知。
4)問題管理
對數據問題進行流程處理支持,規范問題處理機制和步驟,強化問題認證,提升數據質量。通過質量評價體系和質量數據采集系統,可以發現問題,之后還需要對發現的問題及時作出反應,追溯問題原因和形成機制,根據問題種類采取相應的改進措施,并持續跟蹤驗證改進之后的數據質量提升效果,形成正反饋,達到數據質量持續改良的效果。
在源頭建立數據標準或接入標準,規范數據定義,在數據流轉過程中建立監控數據轉換質量的流程和體系,盡量做到在哪發現問題就在哪解決問題,不把問題數據帶到后端。
5)質量報告
系統提供了豐富的API可進行定制化數據質量包括開發,另外系統內置了常用質量報告。
6)質量分析
提供多種問題分析能力,包括血統分析,影響分析,全鏈分析,定位問題產生的根源。
作者:韓鋒
首發于作者個人公號《韓鋒頻道》。
來源:宜信技術學院
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。