您好,登錄后才能下訂單哦!
這篇文章給大家介紹大數據治理中如何搭建大數據探索平臺,內容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。
在數據治理中,數據探索服務的價值在初期往往是被忽視的,但是隨著業務的增加,分析人員的增加,數據探索服務的價值就會越來越大。
一個成功的數據管理平臺,不僅僅要提供各種數據分析的工具,提供各種各樣的數據源,更要提供數據探索的能力。
想象一下,作為一名數據科學家,他剛剛獲得新的任務是建立一個機器學習模型對業務問題進行分析。處理數據的人的第一個本能是尋找任何有意義的信息,能對其分析過程提供幫助。在這個過程中通常會出現以下問題:
我可以/應該使用哪種數據?
在哪里可以找到數據?
我應該問誰申請數據訪問權限?
我可以信任我們擁有的數據嗎?
我們擁有的數據的實時性和質量如何?
還有誰在使用這些數據?
數據科學家最多將三分之一的時間用于數據探索。
如果沒有數據探索服務,數據科學家需要和同事溝通,瀏覽他們可以訪問的對象進行搜索。然后做出一些假設,來驗證他們的選擇是否正確。
這個過程其實非常的耗時,因為沒有合適的工具幫忙。必須要不斷的去尋找可靠的數據。但是隨著數據量增大,數據平臺使用者的增加,數據分析需求的增加,元數據的數量也在增加。這個過程就為尋找的過程帶來了非常大的挑戰。
數據科學家用來查找與他們的需求相關的數據的方式可能很快會適得其反,變得不可靠,從而導致很多挫敗感,不確定性和創造力下降。
解決這些問題的方案就是數據探索服務。
數據探索服務意味著向用戶提供一種工具,使其可以了解平臺中的數據及其質量。讓我們來了解下具體的實現。
Lyft是一家總部位于美國的打車應用,其開源了大量的技術框架,其中就包括Amundsen。這是一個以偉大的挪威探險家的名字命名的數據探索服務,Lyft的數據探索服務旨在解決通過在元數據中搜索有價值的信息。它提供的是用戶數據探索服務的搜索界面。
Amundsen的社區非常的繁榮,正在不斷的更新改進。
作為元數據管理的領軍,atlas無疑是最好的選擇之一。
元數據聽起來很容易解釋,用于描述數據信息的數據。最簡單的示例是數據存在表里,而表的相關的信息,如表名等信息就是元數據。沒有元數據的支撐,數據探索服務不復存在。
Atlas作為大數據元數據管理平臺,可以捕獲平臺上的各種組件的元數據信息。稱為鉤子,比如可從Kafka,Hive,Hbase中收集元數據。有著安全性和豐富的Rest Api。
Atlas依賴于Hbase和Solr作為分布式的數據存儲,從而實現了元數據的存儲和搜索功能。通過這種方式,可以建立一個全面的元數據目錄。
Apache Atlas架構
在實際的應用中,通過兩者的結合,可以完全的滿足我們的需求。
這樣數據科學家就可以在Amundsen中,尋找到目標數據了。
但搜索顯然只是第一步,在找到搜索結果后,可以進入表詳細信息頁面。
可以查看諸如描述、更新時間、常用用戶之類的信息。而且這些元數據信息都是實時更新的。
關于大數據治理中如何搭建大數據探索平臺就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。