您好,登錄后才能下訂單哦!
本篇內容主要講解“大數據研發的基本概念是什么”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“大數據研發的基本概念是什么”吧!
你了解你的數據嗎?
前幾天突然來了點靈感,想梳理一下自己對數據的理解,因此便有了這篇博客或者說這系列博客來聊聊數據。
數據從業者有很多,比如說數據開發工程師、數據倉庫工程師、數據分析師、數據挖掘工程師、數據產品經理等等,不同崗位的童鞋對數據的理解有很大的不一樣,而且側重點也不同。那么,是否有一些數據相關的基礎知識是所有數據從業者都值得了解的?不同的崗位對數據的理解又有多大的不同?數據開發工程師是否有必要去了解數據分析師是如何看待數據的?
本系列博客會嘗試去學習、挖掘和總結這些內容,在數據的海洋中一起裝x一起飛。
開篇先上幾個問題:
你知道自己的系統數據接入量是多少嗎?
你知道數據的分布情況嗎?
你知道自己常用的數據有什么隱藏的坑嗎?
如果你對前面說的問題有不太了解的,那么我們就可以在以后的內容中一起愉快地交流和探討。如果前面說的問題你的回答都是 “Yes”,那么我還是會嘗試用新的問題來留住你。比如說:
既然你知道系統的數據接入量,那你知道每天的數據量波動嗎?波動量在多大范圍內是正常情況?
你知道的數據分布情況是什么樣子的?除了性別、年齡和城市的分布,還有什么分布?
在偌大的數據倉庫中,哪些數據被使用最多,哪些數據又無人問津,這些你了解嗎?
在最常用的那批數據中,有哪些核心的維度?有相同維度的兩個表之間的數據口徑是否也一樣?
假設你對上面的問題有稍許困惑或者感興趣,我們正式開始對數據的認知之旅。
現在,我們粗略地將數據從業者分為數據集群運維、數據開發工程師、數據倉庫工程師、數據分析師、數據挖掘工程師和數據產品經理,這一小節先起一個引子來大致說明不同崗位對數據的了解是不同的,后文會詳細地說明細節內容。
首先要說明的是,在工作中數據相關的職位都是有很多重合的,很難一刀切區分不同崗位的職責,比如說數據開發工程師本身就是一個很大的概念,他可以做數據接入、數據清洗、數據倉庫開發、數據挖掘算法開發等等,再比如說數據分析師,很多數據分析師既要做數據分析,又要做一些提數的需求,有時候還要自己做各種處理。
公司的數據團隊越大,相應的崗位職責就會越細分,反之亦然。在這里我們姑且用數據開發工程師和數據倉庫工程師做對比來說明不同職責的同學對數據理解的側重點有什么不同。我們假設數據開發工程師側重于數據的接入、存儲和基本的數據處理,數據倉庫工程師側重于數據模型的設計和開發(比如維度建模)。
數據開發工程師對數據最基本的了解是需要知道數據的接入狀態,比如說每天總共接入多少數據,整體數據量是多大,接入的業務有多少,每個業務的接入量多大,多大波動范圍是正常?然后還要對數據的存儲周期有一個把握,比如說有多少表的存儲周期是30天,有多少是90天?集群每日新增的存儲量是多大,多久后集群存儲會撐爆?
數據倉庫工程師對上面的內容也要有一定的感知力,但是會有所區別,比如說,數據倉庫工程師會更關注自己倉庫建模中用到業務的數據狀態。然后還需要知道終點業務的數據分布,比如說用戶表中的年齡分布、性別分布、地域分布等。除此之外還應關注數據口徑問題,比如說有很多份用戶資料表,每張表的性別取值是否都是:男、女、未知,還是說會有用數值類型:1男、2女、0未知。
然后數據開發工程師對數據異常的側重點可能會在今天的數據是否延遲落地,總量是否波動很大,數據可用率是否正常。
數據倉庫工程師對數據異常的側重點則可能是,今天落地的數據中性別為 0 的數據量是否激增(這可能會造成數據傾斜),某一個關鍵維度取值是否都為空。
上面的例子可能都會在一個數據質量監控系統中一起解決,但是我們在這里不討論系統的設計,而是先有整體的意識和思路。
到此,相信大家對“大數據研發的基本概念是什么”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。