您好,登錄后才能下訂單哦!
數據采集過程包括集成、導入、格式化。
數據采集過程中首先集成來自不同來源的數據。數據集成要考慮存儲架構、采集方式、接口方式、采集周期等。
在存儲架構方面,可以考慮在數據源側設置數據暫存區(Staging Area),也可以考慮在采集平臺側設置的暫存區。靠根據數據量和累計速度來設置合理大小的數據暫存區,防止數據溢出。
在存取方式方面,可以根據應用的需要采用不同的存取方式。采集方式包括單個采集和批量采集兩種類型,對于數據量小、時效性要求高的應用,可以采用單個采集的方式,當數據形成后可以立即同步到數據倉庫。比如用于審計的操作日志,可以采用單個采集的方式,當操作日志產生后就實時地同步到數據倉庫。對于文件多而且實時性要求相對較低的數據,可以等文件數達到一定規模或者達到一定的時間周期后,批量采集或者推送到數據倉庫。
在接口方式方面,對于批量采集的數據,可以考慮采用FTP方式,對于單個采集的數據,可以采用API或者Web Services接口的方式。
在采集周期方面,通常是采集周期越短,數據的實時性越高,數據分析的結果越及時。企業可以根據應用的需要設置不同的采集周期,要考慮數據暫存區能否滿足要求。
在數據導入方面,根據數據規模大小分為三種導入類型。
第一種是數據量大而且需要導入數據定義的場景,比如數據定義包括索引、分區等,可以考慮采用大文件導入方式,這樣可以保證數據源的完整性。
第二種是對于數據源結構簡單、導入文件多、規模大的數據,可以采用批量文件導入的方式,這樣可以看到導入過程中產生的錯誤,并及時糾正,保證數據導入的質量。
最后一種是對于數據量小的單個文件,比如某些代碼表、配置文件等,可以通過數據導入工具逐個導入,這種方式比較簡單靈活。
數據采集階段的數據規范化工作非常重要,因為數據分析必須基于一個統一的標準,而多種數據源就某一個數據通常會存在形成和內容上的不同。比如在A數據源中,日期格式以“年-月-日”形式存儲,而B數據源中以“月-日-年”形成存儲,因此需要將這兩種數據源中的格式進行統一。
也有的字段存儲的數據類型不一樣,比如在A數據源中,年齡字段以字符串格式存放,而B數據源中以整型格式存放,需要將兩個字段統一為一種數據類型。還有的數據在不同數據源中存放的內容不一樣,但是表達的是同一個意思。比如A數據源中的“性別”是“M”和“F”代表“男”和“女”,而B數據源中“性別”則是用“1”代表“男”,而用“0”代表“女”,因此需要實現兩種數據源“性別”在語義上的統一。
不同數據源在同一數據上存在差異的原因是信息系統設計時并沒有考慮到其它信息系統或者不同的應用提供商并沒有遵循共同的編碼規范。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。