您好,登錄后才能下訂單哦!
數據分區分為兩種,動態分區和靜態分區,那么兩種分區是怎樣創建的呢?它們各自怎么來使用呢?
一、動態分區
1、從已有的數據動態創建新的分區
2、分區基于最后一個列值自動創建,如果分區不存在,它將被創建;
如果分區存在,將被覆蓋。
二、靜態分區
1、 靜態分區示例:按天分區呼叫日志
Loudacre的客戶服務電話系統生成了詳細的呼叫日志,分析員使用這些數據來匯總前一天的呼叫量,比如:
日志按天生成,比如:
在上面的的示例中,數據基于列值自動分區。現在我們使用靜態分區,
因為數據文件不包含分區數據,分區表按照同樣的方式來定義:
2、加載數據到靜態分區
使用靜態分區,你可以根據需要創建新分區,比如:為每天的呼叫日志數據添加一個分區:
這個命令將添加分區到表的元數據,并創建子目錄:
/user/hive/warehouse/call_logs/call_date=2014-10-02
然后加載一天的數據到正確的分區
這個命令移動HDFS文件call-20141002.log到分區子目錄
3、覆蓋分區的所有數據
以上就是關于動態分區和靜態分區的介紹,那么在Impala和Hive中,數據是怎樣分區的呢?后續將繼續分享。不過技術都是有門檻的,大家在實際生活中要多學習和交流,不斷汲取別人好的經驗知識,改善自己的知識架構。而且當今大數據還在發展中,各方面不算是很成熟,更需要不斷去追求,才可以不落伍,這里推薦一個微信公眾號“大數據cn”,還不錯,有時間可以去關注一下。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。