您好,登錄后才能下訂單哦!
大數據服務的數據源不但來自歸屬于不同行業的組織之中,而且其類型還具有多樣性(Variety)特征。
多樣性指的是大數據服務不僅包括例如姓名、年齡這樣的結構化數據,還包括歌曲、電影這樣的非結構化數據,此外網頁、郵件這樣的數據介于結構化和非結構化之間,屬于半結構化數據,也是大數據服務的重要數據源。
結構化數據來源于業務需求,系統分析員將需求中靜態的“名詞”提取出來并進行抽象,作為數據庫表結構設計的依據。比如我們設計一個學籍管理系統,通過分析發現“張三”、“李四”等學生具有姓名、年齡、所屬院系、所選課程、課程分數等屬性,于是系統分析員將這些屬性選取出來并設計一個“學生”類,那么“學生”表結構就相當于一個模板,可以將“張三”、“李四”等學生的姓名、年齡、班級等結構化數據存儲到數據表中。由于數據表是二維的,借助關系型數據庫的SQL語言,可以從多個維度對結構化數據進行查詢統計。
與結構化數據相對的是非結構化數據。顧名思義,非結構化數據是不可以提取字段并定義屬性的,只能以圖片、語音、視頻的媒體形式存在。雖然非結構化數據不像結構化數據那樣能夠進行統計分析,但是并不代表非結構化數據并沒有價值。
非結構化數據可以以多媒體的形式存在,生動形象地反饋信息,因此我們可以從非結構化數據中采集有價值的信息,并將這些采集的新增轉化為結構化數據,通過對非結構化數據的“理解”來發現其中隱藏的價值。
介于結構化數據和非結構化數據之間的是半結構化數據。半結構化數據的結構和內容混合在一起,例如電子郵件、網頁等。從半結構化數據中同樣可以抽取出許多有價值的數據,比如電子郵件中可以采集到發件人、收件人、標題等,通過對郵件的收發地址、頻率、主題等進行分析,可以形成以電子郵件為通信媒介的社交網絡。
企業可以根據應用的要求、數據的規模、數據的類型等維度進行分析和設計,選擇不同的存儲架構。
對于數據規模大、數據結構簡單、對查詢效率要求高的應用,可以采用Hadoop/Hbase這樣的分布式存儲架構。由于Hadoop/HBase存儲架構采用鍵值存儲結構,具有良好的可擴展性,因此可以通過增加基礎設施資源來提高查詢效率,系統整體性能隨著集群規模的增大而線性增長。
對于需要關聯多個數據模型才能實現的分析型應用,則可以考慮采用關系型數據庫作為存儲庫。對于以郵件、文檔、錄音、錄像等文件形式存在的非結構化數據,可以采用NAS(Network Attached Storage,網絡連接式存儲)存儲架構,對于存取頻率高、單次存取數據量小的結構化數據,具有明確數據類型和數據長度,可以考慮采用SAN(Storage Area Network,存儲區域網絡)存儲架構。
對于以文件為存取單位的非結構化數據,則適合采用NAS(Network Attached Storage,網絡連接式存儲)存儲架構。通常情況下,存儲架構采用SAN和NAS混合的形式。
SAN和NAS屬于“主機+磁盤陣列”的系統架構,在大數據時代,隨著數據量的不斷增加,企業越來越采用“單機+硬盤”組成的系統架構。這種架構適合于需要批量數據處理的分析型應用,并且對單個應用設備的能力要求不高,可以有效地利舊低端設備,可以快速地實現橫向資源擴展。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。