您好,登錄后才能下訂單哦!
本文小編為大家詳細介紹“大數據的概念是什么”,內容詳細,步驟清晰,細節處理妥當,希望這篇“大數據的概念是什么”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來學習新知識吧。
隨著大數據時代的到來,“大數據”已經成為互聯網信息技術行業的流行詞匯。關于什么是大數據這個問題,大家比較認可大數據的“4V”說法。大數據的四個V,即說的是大數據的四個特征,分別是數據量大(Volume)、數據類型繁多(Variety)、處理速度快(Velocity)、價值密度低(Value)。
1、數據量大(Volume)
如果把印刷在紙上的文字和圖形也看成數據的話,那么人類歷史上第一次數據爆炸發生在造紙術和印刷術發明的時期。而從1986年開始到2010年的二十多年間,全球產生的數據增長了100倍。
隨著時間,數據產生的速度更快,我們正生活在一個“數據爆炸”的時代。
今天,世界上30%的設置是聯網的,而在不遠的將來,將有更多的用戶成為網民,汽車,電視,家用電器,生產機器等各種設備也將全面接入互聯網。隨著物聯網的推廣和普及,各種傳感器和攝像頭將遍布我們工作和生活的各個角落,這些設備每時每刻都在自動產生大量數據。
根據著名咨詢機構IDC(Internet Data Center)做出的估測,人類社會產生的數據一直都在以每年50%的速度增長,也就是說,每兩年就增加一倍,這被稱為“大數據摩爾定律”。
這意味著,人類在最近兩年產生的數據量相當于之前產生的全部數據量之和。預計到2020年,全球將總共擁有35ZB的數據量,與2010年相比,數據量將增長到近30倍。
單位 換算關系
Byte(字節) 1Byte=8bit
KB(Kilobyte 千字節) 1KB=1024Byte
MB(MegaByte,兆字節) 1MB=1024KB
GB(Gigabyte,吉字節) 1GB=1024MB
TB(Trillionbyte,太字節) 1TB=1024GB
PB(Petabyte,派字節) 1PB=1024TB
EB(Exabyte,艾字節) 1EB=1024PB
ZB(Zettabyte,澤字節) 1ZB=1024EB
2、數據類型繁多(Variety)
大數據的數據來源眾多,科學研究、企業應用和Web應用等都在源源不斷地生成新的數據。生物大數據、交通大數據、醫療大數據、電信大數據、電力大數據、金融大數據等,都呈現出“井噴式”增長,所涉及的數量十分巨大,已經從TB級別躍升到PB級別。
大數據的數據類型豐富,包括結構化數據和非結構化數據,其中,前者占10%左右,主要是指存儲在關系數據庫中的數據,后者占90%左右,種類繁多,主要包括郵件、音頻、視頻、微信、微博、位置信息、鏈接信息、手機呼叫信息、網絡日志等。
如此類型繁多的異構數據,對數據處理和分析技術提出了新的挑戰,也帶來了新的機遇。
3、處理速度快(Velocity)
大數據時代的數據產生速度非常迅速。在Web 2.0應用領域,在1分鐘內,新浪可以產生2萬條微博,Twitter可以產生10萬條推文,蘋果可以下載4.7萬次應用,淘寶可以賣出6萬件商品,人人網可以發生30萬次訪問,百度可以產生90萬次搜索查詢,Facebook可以產生600萬次瀏覽量。大名鼎鼎的大型強子對撞機(LHC),大約每秒產生6億次的碰撞,每秒生成約700MB的數據,有成千上萬臺計算機分析這些碰撞。
大數據時代的很多應用,都需要基于快速生成的數據給出實時分析結果,用于指導生產和生活實踐,因此,數據處理和分析的速度通常要達到秒級響應,這一點和傳統的數據挖掘技術有著本質的不同,后者通常不要求給出實時分析結果。
為了實現快速分析海量數據的目的,新興的大數據分析技術通常采用集群處理和獨特的內部設計。以谷歌公司的Dremel為例,它是一種可擴展的、交互式的實時查詢系統,用于只讀嵌套數據的分析,通過結合多級樹狀執行過程和列式數據結構,它能做到幾秒內完成對萬億張表的聚合查詢,系統可以擴展到成千上萬的CPU上,滿足谷歌上萬用戶操作PB級數據的需求,并且可以在2~3秒內完成PB級別數據的查詢。
4、價值密度低(value)
大數據雖然看起來很美,但是,價值密度卻遠遠低于傳統關系數據庫中已經有的那些數據。在大數據時代,很多有價值的信息都是分散在海量數據中的。以小區監控視頻為例,如果沒有意外事件發生,連續不斷產生的數據都是沒有任何價值的,當發生偷盜等意外情況時,也只有記錄了事件過程的那一小段視頻是有價值的。但是,為了能夠獲得發生偷盜等意外情況時的那一段寶貴的視頻,我們不得不投入大量資金購買監控設備、網絡設備、存儲設備,耗費大量的電能和存儲空間,來保存攝像頭連續不斷傳來的監控數據。
如果這個實例還不夠典型的話,那么我們可以想象另一個更大的場景。假設一個電子商務網站希望通過微博數據進行有針對性營銷,為了實現這個目的,就必須構建一個能存儲和分析新浪微博數據的大數據平臺,使之能夠根據用戶微博內容進行有針對性的商品需求趨勢預測。愿景很美好,但是,現實代價很大,可能需要耗費幾百萬元構建整個大數據團隊和平臺,而最終帶來的企業銷售利潤增加額可能會比投入低許多,從這點來說,大數據的價值密度是較低的。
讀到這里,這篇“大數據的概念是什么”文章已經介紹完畢,想要掌握這篇文章的知識點還需要大家自己動手實踐使用過才能領會,如果想了解更多相關內容的文章,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。