您好,登錄后才能下訂單哦!
這篇文章給大家介紹大數據分析平臺系統開發思路及步驟是什么,內容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。
1、搭建大數據平臺離不開BI。在大數據之前,BI就已經存在很久了,簡單把大數據等同于BI,明顯是不恰當的。但兩者又是緊密關聯的,相輔相成的。BI是達成業務管理的應用工具,沒有BI,大數據就沒有了價值轉化的工具,就無法把數據的價值呈現給用戶,也就無法有效地支撐企業經營管理決策;大數據則是基礎,沒有大數據,BI就失去了存在的基礎,沒有辦法快速、實時、高效地處理數據,支撐應用。 所以,數據的價值發揮,大數據平臺的建設,必然是囊括了大數據處理與BI應用分析建設的。
2、大數據擁有價值。來看看數據使用金字塔模型,從數據的使用角度來看,數據基本有以下使用方式:
自上而下,可以看到,對數據的要求是不一樣的:
數據量越來越大,維度越來越多。
交互難度越來越大。
技術難度越來越大。
以人為主,逐步向機器為主。
用戶專業程度逐步提升,門檻越來越高。
企業對數據、效率要求的逐步提高,也給大數據提供了展現能力的平臺。企業構建大數據平臺,歸根到底是構建企業的數據資產運營中心,發揮數據的價值,支撐企業的發展。
整體方案思路如下:
建設企業的基礎數據中心,構建企業統一的數據存儲體系,統一進行數據建模,為數據的價值呈現奠定基礎。同時數據處理能力下沉,建設集中的數據處理中心,提供強大的數據處理能力;通過統一的數據管理監控體系,保障系統的穩定運行。有了數據基礎,構建統一的BI應用中心,滿足業務需求,體現數據價值。
提到大數據就會提到hadoop。大數據并不等同于hadoop,但hadoop的確是最熱門的大數據技術。下面以最常用的混搭架構,來看一下大數據平臺可以怎么通過Kafka作為統一采集平臺的消息管理層,靈活的對接、適配各種數據源采集(如集成flume),提供靈活、可配置的數據采集能力。利用spark和hadoop技術,構建大數據平臺最為核心的基礎數據的存儲、處理能力中心,提供強大的數據處理能力,滿足數據的交互需求。同時通過spark streaming,可以有效滿足企業實時數據的要求,構建企業發展的實時指標體系。
同時為了更好的滿足的數據獲取需求,通過RDBMS,提供企業高度匯總的統計數據,滿足企業常規的統計報表需求,降低使用門檻。對大數據明細查詢需求,則通過構建HBase集群,提供大數據快速查詢能力,滿足對大數據的查詢獲取需求。
一般的大數據平臺從平臺搭建到數據分析大概包括以下幾個步驟:
1、Linux系統安裝
一般使用開源版的Redhat系統--CentOS作為底層平臺。為了提供穩定的硬件基礎,在給硬盤做RAID和掛載數據存儲節點的時,需要按情況配置。比如,可以選擇給HDFS的namenode做RAID2以提高其穩定性,將數據存儲與操作系統分別放置在不同硬盤上,以確保操作系統的正常運行。
2、分布式計算平臺/組件安裝
當前分布式系統的大多使用的是Hadoop系列開源系統。Hadoop的核心是HDFS,一個分布式的文件系統。在其基礎上常用的組件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。
使用開源組件的優點:1)使用者眾多,很多bug可以在網上找的答案(這往往是開發中最耗時的地方);2)開源組件一般免費,學習和維護相對方便;3)開源組件一般會持續更新;4)因為代碼開源,如果出現bug可自由對源碼作修改維護。
常用的分布式數據數據倉庫有Hive、Hbase。Hive可以用SQL查詢,Hbase可以快速讀取行。外部數據庫導入導出需要用到Sqoop。Sqoop將數據從Oracle、MySQL等傳統數據庫導入Hive或Hbase。Zookeeper是提供數據同步服務, Impala是對hive的一個補充,可以實現高效的SQL查詢
3、數據導入
前面提到,數據導入的工具是Sqoop。它可以將數據從文件或者傳統數據庫導入到分布式平臺。
4、數據分析
數據分析一般包括兩個階段:數據預處理和數據建模分析。
數據預處理是為后面的建模分析做準備,主要工作時從海量數據中提取可用特征,建立大寬表。這個過程可能會用到Hive SQL,Spark QL和Impala。
數據建模分析是針對預處理提取的特征/數據建模,得到想要的結果。如前面所提到的,這一塊最好用的是Spark。常用的機器學習算法,如樸素貝葉斯、邏輯回歸、決策樹、神經網絡、TFIDF、協同過濾等,都已經在ML lib里面,調用比較方便。
5、結果可視化及輸出API
可視化一般式對結果或部分原始數據做展示。一般有兩種情況,行數據展示,和列查找展示。
關于大數據分析平臺系統開發思路及步驟是什么就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。