您好,登錄后才能下訂單哦!
如何進行大數據平臺的搭建和數據分析,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。
行內人士皆知,大數據分析平臺的搭建有利于幫助企業構建統一的數據存儲和數據處理資源,圍繞企業業務開展大數據應用建設,最終形成面向服務化的數據資產。
一般的大數據平臺從平臺搭建到數據分析大概包括以下幾個步驟:
1、Linux系統安裝
一般使用開源版的Redhat系統--CentOS作為底層平臺。為了提供穩定的硬件基礎,在給硬盤做RAID和掛載數據存儲節點的時,需要按情況配置。比如,可以選擇給HDFS的namenode做RAID2以提高其穩定性,將數據存儲與操作系統分別放置在不同硬盤上,以確保操作系統的正常運行。
2、分布式計算平臺/組件安裝
當前分布式系統的大多使用的是Hadoop系列開源系統。Hadoop的核心是HDFS,一個分布式的文件系統。在其基礎上常用的組件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。
使用開源組件的優點:1)使用者眾多,很多bug可以在網上找的答案(這往往是開發中最耗時的地方);2)開源組件一般免費,學習和維護相對方便;3)開源組件一般會持續更新;4)因為代碼開源,如果出現bug可自由對源碼作修改維護。
常用的分布式數據數據倉庫有Hive、Hbase。Hive可以用SQL查詢,Hbase可以快速讀取行。外部數據庫導入導出需要用到Sqoop。Sqoop將數據從Oracle、MySQL等傳統數據庫導入Hive或Hbase。Zookeeper是提供數據同步服務,Impala是對hive的一個補充,可以實現高效的SQL查詢
3、數據導入
前面提到,數據導入的工具是Sqoop。它可以將數據從文件或者傳統數據庫導入到分布式平臺。
4、數據分析
數據分析一般包括兩個階段:數據預處理和數據建模分析。
數據預處理是為后面的建模分析做準備,主要工作時從海量數據中提取可用特征,建立大寬表。這個過程可能會用到Hive SQL,Spark QL和Impala。
數據建模分析是針對預處理提取的特征/數據建模,得到想要的結果。如前面所提到的,這一塊最好用的是Spark。常用的機器學習算法,如樸素貝葉斯、邏輯回歸、決策樹、神經網絡、TFIDF、協同過濾等,都已經在ML lib里面,調用比較方便。
5、結果可視化及輸出API
可視化一般式對結果或部分原始數據做展示。一般有兩種情況,行數據展示,和列查找展示。
看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注億速云行業資訊頻道,感謝您對億速云的支持。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。