您好,登錄后才能下訂單哦!
? 推測或解釋數據并確定如何使用數據;
? 檢查數據是否合法;
? 給決策制定合理建議;
? 診斷或推斷錯誤原因;
? 預測未來將要發生的事情
由于統計數據的多樣性,數據分析的方法大不相同,可以將數據根據下述標準分為幾類:根據觀察和測量得到的定性或定量數據,根據參數數量得到的一元或多元數據,此外,有些工作對領域相關的算法進行了總結,Manimom等對數據挖掘算法進行了分類,將其分為描述性(deive)、預測性和驗證性(veryfying),Bhatt等則將多媒體分析方法劃分為特征提取、變形、表示和統計數據挖掘,然而并沒有對大數據處理方法進行分類的工作,Blackett等根據數據分析深度將數據分析分為三個層次:描述性(deive)分析,預測性分析和規則性(preive)分析。
基于歷史數據描述發生了什么,例如,利用回歸技術從數據集中發現簡單的趨勢,可視化技術用于更有意義地表示數據,數據建模則以更有效的方式收集、存儲和刪減數據,描述性分析通常應用在商業智能和可見性系統。
用于預測未來的概率和趨勢,例如,預測性模型使用線性和對數回歸等統計技術發現數據趨勢,預測未來的輸出結果,并使用數據挖掘技術提取數據模式(pattern)給出預見。
解決決策制定和提高分析效率,例如,仿真用于分析復雜系統以了解系統行為并發現問題,而優化技術則在給定約束條件下給出最優解決方案。
數據驅動的應用在過去幾十年里已經出現,例如,20世紀90年代在商業領域出現的商業智能,21世紀初期出現的基于數據挖掘的web搜索引擎,接下來將介紹在不同時期典型大數據領域中具有高影響力的大數據分析應用的發展。
早期的商業數據是結構化的數據,由企業或公司收集并存儲在關系數據庫管理系統中,這些系統應用的數據分析技術通常是直觀簡單的,Gartner總結了商業智能應用的常用方法,包括報表(reporting)、儀表盤(dashboard)、即時查詢(adhocquery)、基于搜索的商業智能、在線事務處理、交互可視化、計分卡、預測模型和數據挖掘。21世紀初期,互聯網和web使得企業將其業務上線,并能和客戶直接聯系,大量的產品和客戶信息如點擊流數據日志和用戶行為可以通過web收集,通過使用不同的文本和web挖掘技術,可以完成產品放置優化,客戶事務分析,產品推薦和市場結構分析,據報道,2011年移動手機和平板電腦的數量首次超過了筆記本和PC機,移動手機和物聯網構建了具有位置感知、個人為中心和上下文感知的革新性應用。
早期的網絡提供電子郵件和網站服務,因此文本分析、數據挖掘和網頁分析技術被用于挖掘郵件內容、創建搜索引擎,網絡數據占據了全球數據的絕大部分,包含文本、圖像、視頻、照片和交互式內容等多種類型的數據,隨后,用于半結構化和無結構數據的分析技術得到了發展,例如,圖像分析技術可以從照片中提取有意義的信息,多媒體分析技術可以使商業或軍事領域的視頻監控系統自動化,2004年后,諸如論壇、博客、社交網站、多媒體分享站點等在線社交媒體的出現使得用戶能夠產生、上傳和共享豐富的用戶自主創造內容,從這些不同人們發布社交媒體內容中可以挖掘每天的熱門事件和社會政治觀點等,從而提供及時的反饋和意見。
科學研究的許多領域中高生產量的傳感器和儀器將產生大量的數據,如天文學、海洋學、基因學和環境研究等學科領域,美國NSF宣布對BIGDATA項目進行立項,促進數據分享和分析,有些科學研究學科以前已開發出對海量數據的分析平臺,并取得了有效地成果,例如在生物學科,iPlant利用信息基礎設施,物理計算資源和支持互操作的分析軟件等,向致力于豐富植物科學知識的研究者、教育者和學生提供數據服務,iPlant數據集是多樣性的數據,包含權威的和供參考的數據、實驗數據、仿真建模數據、觀察數據和其他處理后的數據。
.
基于以上的分析,可以將數據分析的研究分為6個方向:結構化數據分析、文本分析、web數據分析、多媒體數據分析、社交網絡數據分析和移動數據分析,結構化數據分析是指傳統的數據分析,Web數據、多媒體數據、社交網絡數據和移動數據,從數據形態上可能包括結構化數據的某些數據類型(如文本),但是在特定的應用領域里面,具有新的分析要求和特性。
盡管目標和應用領域不同,一些常用的分析方法幾乎對所有的數據處理都有用,下面將討論三種類型的常用數據分析方法。
與信息繪圖學和信息可視化相關,數據可視化的目標是以圖形方式清晰有效地展示信息38),一般來說,圖表和地圖可以幫助人們快速理解信息,但是,當數據量增大到大數據的級別,傳統的電子表格等技術已無法處理海量數據,大數據的可視化已成為一個活躍的研究領域,因為它能夠輔助算法設計和軟件開發,Friedman和Frits分別從信息表示和計算機科學領域對數據可視化進行了探討。Tabusvis則是一個輕型的可視化系統,提供對多維數據的靈活、可定制的數據可視化。
基于統計理論,是應用數學的一個分支,在統計理論中,隨機性和不確定性由概率理論建模,統計分析技術可以分為描述性統計和推斷性統計,描述性統計技術對數據集進行摘要(summarization)或描述,而推斷性統計則能夠對過程進行推斷,更多的多元統計分析包括回歸、因子分析、聚類和判別分析。
是發現大數據集中數據模式的計算過程,許多數據挖掘算法已經在人工智能、機器學習、模式識別、統計和數據庫領域得到了應用。此外,一些其他的先進技術如神經網絡和基因算法也被用于不同應用的數據挖據。有時候,幾乎可以認為很多方法間的界線逐漸淡化,例如數據挖掘、機器學習、模式識別、甚至視覺信息處理、媒體信息處理等等,此處以“數據挖掘”作為一個通稱。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。