大數據和「數據挖掘」是何關系？---來自知乎

發布時間：2020-06-24 01:07:22 來源：網絡閱讀：3624 作者：冷暖己知欄目：大數據

大數據和「數據挖掘」是何關系？---來自知乎知乎用戶，互聯網

244 人贊同

在我讀數據挖掘方向研究生的時候：
如果要描述數據量非常大，我們用Massive Data（海量數據）
如果要描述數據非常多樣，我們用Heterogeneous Data（異構數據）
如果要描述數據既多樣，又量大，我們用Massive Heterogeneous Data（海量異構數據）
……
如果要申請基金忽悠一筆錢，我們用Big Data（大數據）

編輯于 2014-02-2817 條評論感謝

收藏沒有幫助舉報作者保留權利

大數據和「數據挖掘」是何關系？---來自知乎劉知遠，NLPer

4 人贊同

我覺得大數據和深度學習一樣，是讓艱深的計算機概念得到公眾認知和認可的有效嘗試，無論是 “大”字還是“深度”，都非常形象也很直觀地展示了這些研究課題的挑戰和意義，雖然這些研究課題在相關研究領域早已被探索了幾十年。

發布于 2014-05-15添加評論感謝

收藏沒有幫助舉報作者保留權利

大數據和「數據挖掘」是何關系？---來自知乎葉開，非參數統計，數據挖掘，R

21 人贊同

談談個人見解：
數據挖掘基于數據庫理論，機器學習，人工智能，現代統計學的迅速發展的交叉學科，在很多領域中都有應用。涉及到很多的算法，源于機器學習的神經網絡，決策樹，也有基于統計學習理論的支持向量機，分類回歸樹，和關聯分析的諸多算法。數據挖掘的定義是從海量數據中找到有意義的模式或知識。

大數據是今年提出來，也是媒體忽悠的一個概念。有三個重要的特征：數據量大，結構復雜，數據更新速度很快。由于Web技術的發展，web用戶產生的數據自動保存、傳感器也在不斷收集數據，以及移動互聯網的發展，數據自動收集、存儲的速度在加快，全世界的數據量在不斷膨脹，數據的存儲和計算超出了單個計算機(小型機和大型機)的能力，這給數據挖掘技術的實施提出了挑戰（一般而言，數據挖掘的實施基于一臺小型機或大型機，也可以進行并行計算）。Google提出了分布式存儲文件系統，發展出后來的云存儲和云計算的概念。
大數據需要映射為小的單元進行計算，再對所有的結果進行整合，就是所謂的map-reduce算法框架。在單個計算機上進行的計算仍然需要采用一些數據挖掘技術，區別是原先的一些數據挖掘技術不一定能方便地嵌入到 map-reduce 框架中，有些算法需要調整。
此外，大數據處理能力的提升也對統計學提出了新的挑戰。統計學理論往往建立在樣本上，而在大數據時代，可能得到的是總體，而不再是總體的不放回抽樣。

發布于 2014-03-07添加評論感謝

收藏沒有幫助舉報作者保留權利

大數據和「數據挖掘」是何關系？---來自知乎張偉棋，candidate for datascience master

8 人贊同

關于大數據的定義很多，引述 Doug Laney 2001 關于大數據的主流定義。
翻譯易有偏差，下面是英文定義，從容量（Volume），速率（Velocity）和種類（Variety）三個方面來闡述：

Volume. Many factors contribute to the increase in data volume. Transaction-based data stored through the years. Unstructured data streaming in from social media. Increasing amounts of sensor and machine-to-machine data being collected. In the past, excessive data volume was a storage issue. But with decreasing storage costs, other issues emerge, including how to determine relevance within large data volumes and how to use analytics to create value from relevant data.
Velocity. Data is streaming in at unprecedented speed and must be dealt with in a timely manner. RFID tags, sensors and smart metering are driving the need to deal with torrents of data in near-real time. Reacting quickly enough to deal with data velocity is a challenge for most organizations.
Variety. Data today comes in all types of formats. Structured, numeric data in traditional databases. Information created from line-of-business applications. Unstructured text documents, email, video, audio, stock ticker data and financial transactions. Managing, merging and governing different varieties of data is something many organizations still grapple with.

而數據挖掘（Data mining）簡單的說，則是一個從未經處理過的數據中提取信息的過程，重點是找到相關性和模式分析。

大數據和數據挖掘的相似處或者關聯在于：數據挖掘的未來不再是針對少量或是樣本化，隨機化的精準數據，而是海量，混雜的大數據。

編輯于 2014-03-23添加評論感謝

收藏沒有幫助舉報作者保留權利

大數據和「數據挖掘」是何關系？---來自知乎肖智博，大數據是媒體發明出來騙人的

75 人贊同

我還是一貫堅持我的態度：「大數據」是媒體忽悠出來的名詞，這東西是用來騙錢和騙項目的。所以也就回答了你的第一個問題，不是延伸。第二個問題是，沒有相似度。

接下來好好說。如果說硬要說相似度的話，那么重合度的確是有很高。因為大數據干的事情其實就是數據挖掘做的事情。

數據挖掘之前叫KDD(Knowledge Discovery and Data Mining, 或者也可以是 Knowledge Discovery in Database)，這樣說就很好解釋了。數據挖掘就是從海量的數據中發現隱含的知識和規律。那么說，這個東西是啥時候提出來的？上個世紀。大數據啥時候提出來的？也就這幾年的事情吧。所以說，大數據很大程度上是數據挖掘的一個好聽的名字。

其實也不能一概否定「大數據」，至少通過媒體的熱炒，讓很多人知道了「數據」的重要性。只是很多人都不知道怎么做大數據，因為這個東西本來就是虛的嘛。如果想了解大數據，那么踏踏實實的做法是學習一下「數據挖掘」和「機器學習」相關的知識。具體的內容，可以搜索一下我以前答過的內容。

發布于 2014-02-2722 條評論感謝

收藏沒有幫助舉報作者保留權利

大數據和「數據挖掘」是何關系？---來自知乎許方正，想成為一名***。。。

28 人贊同

謝邀，以前關注過一段時間的大數據，不過現在主要糾結社區發現去了，暫時沒用到大數據- -，有什么不對的地方請指正，不過勿噴。。。咳咳，我覺得我看過的一本書上講的還不錯的，大致介紹一下。

我們處理許多問題的核心思想在于樣本選取和結果選取：

樣本選取：從很久以前到現在，我們獲取數據的能力以及分析數據的能力都是很有限的，這就導致，很多數據我們是無法在我們需要的時候采集到的，舉一個例子：人口普查。近代美國要求10年進行一次人口普查，但是隨著人口的增長速度越來越快，到后來統計出國家的大致人口都需要13年了。。因此不能采用普查。因此我們必須使用另一種經典的方法，并以此方法達到通過獲取少量數據就能夠分析大規模問題的目的——抽樣。我們都知道抽樣調查是有各種各樣的要求和準則，而且合理性也經常不如人意，但是在之前獲取數據難度很大的前提下（只能親自去看，一個一個人工考察），這種方法的確賦予了我們處理大規模數據的能力：從里面完全隨機的（我們都知道這是不可能的）選擇一些正確的（數據完全正確也是不可能的）數據進行分析。

樣本分析：通過上述介紹的抽樣方式，我們獲得了我們分析問題所需要的數據。我們現在要開始利用它們，那么怎么利用呢？數據可以是很簡單的，例如長度，溫度，時間，重量等等；也可以是很復雜的，一本書，一張圖，一個石頭。之所以說這些數據復雜，是因為它們是由我們提到的諸如重量長度等等簡單的數據構成的。那么，如果我們要分析石頭的話，將會變得很困難——因為要處理的數據種類實在太多了，各種數據之間還存在這樣那樣的影響。這讓我們計算能力嚴重不足的祖先們（只有筆和算盤，各種函數和公式都么有發明。。）無比的抓狂。。。因為等我們用簡單粗暴的方式算出來了以后，數據的有效期很可能已經過了（參見前面說的人口普查數據）。因此我們又發明了一個牛逼而經典的方法——建模。我們采用幾個對描述這個對象很關鍵的數據來代替所有的數據，這樣，計算量和計算難度都有客觀的改善。

上面介紹的就是我們傳統的數據獲取和處理方法，下面就要講一下數據挖掘了。

為什么我們要挖掘數據，我個人認為是因為我們現在獲取數據的難度大大地降低了，所以我們有了很多很多很多的數據了- -，看著都要吐了。。。是的。。

正是因為看著都要吐了，所以我們不想看了，我們想要不用人腦，而讓計算機來幫我們找到數據的價值，于是我們就要用數據挖掘方法了，也就是肖智博提出來的：數據挖掘就是從海量的數據中發現隱含的知識和規律。所以數據挖掘的前提和大數據的前提是一樣的，就是海量數據。所以就方法而言，二者是很類似的。

我們現在總是提的大數據，我認為主要是一種思路：
1.不使用抽樣的數據，而采用全部的數據：這里我指的全部的數據是完全所有的數據，包括正確的和不正確的數據都要采用。噪聲和錯誤數據同樣包含著有用的信息。

2. 不關心為什么，只關心是什么：因為我們有了海量的數據，因此我們通過大數據統計出的結果應該是具有相當程度的普適性的。所以把這種現象-結果拿去套就行了。如果探究和證明因果關系的話，通常是極為困難的。一個例子就是經典的啤酒和尿布，從數據中獲得這種結果很簡單，把它們放在一起就能增加銷量從而達到沃爾瑪的目的，而去查明原因則費事的多。

3. 相比數據分析方法而言更注重數據獲取：換一種說法就是數據為先。因為現在計算機太牛逼了，所以只要我們想到辦法，它就能替我們干相應的活。基于此，我們要做的就是獲取更多的，更全面的數據來讓計算機分析。例如國外快遞公司在車上裝傳感器來幫助快遞調度，勞斯萊斯公司在飛機發動機上裝傳感器并通過歷史數據和實時數據預先預測潛在故障并提前檢修的例子。大數據思維模式中，數據為我們提供最多的可能和最大的價值，所以著重獲取數據。

說了這么多，我想說的就是數據挖掘可以概括為：在我們掌握的數據多了以后，把數據交給計算機分析的方法的集合。而大數據則是跳出我們的傳統數據分析和處理方法框架的一種新思維。一種思維和一類技術比起來，確實是要虛很多，而且思維要付諸實現，必然是要以技術為基礎的。但是正是由于思維方式的不同，我們可以從數據中獲得更多的東西，比如對之前認為沒有價值的噪聲和錯誤數據的分析，或者對現象的重視而意外發現的一些有意思的結果等等。。

因此，我個人認為，大數據是我們在不斷發展數據挖掘技術的過程中誕生出來的一種新思維，這種思維的實際應用以數據挖掘技術為基礎，并可以促進我們開發出更多的數據挖掘技術。。

發布于 2014-04-264 條評論感謝

收藏沒有幫助舉報作者保留權利

大數據和「數據挖掘」是何關系？---來自知乎 aiirii wong

20 人贊同

看了不少評論說只是忽悠，就好像到現在還有很多人認為云計算是虛擬化的同義詞，也是忽悠一樣，其實是自己還沒真正了解其內涵；
就好像云計算是因為虛擬化技術發展的量變導致質變(雖然虛擬化不是實現云計算的必要前提)；大數據也是同樣的道理是舊技術發展到一定程度導致的新產物，
很多人還停留在大數據就是海量數據的概念（這只是其中一個特征），網上很多所謂的大數據例子，也體現不出目前大數據的明顯特征，和之前的數據挖掘顯示不出差別，更加讓部分人以為大數據就是數據挖掘的別名；

我個人的理解，有若干區別：
1，數據挖掘還是基于用戶假設了因果，然后進行驗證；而大數據則重點在找出關聯關系，A的變化會影響到B的變化幅度；
2，傳統的方法只是從內部數據庫數據提取，分析數據；大數據則從更多途徑，采用更多非結構化的數據；
3，處理時間上，傳統的對時間要求不高；大數據強調的是實時性，數據在線即用；
4，傳統的方式，重點還是從數據中挖掘出殘值；而大數據則是從數據中找出新的內容，創新的價值；
...

最大的區別，還是思維的不同，思考方式的不同，導致后面的方法論，工具有很大的區別；

編輯于 2015-05-153 條評論感謝

收藏沒有幫助舉報作者保留權利

大數據和「數據挖掘」是何關系？---來自知乎知乎用戶，熱愛Python，Data Debugger，機器學習進…

3 人贊同

數據挖掘是一門技術，是學問，更狹義一點就是對一類算法研究的總稱，這些算法的共同特點是從希望從真實世界的數據中識別出有用的pattern，進而獲取新的知識，最終落實到decision making。

大數據，這個概念非常的虛，被賦予了太多的含義，缺乏實質的內涵。但是“大”是他們的共性。我更傾向于將其理解為近年來興起的一系列數據處理工具，其代表就是基于MapReduce的Hadoop。他們大多基于分布式環境，以能夠處理海量數據或者實時性為賣點。

編輯于 2014-02-27添加評論感謝

收藏沒有幫助舉報作者保留權利

大數據和「數據挖掘」是何關系？---來自知乎知乎用戶，答案被收藏161616次，求知道路走了1%

14 人贊同

以山西開礦的煤老板為例：

開礦的前提是有礦，包括煤礦的儲藏量，儲藏深度，煤的成色。

之后是挖礦，要把這些埋在地下的礦挖出來，需要挖礦工，挖礦機，運輸機。

之后是加工，洗煤，煉丹，等等。

最后才是轉化為銀子。

數據行業十分類似：

挖掘數據的前提是有數據，包括數據的儲藏量，儲藏深度，數據的成色。

之后是數據挖掘，要把這些埋藏的數據挖掘出來。

之后是數據分析輸出，要把這些數據可視化輸出，指導分析、商業實踐。

直到這一步，才創造了價值。

所謂的大數據，大約就是說現在有座正在形成的巨型礦山，快去搶占成為煤老板吧，下一個蓋茨興許將在這里誕生。

編輯于 2014-03-013 條評論感謝

收藏沒有幫助舉報作者保留權利

大數據和「數據挖掘」是何關系？---來自知乎徐曉軼，AI，儒學，https://github.com/andrewxxyi/JXPi

6 人贊同

兩回事，大數據是海量數據環境下如何還能保持對某個訪問會話的快速響應。數據挖掘是從大量的歷史信息中總結出有用的知識。這是兩個層次上的事情。
數據挖掘原則上是可以不需要大數據的，因為它對響應速度并無要求，它看重的是挖掘出來的知識的效用。但對于海量數據環境下，如果沒有大數據的相關數據快速供給能力，那么數據挖掘所消耗的計算資源可能使得其根本無法完成或成本太高。

發布于 2014-02-273 條評論感謝

收藏沒有幫助舉報作者保留權利

大數據和「數據挖掘」是何關系？---來自知乎周李，屌絲想搞數據挖掘

7 人贊同

個人覺得數據挖掘是一門技術，是相對比較狹義上的一個概念。
而大數據更像一個產業，數據挖掘當然是其一個核心技術。但是，大數據與數據挖掘不同的是，他還涉及到其他廣泛的技術，其中代表的如可視化技術，數據存儲和管理技術。
大數據不僅僅是利用數據挖掘技術從數據中挖掘有用的信息，他還要采取海量數據，通常要分布實時處理，最后利用要組織數據挖掘技術得到的信息，向用戶直觀的展示這些信息~

發布于 2014-02-28添加評論感謝

收藏沒有幫助舉報作者保留權利

大數據和「數據挖掘」是何關系？---來自知乎知乎用戶，PhD candidate

6 人贊同

我對這個問題表示倒是沒有什么特別的看法，只是在此回憶一些我老板的話。
1、（大二的時候實驗室大老板給上數據庫的課，在課上發表過一些關于大數據的看法，大意是：）其實大數據并不是什么新鮮的概念，很早就有了。只是最近幾年又有人冷飯熱炒把它翻出來，也就是在炒作。炒作好了就可以向國家匯報，申請什么自然科學基金什么。
2、（這一段是實驗室內部大老板做的一個內部報告，只把最不重要的并且在其他場合講過的一些拿出來）大數據其實并沒有一個特別明確的定義，多大的數據算大數據？這個并沒有一個統一的標準。20年前，幾百兆的數據我們看起來就很大；幾年前我們覺得幾個GB的數據算大數據；現在我們覺得幾個TB的數據才能叫大數據。大數據這個標準是在計算機計算能力發展的情況下不斷變化的。（老板在報告里給出過一個我覺得比較靠譜的定義，但是不知道有沒有發表）
3、對于題主的問題【大數據是不是數據挖掘的延伸？兩者的相似度有多少？】，我覺得兩者并沒有什么關系。大數據帶來的問題是因為越來越多的數據產生出來而自然引發的一系列的在包括數據庫系統、計算方法等基礎問題上現有工具無法有效處理的問題；而數據挖掘則是在數據基礎上進行知識發現的過程。這兩者并不存在明顯的誰是誰的延伸的問題，也并沒有多少相似的地方。

硬要說兩者有何關系的話，可以看看下面。
大數據帶來的挑戰主要是現在基礎技術無法滿足需求。比如傳統上我們覺得一個亞線性時間算法不錯，可是拿到大數據上，亞線性時間也不行了，這就是數據量的增長對于整個計算機科學界提出的挑戰，你說你有一個O(log(n))的算法，那放到大數據身上也是不管用的（指的是不能分布計算的場景，能分布計算的話只要多搞幾臺機器（像MapReduce那樣），分散開來變成“小數據”之后也就不叫大數據了）。由此給數據挖掘帶來的問題就是很多數據挖掘算法即使在傳統概念上的時間復雜度很低，現在也不能滿足要求了。
【以上】

編輯于 2014-05-161 條評論感謝

收藏沒有幫助舉報作者保留權利

大數據和「數據挖掘」是何關系？---來自知乎徐申

4 人贊同

先說說我對大數據的理解。我以為大數據有2層意思：首先是萬物皆可數據化。數據化不等于數字化，數據化指的是將對象量化成可分析的數據，可以是結構化的，也可以是非結構化的。援引來自2013年4月19號《東方早報》的文章《比你更了解你——大數據時代的汽車生活》中的一段：
再來說一個例子，你可能永遠也想不到你開車時的坐姿可以防止汽車被盜，這聽起來簡直不可思議，但這就是現實存在的事，日本某工業研究所通過在汽車座椅下安裝360個壓力傳感器來測量人對座椅各部分施加壓力的方式，并且通過0-256個數值范圍進行量化，這樣，每個乘坐者都將產生一份專屬的數據資料，這個系統可以根據人對座位的壓力差異識別出乘坐者的身份，準確率高達98%，這項技術作為汽車防盜系統裝在車上時，汽車就會知道駕駛者是不是車主，如果不是，汽車就會自動熄火，另外也可以根據坐姿數據來判斷司機是否正處于疲勞駕駛，系統可以通過自動減速或剎車來控制可能帶來的危險。

我舉這個例子是想說明借助今天的技術和數學統計知識，以前不能量化描述的東西今天已經可以在計算機上分析和表達，即數據化。
第二層意思是大數據的“樣本即總體”。這個觀點來自于舍恩伯格的《大數據時代》。以前的定量調查和分析的數據，受限于技術、資金等條件，總是從整體中抽取一部分樣本，針對這些樣本進行調查。但是大數據不一樣，大數據分析的數據是整體。
總之，大數據是一種思維方式。
然而回到數據挖掘這個關鍵詞上來。之前的回答已經很清楚地解釋了數據挖掘，以及與大數據之間的不同。我想強調的一點是：大數據的獨特魅力在于新穎而又具有實際意義的數據挖掘，如經典的”啤酒與尿布“的案例。

編輯于 2014-03-012 條評論感謝

收藏沒有幫助舉報作者保留權利

匿名用戶

3 人贊同

數據挖掘=大數據+機器學習

發布于 2015-01-19添加評論感謝

收藏沒有幫助舉報作者保留權利

大數據和「數據挖掘」是何關系？---來自知乎知乎用戶，運籌學博士 / 在美國從事保險數據挖掘

2 人贊同

今天開會老板對大數據的總結十分精彩：大數據就像“teenage-sex”，所有人都在談論這個，所有人都以為別人在做這個，所以所有人都聲稱自己也在做這個。。。

--------------------------------------------------------------------------------------------------------------------
在我看來大數據是一種屬性，而數據挖掘是方法，或者說是方法的集合。

我認為數據挖掘就是指從單純無序雜亂的數據里面提取出有用的信息，首先要規范化數據，然后根據想要回答的問題選擇相應的方法，可以建立模型預測未來，也可以對當前數據聚類等等。也可以是單純的從數據中找尋規律，并不一定要回答特定的問題。所以我覺得用excel作pivot table也是一種數據挖掘。

而大數據就是指數據的特性，顧名思義就是大。海量數據會造成很多問題，首先計算量就是一個問題，最簡單的個人電腦的內存在數據量達到百萬行的時候基本上就捉襟見肘了，讀入就成問題，更談不上計算了，當然計算速度就是附帶的問題。然后就是選擇的問題了，以往都是數據量太少，要預測一個量恨不得把能收集到的其他量都用上，現在是數據量太大，想象一下1000多個不同的量預測一個量的模型你能信任嗎，即使真的相信了這樣的模型，要很難利用這樣的模型給出合適的建議。第三個大數據特點就是實時更新，因為每天都可以產生大量數據，昨天的模型需要用今天的模型驗證，然后修正，這就是一個不斷更正的過程。

我不覺得大數據全是炒作出來的噱頭，什么都數字化的今天，數據的處理方法上還是有一些特別的地方的。不過數據還是數據，處理的核心還是不會變的。

編輯于 2014-09-09添加評論感謝

收藏沒有幫助舉報作者保留權利

大數據和「數據挖掘」是何關系？---來自知乎知乎用戶，數據分析，數據挖掘新手

2 人贊同

新手一枚，簡單述說一下我的觀點，大數據和數據挖掘的關系
1.首先，數據挖掘是一種工具，并且由來已久，不是什么新鮮東西；而大數據是新近幾年才出現的概念，主要強調了全景數據，全量數據，其中大部分是非結構化數據或半結構化數據（我們一般說的數據基本上都是結構化數據）
2.其次，數據挖掘屬于數據分析的一個工具，而數據分析是探索大數據規律的方法，由此可知，某種程度上可以說數據挖掘是大數據分析的一個工具。

并且從維基百科上我們可以發現
數據挖掘有以下這些不同的定義：
“從數據中提取出隱含的過去未知的有價值的潛在信息”
“一門從大量數據或者數據庫中提取有用信息的科學。”

說到數據挖掘，應該說說知識發現（KDD），數據挖掘與KDD的關系是：KDD是從數據中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程；而數據挖掘是KDD通過特定的算法在可接受的計算效率限制內生成特定模式的一個步驟。如今的各種文獻資料中，這兩個術語經常不加區分的使用，數據挖掘（DM）=知識發現（KDD），并且商業領域一般說數據挖掘，而學術領域就說KDD。

大數據指的是所涉及的數據量規模巨大到無法通過人工，在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息，數據挖掘（data mining）則是在探討用以解析大數據的方法。

3.舉例說明，Google 流感趨勢

我們發現，某些搜索字詞非常有助于了解流感疫情。Google 流感趨勢會根據匯總的 Google 搜索數據，近乎實時地對全球當前的流感疫情進行估測。

【全球每星期會有數以百萬計的用戶在網上搜索健康信息。正如您所預料的那樣，在流感季節，與流感有關的搜索會明顯增多；到了過敏季節，與過敏有關的搜索會顯著上升；而到了夏季，與曬傷有關的搜索又會大幅增加。所有這些現象均可通過 Google 搜索解析進行研究。但是，搜索查詢趨勢能否為實際現象建立一個準確可靠的模式而提供依據呢？

我們發現，搜索流感相關主題的人數與實際患有流感癥狀的人數之間存在著密切的關系。當然，并非每個搜索“流感”的人都真的患有流感，但當我們將與流感有關的搜索查詢匯總到一起時，便可以找到一種模式。我們將自己統計的查詢數量與傳統流感監測系統的數據進行了對比，結果發現許多搜索查詢在流感季節確實會明顯增多。通過對這些搜索查詢的出現次數進行統計，我們便可以估測出世界上不同國家和地區的流感傳播情況。】本文已經發表在美國《自然》雜志上http://static.googleusercontent.com/media/research.google.com/zh-CN//archive/papers/detecting-influenza-epidemics.pdf

（1）這個簡單的例子說明，谷歌利用計算機數據挖掘相關工具挖掘搜索引擎的記錄（全部流感記錄），找出數據背后的規律，即流感趨勢，這里流感記錄就是全量數據，不是隨機抽樣的，這是區別于之前（2010年之前）的數據分析的最大區別。

（2）理想中大數據主要是非結構化或半結構化數據，而這里谷歌的記錄數據仍然是結構化數據，因此大數據是一個處在不斷發展、更新的概念，當然數據挖掘工具也處在不斷升級完善中，理想中的數據挖掘工具應該可以處理全量數據、即時數據、多類型數據、·····總之，大數據和數據挖掘都在不斷變化發展中，我們常人都是根據歷史數據來理解大數據和數據挖掘，當然有一個萬變不離其宗的東西就是基于應用統計學的分析方法。

以上就是鄙人的愚見，希望大家可以多加討論，集思廣益來理解大數據和數據挖掘

發布于 2014-03-03添加評論感謝

收藏沒有幫助舉報作者保留權利

大數據和「數據挖掘」是何關系？---來自知乎何棟棟，哼哼哈嘿

1 人贊同

簡單來說，數據挖掘應該比大數據出現得早。人們在進行生產（商業也算哦）的過程中會發現有一些數據，這些數據伴隨著生產過程產生，必然包含著一些規律，人們就想用一些方法把枯燥數據里的秘密挖掘出來，于是動用統計啊計算啊機器學習之類的方法（方法不重要，能挖出秘密重要），把這個過程叫做數據挖掘；而大數據，只是泛泛而談罷了，大致指的是海量數據，是個大概念，不具體。

發布于 2014-03-10添加評論感謝

收藏沒有幫助舉報作者保留權利

大數據和「數據挖掘」是何關系？---來自知乎地主，地主老爺

1 人贊同

大數據可以理解為一個技術手段、平臺、工具或者是一種思想
而數據挖掘是工作目標，在沒有大數據概念之前，數據挖掘可以用關系型數據庫、分析型數據庫等等，現在只不過多了一個選擇，而且是一個很好用的技術手段。

發布于 2014-12-08添加評論感謝

收藏沒有幫助舉報作者保留權利

大數據和「數據挖掘」是何關系？---來自知乎楊學晨，我在故我知乎

1 人贊同

挖掘——明顯的低端體力勞動，不值一提
大（海量）——絕對的高精尖科技，不明覺厲

同樣的啤酒，同樣的尿布，碼農寫下了樸素的本質，資本家吹出了高大上的藍圖。

媒體與大眾的視角

從媒體的宣傳來看，完全是借用了“大數據”這一名詞向大眾灌輸了“數據挖掘”在商業活動和社會生活中的潛藏的巨大作用。不論是早已威名遠播的“啤酒與尿布”，還是新鮮出爐的“紙牌屋”，無不是對數據挖掘的商業價值的完美詮釋。正如開篇所言，“大數據”無疑比“數據挖掘”更具有吸引眼球的潛質。對于普通大眾而言，讓他們知道海量數據如何存儲和處理并不重要，重要的是告訴他們數據的背后存在著價值。于是乎，“大數據”成為了“數據挖掘”的代名詞，通過媒體狂轟濫炸地宣傳成功上位，成為某些利益集團用于概念炒作的工具。

專業的視角

正如 @張偉棋引用的定義所言，大數據概念強調了在對于具有數據容量大、產生速度快、數據類型雜的特點的數據的處理，包含了與之相關的存儲、計算等方面的技術。數據挖掘的發展過程中，不斷追求著從更多來源獲得更大數據量并進行更高效地分析，以期獲得更全面、更準確、更及時的結果。我認為，大數據概念的提出是數據挖掘技術發展和應用帶來的必然結果，是對數據挖掘發展中遇到的海量數據相關問題的提煉和總結，并由此形成的對立的相關概念。

編輯于 2014-03-01添加評論感謝

收藏沒有幫助舉報作者保留權利

大數據和「數據挖掘」是何關系？---來自知乎旺仔面，咨詢顧問，業余攝影師

簡單粗暴地講，大數據是海洋，大數據中的信息則是魚，而“數據挖掘”就是捕魚的網。如果把 “大數據” 狹義地理解為一類數據源，那么，“數據挖掘” 就是用來駕馭 “大數據” 的重要手段之一。

由于大數據是一類復雜的、不友好的數據源，用傳統的方法往往難以駕馭，為了能夠有效利用大數據，人們就逐漸發明出一套系統的方法工具，來對大數據進行收集、存儲、抽取、轉化、加載、清洗、分析、挖掘和應用，而 “數據挖掘 Data mining” 就是對各種挖掘工具方法的統稱。

需要注意的是，大數據源通常不能直接進行數據挖掘，還需要耗費大量工作量進行預處理。當然，完成了數據挖掘還沒有結束，還需要對挖掘結果進行業務應用，才能創造價值。就好比有一座鐵礦山，得先從礦山中開采出品質達標的鐵礦石（預處理過程，數據清洗、集成、變換和規約），才能送到煉鋼廠冶煉為鋼材（挖掘過程），最終鋼材還要用到建筑工地上（應用過程）。

-- -- -- -- -- -- -- -- -- -- 首先來看什么是“大數據” -- -- -- -- -- -- -- -- -- --

1.大數據是具備3V特征（Volume 大體量、Variety 復雜多樣、Velocity 高速時效)的數據源。大眾很容易理解 Volume，互聯網公司、運營商和金融機構的數據量動輒以TB計，卻往往會忽視 Variety 和 Velocity。

Variety 是指大數據來源豐富、形態多樣，常見的大數據就包括電商用戶數據、文本數據、社交網絡數據、車載信息服務數據、時間和位置數據、RFID數據、智能電網數據、設備傳感器數據等等。

Velocity 是指大數據一邊高速海量生成，同時數據的分析和應用也實時完成，比如，網絡廣告程序化購買、互聯網金融實時授信，都涉及到實時處理海量數據的技術。

2. 大數據也是一個相對的概念，目前的“小數據”，曾經也是“大數據”。比如ERP、CRM里導出的數據，現在用excel就能輕松駕馭，但在幾十年前，放在當時的技術條件下，這樣的數據又何嘗不是大體量、多樣、高速的 "大數據"。目前的“大數據”，隨著技術發展，未來也會成為能夠輕松駕馭的“小數據”。

3. 大數據通常都是機器自動生成的，例如物聯網中傳感器自動生成環境數據。而傳統數據的生成往往涉及人工因素，例如零售交易、電話呼叫等等。

4. 大數據往往不是 “結構化” 的，因此難以駕馭。收集傳統數據源的交易系統通常會以整潔的、預先規范好的模板方式來生成數據，以確保數據容易被加載和使用。而大數據源在最開始通常不會被嚴格地定義，而是去收集所有可能使用到的信息。

常見的財務報表就是典型的 “結構化” 數據，表頭明確了數據的類別、科目，整潔規范。
網絡日志則是“半結構化”數據的代表，看起來亂七八糟，完全談不上整潔規范，但其中每一條信息卻都有特定用處。
而文本，諸如博客文章、論壇評論則是 “非結構化” 數據，必須耗費大量精力進行轉化和清洗，才能進行分析和利用。

5. 很多數據可能就是垃圾，并不蘊含大量價值。事實上，大部分數據甚至毫無價值。一篇網頁日志中會含有非常重要的數據，但其中也包含了很多根本沒有價值的數據。對其進行提煉，從而保留有價值的部分是非常必要的。

-- -- -- -- -- -- -- -- -- -- 再來看什么是“數據挖掘” -- -- -- -- -- -- -- -- -- --

既然大數據通常是 “大體量、發雜多樣、高速實時”，而且不是 “結構化” 的，這就引出一個問題，如何駕馭大數據？

前面提到，人們發明出包括數據收集、存儲、抽取、轉化、加載、清洗、分析、挖掘和應用的方法用以駕馭大數據，而 “數據挖掘 Data mining” 就是對各種挖掘工具方法的統稱。

要理解 “數據挖掘” ，可以和 “數據分析” 做個簡單比較

數據分析的分析目標往往比較明確，分析條件也比較清楚，基本上就是采用統計方法，對數據進行多維度地描述；
數據挖掘的目標卻不是很清晰，要依靠挖掘算法來找出隱藏在大量數據中的規律和模式，也就是從數據中提取出隱含的、未知的有價值的信息。

在實踐中，數據挖掘一般劃分為 “分類”、“聚類”、“關聯” 和 “序列” 等幾大常見問題，針對每一類問題，又有專門的挖掘算法來處理。例如，用戶流失預警模型、促銷活動響應模型都用于預測用戶某個行為的發生概率，屬于 “分類” 問題，可以用決策樹算法、邏輯回歸算法、多元線性回歸、神經網絡算法來處理。

想了解大數據的朋友可以看看《駕馭大數據》（Bill Franks 著、黃海譯、人民郵電出版社），是入門書籍里比較系統的，很適合幫助自己對大數據形成一個基本認知框架。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

大數據和「數據挖掘」是何關系？---來自知乎

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

大數據和「數據挖掘」是何關系？---來自知乎

猜你喜歡

最新資訊

相關推薦

相關標簽