您好,登錄后才能下訂單哦!
本篇內容介紹了“Hadoop MapReduce怎么使用”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!
Apache Hadoop :
是 Apache 開源組織的一個分布式計算開源框架,提供了一個分布式文件系統子項目 ( HDFS ) 和支持 MapReduce 分布式計算的軟件架構。
Hadoop 的核心是 HDFS 及 MapReduce ,國人喜歡用 “ 分而治之 ” 來概括。
“ 分而治之 ”
出自《 群經平議·周官二 》“ 巫馬下士二人醫四人 ”:“ 凡邦之有疾病者,疕瘍者造焉 ,則使醫分而治之 ,是亦不自醫也 。” 簡單點可以理解為分別治理的意思。
這類似于設計思維中的分類思想,例如:
UX 中的用戶畫像,給用戶打 TAG ;
UED 的設計語言,分解設計目標,為不同的子目標設定設計規則;也可以用于分解設計元素,制定每種元素的設計策略;
UI & 平面設計,針對配色、構圖、字體樣式等有不同的考究;
UX 設計,關注功能、布局、使用路徑、信息架構等的優化;
建筑/景觀設計,分別關注空間、材質、功能、視線等的體驗;
Hadoop廣泛應用于大數據中,用于處理數百 GB 到 TB 或 PB 的數據。利用 HDFS ,集群 N 臺普通計算機( 如配置為硬盤 128 GB,內存 4 G ),形成一個硬盤為 N X 128 GB ,內存 N X 4 G 的 “ 大型 ” 計算機。Hadoop 在此扮演的是數據分發的角色,可以很方便的隨時將原始數據的每一部分發送到群集中的多臺計算機上進行保存,并計算。
計算的時候,使用 MapReduce 模型來將工作分成一組獨立的任務來并行處理大量數據。
在 MapReduce 中,記錄由被稱為 Mappers 的任務隔離處理。然后將 Mappers 的輸出結合到稱為 Reducers 的第二組任務中,其中可以將來自不同映射器的結果合并在一起。
MapReduce 的例子——單詞統計:
統計單詞在不同文件中出現的次數。我們有2個文件:
foo.txt: Sweet, this is the foo file
bar.txt: This is the bar file
輸出的結果應該是:
sweet 1
this 2
is 2
the 2
foo 1
bar 1
file 2
寫成 MapReduce 的偽代碼形式如下:
mapper (filename, file-contents):
for each word in file-contents:
emit (word, 1)
reducer (word, values):
sum = 0
for each value in values:
sum = sum + value
emit (word, sum)
Hadoop 不是數據庫的替代品,而是一個計算框架,可以理解為就是個用于大數據的“計算器”。Hadoop 將數據存儲在文件中,并且不會對它們編制索引。如果您想查找某些內容,則必須運行 MapReduce 作業以查看所有數據。這需要時間,并且意味著您不能直接使用 Hadoop 作為數據庫的替代品。并且對于數據庫的更新及更改數據的操作, Hadoop 都不支持。
“Hadoop MapReduce怎么使用”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。