hadoop掃盲

發布時間：2020-08-05 20:58:36 來源：網絡閱讀：273 作者：lijingsan1 欄目：大數據

1 hadoop 大數據平臺架構和實踐

掌握大數據存儲與處理技術的原理

掌握hadoop開發

2 課程預報知識

linux 常用命令

java編程基礎

3 hadoop前世今生

大數據到來 PB 級別的數據。

mapreduce、GFS

并行，節點同步，開發了技術論文，沒開放源代碼。

hadoop ***小象。

4 hadoop 的功能和優勢

開源分布式存取 + 分布式計算平臺。

HDFS:分布式文件系統，

任務調度。

高擴展、低成本、成熟的生態圈。

hadoop 人才需求，開發人才、運維

5 生態系統版本

HDFS MAPreduce hive

sql -> hive -> hadoop

hbase 非關系型數據庫

zookeeper 動物管理員

版本選擇，2.6版本 1.2 版本穩定版

6 hadoop的安裝

1 linux 環境

2 安裝jdk

3 配置hadoop 4 個配置文件

可以租用云主機。阿里云不錯的選擇哦。

7 hadoop的核心文件

HDFS 體系結構

讀取元數據 dateNode 是工作節點

數據管理策略：三份存、64M數據庫，心跳檢測、定期匯報狀態、二級namenode、定期同步到，就是各種備份，自動同步唄。

讀寫流程：什么程序都有可能。流水線復制。更新源數據。

特點：數據冗余、硬件容錯。流式的數據訪問、無法修改，直接刪除后添加。存儲大文件。批量讀寫，吞吐量大，一次寫入，多次讀寫，交互性能差

命令行操作：類似shell 編程。

8 map reduce 分大任務到小任務、合并結果在一起。

100GB的網站訪問日志文件，找錯訪問次數最多的IP

交換很重要、

運行流程：

基本概念：job task one job to more task

jobtracker map任務和 reduce任務。

jobtracker 1 作業調度 2 分配任務、監控任務執行進度

監控tasktracker的狀態

執行任務、匯報任務狀態。

輸入數據分片、map任務、中間結果、reduce任務、輸出結果。

HDFS表中。

jobtracker 任務、執行過程。

容錯機制、重復執行、先重試4次，默認放棄，推測執行。map端完成后，tasktracker執行。

9 應用案例：

wordcount 經典記錄：

計算文件中出現每個單詞的頻數、

map過程分

reduce過程合

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

hadoop掃盲

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

hadoop掃盲

猜你喜歡

最新資訊

相關推薦

相關標簽