您好,登錄后才能下訂單哦!
1 hadoop 大數據平臺架構和實踐
掌握大數據存儲與處理技術的原理
掌握hadoop開發
2 課程預報知識
linux 常用命令
java編程基礎
3 hadoop前世今生
大數據到來 PB 級別的數據。
mapreduce、GFS
并行,節點同步,開發了技術論文,沒開放源代碼。
hadoop ***小象。
4 hadoop 的功能和優勢
開源 分布式存取 + 分布式計算平臺。
HDFS:分布式文件系統,
任務調度。
高擴展、低成本、成熟的生態圈。
hadoop 人才需求,開發人才、運維
5 生態系統版本
HDFS MAPreduce hive
sql -> hive -> hadoop
hbase 非關系型數據庫
zookeeper 動物管理員
版本選擇,2.6版本 1.2 版本 穩定版
6 hadoop的安裝
1 linux 環境
2 安裝jdk
3 配置hadoop 4 個配置文件
可以租用云主機。阿里云不錯的選擇哦。
7 hadoop的核心文件
HDFS 體系結構
讀取元數據 dateNode 是 工作節點
數據管理策略:三份存、64M數據庫,心跳檢測、定期匯報狀態、二級namenode、定期同步到,就是各種備份,自動同步唄。
讀寫流程:什么程序都有可能。流水線復制。更新源數據。
特點:數據冗余、硬件容錯。流式的數據訪問、無法修改,直接刪除后添加。存儲大文件。批量讀寫,吞吐量大,一次寫入,多次讀寫,交互性能差
命令行操作:類似shell 編程。
8 map reduce 分大任務到小任務、合并結果在一起。
100GB的網站訪問日志文件,找錯訪問次數最多的IP
交換很重要、
運行流程:
基本概念:job task one job to more task
jobtracker map任務 和 reduce任務。
jobtracker 1 作業調度 2 分配任務、監控任務執行進度
監控tasktracker的狀態
執行任務、匯報任務狀態。
輸入數據分片、map任務、中間結果、reduce任務、輸出結果。
HDFS表中。
jobtracker 任務、執行過程。
容錯機制、重復執行、先重試4次,默認放棄,推測執行。map端完成后,tasktracker執行。
9 應用案例:
wordcount 經典記錄:
計算文件中出現每個單詞的頻數、
map過程 分
reduce過程 合
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。