您好,登錄后才能下訂單哦!
這篇文章主要講解了“2021最新版的大數據面試題有哪些”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“2021最新版的大數據面試題有哪些”吧!
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
答案 C datanode
a)3 份
b)2 份
c)1 份
d)不確定
答案 A 默認 3 份
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker
答案 D
a)32MB
b)64MB
c)128MB
答案:B
a)CPU
b)網絡
c)磁盤 IO
d)內存
答案:C 磁盤
a)它是 NameNode 的熱備
b)它對內存沒有要求
c)它的目的是幫助 NameNode 合并編輯日志,減少 NameNode 啟動時間
d)SecondaryNameNode 應與 NameNode 部署到一個節點
答案 C。
a)Puppet
b)Pdsh
c)Cloudera Manager
d)Zookeeper
答案 ABD
a)數據經過 NameNode 傳遞給 DataNode
b)Client 端將文件切分為 Block,依次上傳
c)Client 只上傳數據到一臺 DataNode,然后由 NameNode 負責 Block 復制工作
答案 B 分析:Client 向 NameNode 發起文件寫入的請求。NameNode 根據文件大小和文件塊配置情況,返回給 Client 它所管理部分 DataNode 的信息。Client 將文件劃分為多個 Block,根據 DataNode 的地址信息,按順序寫入到每一個 DataNode 塊中。具體查看 HDFS 體系結構簡介及優缺點。
a)單機版
b)偽分布式
c)分布式
答案 ABC 單機版,偽分布式只是學習用的。
Hadoop 的核心配置通過兩個 xml 文件來完成:1,hadoop-default.xml;2,hadoop-site.xml。這些文件都使用 xml 格式,因此每個 xml 中都有一些屬性,包括名稱和值,但是當下這些文件都已不復存在。
Hadoop 現在擁有 3 個配置文件:1,core-site.xml;2,hdfs-site.xml;3,mapred-site.xml。這些文件都保存在 conf/子目錄下。
這個命令可以檢查 Namenode、Datanode、Task Tracker、 Job Tracker 是否正常工作。
流程:
1、 client 鏈接 namenode 存數據
2、 namenode 記錄一條數據位置信息(元數據),告訴 client 存哪。
3、 client 用 hdfs 的 api 將數據塊(默認是 64M)存儲到 datanode 上。
4、 datanode 將數據水平備份。并且備份完將反饋 client。
5、 client 通知 namenode 存儲塊完畢。
6、 namenode 將元數據同步到內存中。
7、 另一塊循環上面的過程。
流程:
1、 client 鏈接 namenode,查看元數據,找到數據的存儲位置。
2、 client 通過 hdfs 的 api 并發讀取數據。
3、 關閉連接。
wordcount 的例子
現在有 10 個文件夾,每個文件夾都有 1000000 個 url.現在讓你找出 top1000000url。
解答:topk
(還可以用 treeMap, 到 1000000 了每來一個都加進去, 刪掉最小的)
combiner 是 reduce 的實現,在 map 端運行計算任務,減少 map 端的輸出數據。
作用就是優化。
但是 combiner 的使用場景是 mapreduce 的 map 和 reduce 輸入輸出一樣。
內部表:加載數據到 hive 所在的 hdfs 目錄,刪除時,元數據和數據文件都刪除
外部表:不加載數據到 hive 所在的 hdfs 目錄,刪除時,只刪除表結構
hbase 存儲時,數據按照 Row key 的字典序(byte order)排序存儲。設計 key 時,要充分排序
存儲這個特性,將經常一起讀取的行存儲放到一起。(位置相關性)一個列族在數據底層是一個文件,所以將經常一起查詢的列放到一個列族中,列族盡量少, 減少文件的尋址時間。
可以。設置 reduce 數為 0 即可
datanode 在強制關閉或者非正常斷電不會備份
出現在 map 階段的 map 方法后。
hdfs 有 namenode、secondraynamenode、datanode 組成。
為 n+1 模式
namenode 負責管理 datanode 和記錄元數據
secondraynamenode 負責合并日志
datanode 負責存儲數據
這個 datanode 的數據會在其他的 datanode 上重新做備份。
在 mapreduce 提交 job 的獲取 id 之后,會將所有文件存儲到分布式緩存上,這樣文件可以被所有的 mapreduce 共享。
通過頁面監控,腳本監控。
1、因為外部表不會加載數據到 hive,減少數據傳輸、數據還能共享。
2、hive 不會修改數據,所以無需擔心數據的損壞
3、 刪除表時,只刪除表結構、不刪除數據。
感謝各位的閱讀,以上就是“2021最新版的大數據面試題有哪些”的內容了,經過本文的學習后,相信大家對2021最新版的大數據面試題有哪些這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。