您好,登錄后才能下訂單哦!
這篇文章給大家分享的是有關HDFS讀流程的示例分析的內容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。
1.客戶端或者用戶通過調用FileSystem對象的Open()方法打開需要讀取的文件,這時就是HDSF分布式系統所獲取的一個對象
2.FileSystem通過遠程協議調用NameNode確定文件的前幾個Block的位置,對于每一個block,NameNode返回一個含有Block的元數據信息,接下來DataNode按照上面定義的距離(offSet偏移量)進行排序,如果Client本身即是一個DataNode,那么就會優先從本地DataNode節點讀取數據. HDFS完成上面的工作之后返回一個FSDatalnputStream給客戶端,讓其從FSDatalnputStream中讀取。FSDatalnputStream包裝了一個類DFSInputStream,用來管理DataNode和NameNode的I/O操作。
3.NameNode向客戶端返回一個包含了數據信息的地址,客戶端根據地址創建一個FSDDatalnputStream的對象開始進行數據的讀取
4.FSDatalnputStream根據開始存的前幾個Block的DataNode地址,連接到最近DataNode上對數據開始從頭讀取,客戶端會反復調用read()方法,以流的形式讀取DataNode這中的數據
5.當讀取到Block的結尾的時候,FSDatalnputStream會關閉當前DataNode的連接然后查找能否讀取下一個Block的DataNode位置信息,此時給客戶端產生的感覺就是數據是連續讀取的,也就說在讀取的時候開始查找下一個塊所在的地址。讀取完成時需要使用close()方法關閉FSDatalnputStream
HDFS寫流程:
1.Client通過調用FileSystem類的Create()方法請求創建文件
2.FileSystem通過對NameNode發出遠程請求,在NameNode里面創建一個新的文件,但是此時并不關聯任何塊,NameNode進行很多檢查來保證不存在要創建文件已經在系統中,同時檢查是否有相當權限來創建文件,如果這些都檢查完了,那么NamdNode會記錄下這個新文件的信息。FileSystem返回一個FSDatalnputStream給客戶端用來寫入數據,FSDatalnputStream將包裝一個DFsOutputStream用于對DataNode和NameNode的通信,一旦文件創建失敗,會給客戶端返回一個l0Exception表示文件創建失敗并停止任務
3.客戶端開始寫數據FSDatalnputStream把要寫的數據分成包的形式將其寫入到中間隊列中,其中的數據有DataStramer來讀取,DataStreamer的職責就是讓NameNode分配一個新的塊通過查找對應DataNode來存數據,來存儲的數據會被備份出一個副本,存儲到其他節點完成數據寫入即可
4.FSDatalnputStream維護了一個內部關于packets的隊列,里面存放著等待被DataNode確認的信息,一旦數據信息寫入DataNode成功后,就會從隊列中移除
5.當數據完成寫入之后客戶會調用close方法,通過NameNode完成寫入之前通過一個方法flush將殘留數據一起寫進去。和NameNode確定寫入的位置信息,并返回成功狀態。
感謝各位的閱讀!關于“HDFS讀流程的示例分析”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,讓大家可以學到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。