HDFS適合做什么

發布時間：2021-12-09 09:19:05 來源：億速云閱讀：193 作者：小新欄目：云計算

這篇文章將為大家詳細講解有關HDFS適合做什么，小編覺得挺實用的，因此分享給大家做個參考，希望大家閱讀完這篇文章后可以有所收獲。

HDFS適合做：

存儲大文件。上G、T甚至P。
一次寫入，多次讀取。并且每次作業都要讀取大部分的數據。
搭建在普通商業機群上就可以了。雖然會經常宕機，但HDFS有良好的容錯機制。

HDFS不適合做：

實時數據獲取。如果有這個需求可以用HBase。
很多小文件。因為namenode要存儲HDFS的metadata（比如目錄的樹狀結構，每個文件的文件名、ACL、長度、owner、文件內容存放的位置等等信息），所以HDFS上文件的數目受到namenode內存的限制。
并發環境下的寫入和修改。

Block

一個磁盤的block通常是512B，內核一次讀寫磁盤不能少于這個數目。在HDFS上一個Block的默認大小是64M，HDFS block的大小可以通過ds.block.size來設置，很多工作站上把一個block調為128M。之所以要把block設置得這么大，是因為HDFS上的文件普遍都是大文件，如果block很小，那一個文件就要存放在很多block上，而這些位置信息都要被namenode所記錄，一來浪費namenode的存儲空間，二來檢索一個文件的時候開銷也比較高。

當一個文件的長度小于一個block size時，它會單獨占用一個block，但它占用的磁盤空間仍然是其真實的長度。

Namenode和Datanode

namenode管理文件系統的namespace，而datanode負責存儲和檢索block。一般情況下一個block會存放在多個不同的datanode上，以提高容錯性。datanode在讀寫HDFS文件時，都需要通過namenode來獲知讀寫的具體位置。

你可以使用distcp命令在不同的datanode之間并行地復制大文件:

$ hadoop distcp hdfs://datanode1/foo hdfs://datanode2/bar

HDFS上的文件是使用URI來定位的，前綴都是hdfs://localhost:9000，你可以把這個前綴賦給屬性fs.default.name（屬性可以在配置文件中指定，也可以在代碼中指定），這樣你就不用每次都寫這個前綴了，比如以下2個命令是等價的：

$ hadoop fs -ls /

$ hadoop fs -ls hsfs://localhost:9000/

本地文件系統的前綴是file://

orisun@zcypc:~$ hadoop fs -ls file:///Found 22 items
drwxr-xr-x   - root root       4096 2012-08-02 19:17 /home
dr-xr-xr-x   - root root          0 2012-08-20 22:14 /proc
drwxr-xr-x   - root root       4096 2010-04-23 18:11 /mnt
drwx------   - root root       4096 2012-08-18 10:46 /root
drwxr-xr-x   - root root       4096 2012-08-18 10:40 /sbin
……

HDFS默認的文件備份數量是3，這個可以在dfs.replication屬性中設置，在偽分布式模式中由于datanode只有一個，所以要把該值設為1。當你使用hadoop fs -ls命令時會得到形如：

drwxr-xr-x 　　- 　　orisun 　　supergroup 0 　　2012-08-20 14:23　　 /tmp

-rw------- 　　　1 　　orisun 　　supergroup 　　4 　　2012-08-20 14:23 　　/tmp/jobtracker.info

跟UNIX下的ls命令很像，其中第2列就是replication的數目，第5列是文件的長度，以B為單位（文件夾的長度是0,而在UNIX文件系統中目錄的長度是512B的整倍數，因為目錄所占的空間是以塊為分配單位的，每塊為512B）。

FSDataInputStream繼承自Java的DataInputStream并支持隨機讀寫。

public class FSDataInputStream extends DataInputStream implements Seekable, PositionedReadable {}

public interface Seekable {
　　void seek(long pos) throws IOException;
　　long getPos() throws IOException;
　　boolean seekToNewSource(long targetPos) throws IOException;
}

FSDataInputStream還可以從指定的位置讀取文件的一部分。

public interface PositionedReadable {    public int read(long position, byte[] buffer, int offset, int length) throws IOException;    public void readFully(long position, byte[] buffer, int offset, int length) throws IOException;    public void readFully(long position, byte[] buffer) throws IOException;
}

如果你想在HDFS上新建一文件可以使用

public FSDataOutputStream create(Path f) throws IOException

使用create()函數時注意2點：文件必須之前不存在；它可附帶地創建任意多級的父目錄。

有時候你可能會需要用append()，在文件不存在時會創建它。

public FSDataOutputStream append(Path f) throws IOException

重命名文件

public void rename(String oldName,String newName)

當然你也可以用mkdir來創建目錄

public boolean mkdirs(Path f) throws IOException

由于create()可以附帶地創建任意多級的父目錄，所以mkdir你并不會常用。

FileSystem的getFileStatus()方法可以獲取文件和目錄的FileStatus。

Path file = new Path("/dir/file");
FileStatus stat = fs.getFileStatus(file);

然后你就可以訪問：

stat.getPath()
stat.getLen()
stat.isLen()
stat.getMogificationTime()
stat.getReplication()
stat.getBlockSize()
stat.getOwner()
stat.getReplication()
stat.getBlockSize()
stat.getGroup()
stat.getPermission()

實際上上述信息都存儲在namenode中。

你還可以獲取一個目錄下所有文件的FileStatus。

public FileStatus[] listStatus(Path f) throws IOExceptionpublic FileStatus[] listStatus(Path f, PathFilter filter) throws IOExceptionpublic FileStatus[] listStatus(Path[] files) throws IOExceptionpublic FileStatus[] listStatus(Path[] files, PathFilter filter) throws IOException

在指定文件時，hadoop同樣支持globbing，它支持的wildcard有：

*　　0個或多個任意字符

?　　任意單個字符

[ab]　　[^ab]　　[a-b]　　[^a-b]

{exp1,exp2}　　　　匹配exp1或exp2

\c　　轉義

fs.listStatus(new Path("/2007/*/*"), new RegexExcludeFilter("^.*/2007/12/31$"))

將匹配2007年的所有文件，但是2007-12-31的文件將被filter掉。

public boolean delete(Path f, boolean recursive) throws IOException

刪除目錄時可以選擇是否啟用遞歸模式。

上面已經提到大量的小文件會極大消耗namenode的內存，所以在這種情況下我們需要使用Hadoop Archives（HAR）把文件歸檔為一個大文件。

$ hadoop archive -archiveName orisun.har -p /user/orisun /user

把/user/orisun下的所有文件打包成orisun.tar放在/user目錄下。

你還可以查看一個har文件中包含哪些文件：

orisun@zcypc:~$ hadoop fs -lsr har:///user/orisun.hardrwxr-xr-x   - orisun supergroup          0 2012-08-20 16:49 /user/orisun.har/mse-rw-r--r--   1 orisun supergroup          0 2012-08-20 16:49 /user/orisun.har/mse/list-rw-r--r--   1 orisun supergroup          0 2012-08-20 16:49 /user/orisun.har/book
orisun@zcypc:~$ hadoop fs -ls har:///user/orisun.har/mseFound 1 items-rw-r--r--   1 orisun supergroup          0 2012-08-20 16:49 /user/orisun.har/mse/list

HAR也是一個文件系統，一個Har URI的完整模式是har://<scheme>-<host>/<path>

orisun@zcypc:~$ hadoop fs -lsr har://hdfs-localhost:9000/user/orisun.har/mse-rw-r--r--   1 orisun supergroup          0 2012-08-20 16:49 /user/orisun.har/mse/list

刪除har文件必須使用rmr命令，用rm是不行的。

$ hadoop fs -rmr /user/orisun.har

使用HAR的一些限制：

會產生原始文件的完整備份，占用磁盤空間。當然你可以以在建好har文件后把原文件刪掉。
HAR只是把多個文件打包成一個文件并沒有采用任何的壓縮策略。
HAR文件是不可變，如何你想增加或從har中刪除一個文件，你只能重新歸檔。
InputFormat不理會har的存在，這意味著har文件對于MapReduce來說仍然會產生多個InputSlit，不會提高效率。要解決“小文件很多導致map task很多”的問題，可以采用CombineFileInputFormat。

關于“HDFS適合做什么”這篇文章就分享到這里了，希望以上內容可以對大家有一定的幫助，使各位可以學到更多知識，如果覺得文章不錯，請把它分享出去讓更多的人看到。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

HDFS適合做什么

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

HDFS適合做什么

猜你喜歡

最新資訊

相關推薦

相關標簽