您好,登錄后才能下訂單哦!
今天就跟大家聊聊有關Java中怎么通過內存映射處理大文件,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結了以下內容,希望大家根據這篇文章可以有所收獲。
01、使用 MappedByteBuffer 讀取文件
假設現在有一個文件,名叫 cmower.txt,里面的內容是:
沉默王二,一個有趣的程序員
PS:哎,改不了王婆賣瓜自賣自夸這個臭毛病了,因為文章被盜得都怕了。
這個文件放在 /resource 目錄下,我們可以通過下面的方法獲取到它:
ClassLoader classLoader = Cmower.class.getClassLoader(); Path path = Paths.get(classLoader.getResource("cmower.txt").getPath());
Path 既可以表示一個目錄,也可以表示一個文件,就像 File 那樣——當然了,Path 是用來取代 File 的。
然后,從文件中獲取一個 channel(通道,對磁盤文件的一種抽象)。
FileChannel fileChannel = FileChannel.open(path);
緊接著,調用 FileChannel 類的 map 方法從 channel 中獲取 MappedByteBuffer,此類擴展了 ByteBuffer——提供了一些內存映射文件的基本操作方法。
MappedByteBuffer mappedByteBuffer = fileChannel.map(mode, position, size);
稍微解釋一下 map 方法的三個參數。
1)mode 為文件映射模式,分為三種:
MapMode.READ_ONLY(只讀),任何試圖修改緩沖區的操作將導致拋出 ReadOnlyBufferException 異常。
MapMode.READ_WRITE(讀/寫),任何對緩沖區的更改都會在某個時刻寫入文件中。需要注意的是,其他映射同一個文件的程序可能不能立即看到這些修改,多個程序同時進行文件映射的行為依賴于操作系統。
MapMode.PRIVATE(私有), 對緩沖區的更改不會被寫入到該文件,任何修改對這個緩沖區來說都是私有的。
2)position 為文件映射時的起始位置。
3)size 為要映射的區域的大小,必須是非負數,不得大于Integer.MAX_VALUE。
一旦把文件映射到內存緩沖區,我們就可以把里面的數據讀入到 CharBuffer 中并打印出來。具體的代碼示例如下。
CharBuffer charBuffer = null; ClassLoader classLoader = Cmower.class.getClassLoader(); Path path = Paths.get(classLoader.getResource("cmower.txt").getPath()); try (FileChannel fileChannel = FileChannel.open(path)) { MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_ONLY, 0, fileChannel.size()); if (mappedByteBuffer != null) { charBuffer = Charset.forName("UTF-8").decode(mappedByteBuffer); } System.out.println(charBuffer.toString()); } catch (IOException e) { e.printStackTrace(); }
由于 decode() 方法的參數是 MappedByteBuffer,這就意味著我們是從內存中而不是磁盤中讀入的文件內容,所以速度會非常快。
02、使用 MappedByteBuffer 寫入文件
假設現在要把下面的內容寫入到一個文件,名叫 cmower1.txt。
沉默王二,《Web全棧開發進階之路》作者
這個文件還沒有創建,計劃放在項目的 classpath 目錄下。
Path path = Paths.get("cmower1.txt");
具體位置見下圖所示。
然后,創建文件的通道。
FileChannel fileChannel = FileChannel.open(path, StandardOpenOption.READ, StandardOpenOption.WRITE, StandardOpenOption.TRUNCATE_EXISTING)
仍然使用的 open 方法,不過增加了 3 個參數,前 2 個很好理解,表示文件可讀(READ)、可寫(WRITE);第 3 個參數 TRUNCATE_EXISTING 的意思是如果文件已經存在,并且文件已經打開將要進行 WRITE 操作,則其長度被截斷為 0。
緊接著,仍然調用 FileChannel 類的 map 方法從 channel 中獲取 MappedByteBuffer。
MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_WRITE, 0, 1024);
這一次,我們把模式調整為 MapMode.READ_WRITE,并且指定文件大小為 1024,即 1KB 的大小。然后使用 MappedByteBuffer 中的 put() 方法將 CharBuffer 的內容保存到文件中。具體的代碼示例如下。
CharBuffer charBuffer = CharBuffer.wrap("沉默王二,《Web全棧開發進階之路》作者"); Path path = Paths.get("cmower1.txt"); try (FileChannel fileChannel = FileChannel.open(path, StandardOpenOption.READ, StandardOpenOption.WRITE, StandardOpenOption.TRUNCATE_EXISTING)) { MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_WRITE, 0, 1024); if (mappedByteBuffer != null) { mappedByteBuffer.put(Charset.forName("UTF-8").encode(charBuffer)); } } catch (IOException e) { e.printStackTrace(); }
可以打開 cmower1.txt 查看一下內容,確認預期的內容有沒有寫入成功。
03、MappedByteBuffer 的遺憾
據說,在 Java 中使用 MappedByteBuffer 是一件非常麻煩并且痛苦的事,主要表現有:
1)一次 map 的大小最好限制在 1.5G 左右,重復 map 會增加虛擬內存回收和重新分配的壓力。也就是說,如果文件大小不確定的話,就不太友好。
2)虛擬內存由操作系統來決定什么時候刷新到磁盤,這個時間不太容易被程序控制。
3)MappedByteBuffer 的回收方式比較詭異。
再次強調,這三種說法都是據說,我暫時能力有限,也不能確定這種說法的準確性,很遺憾。
04、比較文件操作的處理時間
嗨,朋友,閱讀完以上的內容之后,我想你一定對內存映射文件有了大致的了解。但我相信,如果你是一名負責任的程序員,你一定還想知道:內存映射文件的讀取速度究竟有多快。
為了得出結論,我叫了另外三名競賽的選手:InputStream(普通輸入流)、BufferedInputStream(帶緩沖的輸入流)、RandomAccessFile(隨機訪問文件)。
讀取的對象是加勒比海盜4驚濤怪浪.mkv,大小為 1.71G。
1)普通輸入流
public static void inputStream(Path filename) { try (InputStream is = Files.newInputStream(filename)) { int c; while((c = is.read()) != -1) { } } catch (IOException e) { e.printStackTrace(); } }
2)帶緩沖的輸入流
public static void bufferedInputStream(Path filename) { try (InputStream is = new BufferedInputStream(Files.newInputStream(filename))) { int c; while((c = is.read()) != -1) { } } catch (IOException e) { e.printStackTrace(); } }
3)隨機訪問文件
public static void randomAccessFile(Path filename) { try (RandomAccessFile randomAccessFile = new RandomAccessFile(filename.toFile(), "r")) { for (long i = 0; i < randomAccessFile.length(); i++) { randomAccessFile.seek(i); } } catch (IOException e) { e.printStackTrace(); } }
4)內存映射文件
public static void mappedFile(Path filename) { try (FileChannel fileChannel = FileChannel.open(filename)) { long size = fileChannel.size(); MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_ONLY, 0, size); for (int i = 0; i < size; i++) { mappedByteBuffer.get(i); } } catch (IOException e) { e.printStackTrace(); } }
測試程序也很簡單,大致如下:
long start = System.currentTimeMillis(); bufferedInputStream(Paths.get("jialebi.mkv")); long end = System.currentTimeMillis(); System.out.println(end-start);
四名選手的結果如下表所示。
方法 | 時間 |
---|---|
普通輸入流 | 龜速,沒有耐心等出結果 |
隨機訪問文件 | 龜速,沒有耐心等下去 |
帶緩沖的輸入流 | 29966 |
內存映射文件 | 914 |
普通輸入流和隨機訪問文件都慢得要命,真的是龜速,我沒有耐心等待出結果;帶緩沖的輸入流的表現還不錯,但相比內存映射文件就遜色多了。由此得出的結論就是:內存映射文件,上G大文件輕松處理。
看完上述內容,你們對Java中怎么通過內存映射處理大文件有進一步的了解嗎?如果還想了解更多知識或者相關內容,請關注億速云行業資訊頻道,感謝大家的支持。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。