91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何理解Linux下的磁盤緩存機制與SSD的寫入放大問題

發布時間:2021-09-26 17:06:29 來源:億速云 閱讀:171 作者:iii 欄目:系統運維

本篇內容介紹了“如何理解Linux下的磁盤緩存機制與SSD的寫入放大問題”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!

前段時間在開發一個使用SSD做緩存的系統,在高速寫入數據時會出現大量的磁盤緩存。太多的磁盤緩存如果沒有及時的寫入磁盤中,在機器出現問題時是非常危險的,這樣會導致很多的數據丟失,但是如果實時的將數據刷入磁盤中,這樣寫入效率有太低了。為了弄明白Linux系統的這種磁盤寫入特性,最近深入的學習了一下。
    VFS(Virtual File System)的存在使得Linux可以兼容不同的文件系統,例如ext3、ext4、xfs、ntfs等等,其不僅具有為所有的文件系統實現一個通用的外接口的作用,還具有另一個與系統性能相關的重要作用——緩存。VFS中引入了高速磁盤緩存的機制,這屬于一種軟件機制,允許內核將原本存在磁盤上的某些信息保存在RAM中,以便對這些數據的進一步訪問能快速進行,而不必慢速訪問磁盤本身。高速磁盤緩存可大致分為以下三種:
目錄項高速緩存——主要存放的是描述文件系統路徑名的目錄項對象
索引節點高速緩存——主要存放的是描述磁盤索引節點的索引節點對象
頁高速緩存——主要存放的是完整的數據頁對象,每個頁所包含的數據一定屬于某個文件,同時,所有的文件讀寫操作都依賴于頁高速緩存。其是Linux內核所使用的主要磁盤高速緩存。
正是由于緩存的引入,所以VFS文件系統采用了文件數據延遲寫的技術,因此,如果在調用系統接口寫入數據時沒有使用同步寫模式,那么大多數據將會先保存在緩存中,待等到滿足某些條件時才將數據刷入磁盤里。

內核是如何將數據刷入磁盤的呢?在看完以下兩點后就能得到答案。

1. 把臟頁寫入磁盤
    正如我們所了解的,內核不斷用包含塊設備數據的頁填充頁高速緩存。只要進程修改了數據,相應的頁就被標記為臟頁,即把它的PG_dirty標志位置。
    Unix系統允許把臟緩沖區寫入塊設備的操作延遲執行,因為這種策略可以顯著地提高系統的性能。對高速緩存中的頁的幾次寫操作可能只需對相應的磁盤塊進行一次緩慢的物理更新就可以滿足。此外,寫操作沒有讀操作那么緊迫,因為進程通常是不會因為延遲寫而掛起,而大部分情況都因為延遲讀而掛起。正是由于延遲寫,使得任一物理塊設備平均為讀請求提供服務將多于寫請求。
一個臟頁可能直到最后一刻(即直到系統關閉時)都一直逗留在主存中。然而,從延遲寫策略的局限性來看,它有兩個主要的缺點:
  一、如果發生了硬件錯誤或者電源掉電的情況,那么就無法再獲得RAM的內容,因此,從系統啟動以來對文件進行的很多修改就丟失了。
  二、頁高速緩存的大小(由此存放它所需的RAM的大小)就可要很大——至少要與所訪問塊設備的大小不同。
因此,在下列條件下把臟頁刷新(寫入)到磁盤:
頁高速緩存變得太滿,但還需要更多的頁,或者臟頁的數量已經太多。
自從頁變成臟頁以來已過去太長時間。
進程請求對塊設備或者特定文件任何待定的變化都進行刷新。通過調用sync()、fsync()或者fdatasync()系統調用來實現。
緩沖區頁的引入是問題更加復雜。與每個緩沖區頁相關的緩沖區首部使內核能夠了解每個獨立塊緩沖區的狀態。如果至少有一個緩沖區首部的PG_Dirty標志被置位,就應該設置相應緩沖區頁的PG_dirty標志。當內核選擇要刷新的緩沖區時,它掃描相應的緩沖區首部,并只把臟塊的內容有效的寫到磁盤。一旦內核把緩沖區的所有臟頁刷新到磁盤,就把頁的PG_dirty標志清0。

2. pdflush內核線程
    早期版本的Linux使用bdfllush內核線程系統地掃描頁高速緩存以搜索要刷新的臟頁,并且使用另一個內核線程kupdate來保證所有的頁不會“臟”太長時間。Linux 2.6用一組通用內核線程pdflush替代上述兩個線程。
這些內核線程結構靈活,它們作用于兩個參數:一個指向線程要執行的函數的指針和一個函數要用的參數。系統中pdflush內核線程的數量是要動態調整的:pdflush線程太少時就創建,太多時就殺死。因為這些內核線程所執行的函數可以阻塞,所以創建多個而不是一個pdflush內核線程可以改善系統性能。
根據下面的原則控制pdflush線程的產生和消亡:
必須有至少兩個,最多八個pdflush內核線程
如果到最近的1s期間沒有空閑pdflush,就應該創建新的pdflush線程
如果最近一次pdflush變為空閑的時間超過了1s,就應該刪除一個pdflush線程
所有的pdflush內核線程都有pdflush_work描述符,其數據結構如下:

如何理解Linux下的磁盤緩存機制與SSD的寫入放大問題

當系統沒有要刷新的臟頁時,pdflush線程會自動處于睡眠狀態,最后由pdflush_operation()函數來喚醒。那么在這個過程中pdflush內核線程主要完成了哪些工作呢?其中一些工作與臟數據的刷新有關。尤其是pdflush通常執行下面的回調函數之一:
    1. background_writeout(): 系統地掃描頁高速緩存以搜索要刷新的臟頁。
為了得到需要刷新的臟頁,就要徹底的搜索與在磁盤上有映像的索引節點相應的所有address_space對象(是一棵搜索樹)。由于頁高速緩存可能有大量的頁,如果用一個單獨的執行流來掃描整個高速緩存,會令CPU和磁盤長時間繁忙,因此,Linux使用一種復雜的機制把對頁高速緩存的掃描劃分為幾個執行流。當內存不足或者用戶顯式的(用戶態進程發出sync()系統調用等)調用請求刷新操作時會執行wakeup_bdflush()函數。wakeup_bdflush()函數會調用pdflush_operation()喚醒pdflush內核線程,并委托它執行回調函數background_writeout()。background_writeout()函數有效的從頁高速緩存中獲得指定數量的臟頁,并把它寫回磁盤。此外,執行background_writeout()函數的pdflush內核線程只有在滿足以下兩個條件下才能被喚醒:一是對頁高速緩存中的頁內容進行了修改,二是引起臟頁部分增加到超過某個臟背景閾值。背景閾值通常設置為系統中所有頁的10%,不過可以通過修改文件/proc/sys/vm/dirty_background_ratio來調整該值。
    2. wb_kupdate():檢查頁高速緩存中是否有“臟”了很久時間的頁,避免當一些頁很久沒有被刷新時發生饑餓危險。
 內核在初始化期間會建立wb_timer動態定時器,其的定時間距為dirty_writeback_centisecs文件中所規定的幾百分之一秒(通常是500分之一秒,不過可以通過修改/proc/sys/vm/dirty_writeback_centisecs文件調整該值)。定時器函數會調用pdflush_operation()函數,然后將wb_kupdate()函數的地址傳入。wb_kupdate()函數遍歷頁高速緩存搜索陳舊的臟索引節點,把已保持臟狀態時間超過30秒的頁都寫到磁盤,之后重置定時器。

PS:關于SSD的寫入放大問題


    現在固態硬盤正在越來越多地被作為服務器磁盤使用。之前在SSD(Solid State Drive)上設計并實現緩存系統用于存儲數據塊時遇到了一些問題,比如在磁盤寫滿后,如果老化掉一些最久未使用的數據塊后,繼續大量寫入新的數據,隨著時間的推移,寫入速度變得比剛開始時慢了許多。為了弄清楚為什么會出現這樣的情況,于是在網上搜索了一些關于SSD的資料,原來這種情況是由于SSD硬件設計本身決定的,最終映射到應用程序上該中現象稱為寫入放大現象(WA: Write amplification),WA是閃存及SSD相關的一個極為重要的屬性,這個術語在2008年被Intel公司和SiliconSystems公司(于2009 年被西部數據收購)第一次提出并在公開稿件里使用。下面簡單講解一下為什么會出現這種情況以及是怎樣一個過程。
    SSD的設計完全不同于傳統的機械磁盤,其是一個完整的電子設備,沒有傳統機械盤的讀寫磁頭。因此,在讀寫數據的時候由于少了磁頭在磁道之間的尋道過程所以SSD能提供較高的IOPS性能。也正因為其少了磁頭的調度,所以SSD還能減少電量的使用,在數據中心中使用對企業來說是非常有益的。
    SSD與傳統磁盤相比其有了很大的性能優勢,以及較多的優點,但是事物總是有兩面性的,其也自身也存在一些問題,寫入在SSD中的數據是不可以直接更新的,只能通過扇區覆蓋重寫,在覆蓋重寫之前需要先擦除,而且擦除操作又是不能在扇區上做的,只能在磁盤的塊上來完成,擦除塊之前需要將原有的還有效的數據先讀出,然后在與新來的數據一起寫入,這些重復的操作不單會增加寫入的數據量 ,還會減少閃存的壽命,更吃光閃存的可用帶寬而間接影響隨機寫入性能。
如何理解Linux下的磁盤緩存機制與SSD的寫入放大問題

寫入放大的解決辦法
    在實際操作中我們很難完全解決掉SSD寫入放大的問題,只能通過某些方法來更有效的減少放大的倍數。一個很簡單的辦法就是將一塊大的SSD硬盤只使用其的一部分容量,比如128GB你只是用64GB,那么最壞的情況就是寫入放大能減少約3倍。當然這種方法有點過于浪費資源了。另外還可以在寫數據時采用順序寫入,當SSD被順序寫入時,其寫入放大一般為1,但某些因素會影響到該值。
    除了上面的方法外,現階段公認的比較好的方法是TRIM。TRIM位于操作系統層。操作系統使用TRIM命令來通知SSD某個page的數據不需要了,則可以回收。 支持TRIM的操作系統和以往的主要區別是刪除一個Page的操作不同。在磁盤時期,刪除一個page之后在文件系統的記錄信息里將該page的標志位設置為可用,但是并沒有將數據刪除。使用SSD且支持TRIM的操作系統,在刪除一個page時,會同時通知SSD這個page的數據不需要了,SSD內部有一個空閑時刻的垃圾收集進程,在空閑時刻SSD會將一些空閑的數據集中到一起,然后一起Erase。這樣每次寫操作,就在已經Erase好了的Page上寫入新的數據。

    雖然其存在寫入放大的問題,但是這并沒有讓我們拒絕使用它。用其來做緩存加速已在很多項目中得到使用,尤其是在數據庫緩存項目中,在這些項目中SSD高效的讀性能得到了充分的利用。隨著Facebook的開源項目Flash Cache的發布,以及Facebook內部的大量使用,Flash Cache已經成為了一個比較成熟的技術方案,這使得更多的公司選擇了SSD來做存儲或者緩存。

“如何理解Linux下的磁盤緩存機制與SSD的寫入放大問題”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

富平县| 乾安县| 绥宁县| 临高县| 通州市| 海晏县| 宜兰市| 资阳市| 肥西县| 岳普湖县| 陆川县| 龙井市| 朔州市| 腾冲县| 柳林县| 和田市| 安义县| 治县。| 津市市| 福州市| 胶州市| 兴山县| 甘孜县| 江门市| 卢氏县| 潮安县| 福清市| 时尚| 易门县| 惠东县| 武义县| 保定市| 玉门市| 韶山市| 呼玛县| 普兰县| 新干县| 高尔夫| 顺昌县| 安平县| 临海市|