您好,登錄后才能下訂單哦!
作者 | 至天?阿里巴巴高級研發工程師
首先來看一下 Pod Volumes 的使用場景:
以上兩個場景,其實都可以借助 Volumes 來很好地解決,接下來首先看一下 Pod Volumes 的常見類型:
?
cdn.com/626e004b4affc7da801ab22d2a79de1db3808837.png">
接下來看一下 PV(Persistent Volumes)。既然已經有了 Pod Volumes,為什么又要引入 PV 呢?我們知道 pod 中聲明的 volume 生命周期與 pod 是相同的,以下有幾種常見的場景:
以上場景中,通過 Pod Volumes 很難準確地表達它的復用/共享語義,對它的擴展也比較困難。因此 K8s 中又引入了?Persistent Volumes 概念,它可以將存儲和計算分離,通過不同的組件來管理存儲資源和計算資源,然后解耦 pod 和 Volume 之間生命周期的關聯。這樣,當把 pod 刪除之后,它使用的 PV 仍然存在,還可以被新建的 pod 復用。
了解 PV 后,應該如何使用它呢?
用戶在使用 PV 時其實是通過 PVC,為什么有了 PV 又設計了 PVC 呢?主要原因是為了簡化 K8s 用戶對存儲的使用方式,做到職責分離。通常用戶在使用存儲的時候,只用聲明所需的存儲大小以及訪問模式。
訪問模式是什么?其實就是:我要使用的存儲是可以被多個 node 共享還是只能單 node 獨占訪問(注意是 node level 而不是 pod level)?只讀還是讀寫訪問?用戶只用關心這些東西,與存儲相關的實現細節是不需要關心的。
通過 PVC 和 PV 的概念,將用戶需求和實現細節解耦開,用戶只用通過 PVC 聲明自己的存儲需求。PV是有集群管理員和存儲相關團隊來統一運維和管控,這樣的話,就簡化了用戶使用存儲的方式。可以看到,PV 和 PVC 的設計其實有點像面向對象的接口與實現的關系。用戶在使用功能時,只需關心用戶接口,不需關心它內部復雜的實現細節。
既然 PV 是由集群管理員統一管控的,接下來就看一下 PV 這個對象是怎么產生的。
第一種產生方式:靜態產生方式 - 靜態 Provisioning。
靜態 Provisioning:由集群管理員事先去規劃這個集群中的用戶會怎樣使用存儲,它會先預分配一些存儲,也就是預先創建一些 PV;然后用戶在提交自己的存儲需求(也就是 PVC)的時候,K8s 內部相關組件會幫助它把 PVC 和 PV 做綁定;之后用戶再通過 pod 去使用存儲的時候,就可以通過 PVC 找到相應的 PV,它就可以使用了。
靜態產生方式有什么不足呢?可以看到,首先需要集群管理員預分配,預分配其實是很難預測用戶真實需求的。舉一個最簡單的例子:如果用戶需要的是 20G,然而集群管理員在分配的時候可能有 80G 、100G 的,但沒有 20G 的,這樣就很難滿足用戶的真實需求,也會造成資源浪費。有沒有更好的方式呢?
第二種訪問方式:動態 Dynamic Provisioning。
動態供給是什么意思呢?就是說現在集群管理員不預分配 PV,他寫了一個模板文件,這個模板文件是用來表示創建某一類型存儲(塊存儲,文件存儲等)所需的一些參數,這些參數是用戶不關心的,給存儲本身實現有關的參數。用戶只需要提交自身的存儲需求,也就是 PVC 文件,并在 PVC 中指定使用的存儲模板(StorageClass)。
K8s 集群中的管控組件,會結合 PVC 和 StorageClass 的信息動態,生成用戶所需要的存儲(PV),將 PVC 和 PV 進行綁定后,pod 就可以使用 PV 了。通過 StorageClass 配置生成存儲所需要的存儲模板,再結合用戶的需求動態創建 PV 對象,做到按需分配,在沒有增加用戶使用難度的同時也解放了集群管理員的運維工作。
接下來看一下 Pod Volumes、PV、PVC 及 StorageClass 具體是如何使用的。
首先來看一下 Pod Volumes 的使用。如上圖左側所示,我們可以在 pod yaml 文件中的 Volumes 字段中,聲明我們卷的名字以及卷的類型。聲明的兩個卷,一個是用的是 emptyDir,另外一個用的是 hostPath,這兩種都是本地卷。在容器中應該怎么去使用這個卷呢?它其實可以通過 volumeMounts 這個字段,volumeMounts 字段里面指定的 name 其實就是它使用的哪個卷,mountPath 就是容器中的掛載路徑。
這里還有個 subPath,subPath 是什么?
先看一下,這兩個容器都指定使用了同一個卷,就是這個 cache-volume。那么,在多個容器共享同一個卷的時候,為了隔離數據,我們可以通過 subPath 來完成這個操作。它會在卷里面建立兩個子目錄,然后容器 1 往 cache 下面寫的數據其實都寫在子目錄 cache1 了,容器 2 往 cache 寫的目錄,其數據最終會落在這個卷里子目錄下面的 cache2 下。
還有一個 readOnly 字段,readOnly 的意思其實就是只讀掛載,這個掛載你往掛載點下面實際上是沒有辦法去寫數據的。
另外 emptyDir、hostPath 都是本地存儲,它們之間有什么細微的差別呢?emptyDir 其實是在 pod 創建的過程中會臨時創建的一個目錄,這個目錄隨著 pod 刪除也會被刪除,里面的數據會被清空掉;hostPath 顧名思義,其實就是宿主機上的一個路徑,在 pod 刪除之后,這個目錄還是存在的,它的數據也不會被丟失。這就是它們兩者之間一個細微的差別。
接下來再看一下,PV 和 PVC 是怎么使用的。
先看一個靜態 PV 創建方式。靜態 PV 的話,首先是由管理員來創建的,管理員我們這里以 NAS,就是阿里云文件存儲為例。我需要先在阿里云的文件存儲控制臺上去創建 NAS 存儲,然后把 NAS 存儲的相關信息要填到 PV 對象中,這個 PV 對象預創建出來后,用戶可以通過 PVC 來聲明自己的存儲需求,然后再去創建 pod。創建 pod 還是通過我們剛才講解的字段把存儲掛載到某一個容器中的某一個掛載點下面。
那么接下來看一下 yaml 怎么寫。集群管理員首先是在云存儲廠商那邊先去把存儲創建出來,然后把相應的信息填寫到 PV 對象中。
剛剛創建的阿里云 NAS 文件存儲對應的 PV,有個比較重要的字段:capacity,即創建的這個存儲的大小,accessModes,創建出來的這個存儲它的訪問方式,我們后面會講解總共有幾種訪問方式。
然后有個 ReclaimPolicy,ReclaimPolicy 的意思就是:這塊存儲在被使用后,等它的使用方 pod 以及 PVC 被刪除之后,這個 PV 是應該被刪掉還是被保留呢?其實就是 PV 的回收策略。
接下來看看用戶怎么去使用該 PV 對象。用戶在使用存儲的時候,需要先創建一個 PVC 對象。PVC 對象里面,只需要指定存儲需求,不用關心存儲本身的具體實現細節。存儲需求包括哪些呢?首先是需要的大小,也就是 resources.requests.storage;然后是它的訪問方式,即需要這個存儲的訪問方式,這里聲明為 ReadWriteMany,也即支持多 node 讀寫訪問,這也是文件存儲的典型特性。
上圖中左側,可以看到這個聲明:它的 size 和它的access mode,跟我們剛才靜態創建這塊 PV 其實是匹配的。這樣的話,當用戶在提交 PVC 的時候,K8s 集群相關的組件就會把 PV 的 PVC bound 到一起。之后,用戶在提交 pod yaml 的時候,可以在卷里面寫上 PVC 聲明,在 PVC 聲明里面可以通過 claimName 來聲明要用哪個 PVC。這時,掛載方式其實跟前面講的一樣,當提交完 yaml 的時候,它可以通過 PVC 找到 bound 著的那個 PV,然后就可以用那塊存儲了。這是靜態 Provisioning 到被 pod 使用的一個過程。
然后再看一下動態 Provisioning。動態 Provisioning 上面提到過,系統管理員不再預分配 PV,而只是創建一個模板文件。
這個模板文件叫 StorageClass,在 StorageClass 里面,我們需要填的重要信息:第一個是 provisioner,provisioner 是什么?它其實就是說我當時創建 PV 和對應的存儲的時候,應該用哪個存儲插件來去創建。
這些參數是通過 K8s 創建存儲的時候,需要指定的一些細節參數。對于這些參數,用戶是不需要關心的,像這里 regionld、zoneld、fsType 和它的類型。ReclaimPolicy 跟我們剛才講解的 PV 里的意思是一樣的,就是說動態創建出來的這塊 PV,當使用方使用結束、Pod 及 PVC 被刪除后,這塊 PV 應該怎么處理,我們這個地方寫的是 delete,意思就是說當使用方 pod 和 PVC 被刪除之后,這個 PV 也會被刪除掉。
接下來看一下,集群管理員提交完 StorageClass,也就是提交創建 PV 的模板之后,用戶怎么用,首先還是需要寫一個 PVC 的文件。
PVC 的文件里存儲的大小、訪問模式是不變的。現在需要新加一個字段,叫 StorageClassName,它的意思是指定動態創建 PV 的模板文件的名字,這里 StorageClassName 填的就是上面聲明的 csi-disk。
在提交完 PVC之后,K8s 集群中的相關組件就會根據 PVC 以及對應的 StorageClass 動態生成這塊 PV 給這個 PVC 做一個綁定,之后用戶在提交自己的 yaml 時,用法和接下來的流程和前面的靜態使用方式是一樣的,通過 PVC 找到我們動態創建的 PV,然后把它掛載到相應的容器中就可以使用了。
接下來,我們講解一下 PV 的一些重要字段:
用戶在提交 PVC 的時候,最重要的兩個字段 —— Capacity 和 AccessModes。在提交 PVC后,K8s 集群中的相關組件是如何去找到合適的 PV 呢?首先它是通過為 PV 建立的 AccessModes 索引找到所有能夠滿足用戶的 PVC 里面的 AccessModes 要求的 PV list,然后根據 PVC 的 Capacity,StorageClassName, Label Selector 進一步篩選 PV,如果滿足條件的 PV 有多個,選擇 PV 的 size 最小的,accessmodes 列表最短的 PV,也即最小適合原則。
接下來我們看一下 PV 的狀態流轉。首先在創建 PV 對象后,它會處在短暫的pending 狀態;等真正的 PV 創建好之后,它就處在 available 狀態。
available 狀態意思就是可以使用的狀態,用戶在提交 PVC 之后,被 K8s 相關組件做完 bound(即:找到相應的 PV),這個時候 PV 和 PVC 就結合到一起了,此時兩者都處在 bound 狀態。當用戶在使用完 PVC,將其刪除后,這個 PV 就處在 released 狀態,之后它應該被刪除還是被保留呢?這個就會依賴我們剛才說的 ReclaimPolicy。
這里有一個點需要特別說明一下:當 PV 已經處在 released 狀態下,它是沒有辦法直接回到 available 狀態,也就是說接下來無法被一個新的 PVC 去做綁定。如果我們想把已經 released 的 PV 復用,我們這個時候通常應該怎么去做呢?
第一種方式:我們可以新建一個 PV 對象,然后把之前的 released 的 PV 的相關字段的信息填到新的 PV 對象里面,這樣的話,這個 PV 就可以結合新的 PVC 了;第二種是我們在刪除 pod 之后,不要去刪除 PVC 對象,這樣給 PV 綁定的 PVC 還是存在的,下次 pod 使用的時候,就可以直接通過 PVC 去復用。K8s 中的 StatefulSet 管理的 Pod 帶存儲的遷移就是通過這種方式。
接下來,我會在實際的環境中給大家演示一下,靜態 Provisioning 以及動態 Provisioning 具體操作方式。
靜態 Provisioning 主要用的是阿里云的 NAS 文件存儲;動態 Provisioning 主要用了阿里云的云盤。它們需要相應存儲插件,插件我已經提前部署在我的 K8s 集群中了(csi-nasplugin 是為了在 K8s 中使用阿里云 NAS 所需的插件,csi-disk 是為了在 K8s 中使用阿里云云盤所需要的插件)。
我們接下來先看一下靜態 Provisioning 的 PV 的 yaml 文件。
volumeAttributes 是我在阿里云 nas 控制臺預先創建的 NAS 文件系統的相關信息,我們主要需要關心的有 capacity 為 5Gi; accessModes 為多 node 讀寫訪問; reclaimPolicy:Retain,也就是當我使用方的 PVC 被刪除之后,我這個 PV 是要保留下來的;以及在使用這個卷的過程中使用的 driver。
然后我們把對應的 PV 創建出來:
我們看一下上圖 PV 的狀態,已經處在 Available,也就是說它已經可以被使用了。
再創建出來 nas-pvc:
我們看這個時候 PVC 已經新創建出來了,而且也已經和我們上面創建的 PV 綁定到一起了。我們看一下 PVC 的 yaml 里面寫的什么。
其實很簡單 ,就是我需要的大小以及我需要的 accessModes。提交完之后,它就與我們集群中已經存在的 PV 做匹配,匹配成功之后,它就會做 bound。
接下來我們去創建使用 nas-fs 的 pod:
上圖看到,這兩個 Pod 都已經處在 running 狀態了。
我們先看一下這個 pod yaml:
pod yaml 里面聲明了剛才我們創建出來的 PVC 對象,然后把它掛載到 nas-container 容器中的 /data 下面。我們這個 pod 是通過 deployment 創建兩個副本,通過反親和性,將兩個副本調度在不同的 node 上面。
上圖我們可以看一下,兩個 Pod 所在的宿主機是不一樣的。
如下圖所示:我們登陸到第一個上面,findmnt 看一下它的掛載信息,這個其實就掛載在我聲明的 nas-fs 上,那我們再在下面 touch 個 test.test.test 文件,我們也會登陸到另外一個容器,看一下它有沒有被共享。
我們退出再登陸另外一個 pod(剛才登陸的是第一個,現在登陸第二個)。
如下圖所示:我們也 findmnt 一下,可以看到,這兩個 pod 的遠程掛載路徑一樣,也就是說我們用的是同一個 NAS PV,我們再看一下剛才創建出來的那個是否存在。
可以看到,這個也是存在的,就說明這兩個運行在不同node上的 pod 共享了同一個 nas 存儲。
接下來我們看一下把兩個 pod 刪掉之后的情況。先刪 Pod,接著再刪一下對應的 PVC(K8s 內部對 pvc 對象由保護機制,在刪除 pvc 對象時如果發現有 pod 在使用 pvc,pvc 是刪除不掉的),這個可能要稍等一下。
看一下下圖對應的 PVC 是不是已經被刪掉了。
上圖顯示,它已經被刪掉了。再看一下,剛才的 nas PV 還是在的,它的狀態是處在 Released 狀態,也就是說剛才使用它的 PVC 已經被刪掉了,然后它被 released 了。又因為我們 RECLAIN POLICY 是 Retain,所以它這個 PV 是被保留下來的。
接下來我們來看第二個例子,動態 Provisioning 的例子。我們先把保留下來的 PV 手動刪掉,可以看到集群中沒有 PV了。接下來演示一下動態 Provisioning。
首先,先去創建一個生成 PV 的模板文件,也就是 storageclass。看一下 storageclass 里面的內容,其實很簡單。
如上圖所示,我事先指定的是我要創建存儲的卷插件(阿里云云盤插件,由阿里云團隊開發),這個我們已經提前部署好了;我們可以看到,parameters部分是創建存儲所需要的一些參數,但是用戶不需要關心這些信息;然后是 reclaimPolicy,也就是說通過這個 storageclass 創建出來的 PV 在給綁定到一起的 PVC 刪除之后,它是要保留還是要刪除。
如上圖所示:現在這個集群中是沒有 PV 的,我們動態提交一個 PVC 文件,先看一下它的 PVC 文件。它的 accessModes-ReadWriteOnce (因為阿里云云盤其實只能是單 node 讀寫的,所以我們聲明這樣的方式),它的存儲大小需求是 30G,它的 storageClassName 是 csi-disk,就是我們剛才創建的 storageclass,也就是說它指定要通過這個模板去生成 PV。
這個 PVC 此時正處在 pending 狀態,這就說明它對應的 PV 還在創建過程中。
稍過一會,我們看到已經有一個新的 PV 生成,這個 PV 其實就是根據我們提交的 PVC 以及 PVC 里面指定的storageclass 動態生成的。之后 K8s 會將生成的 PV 以及我們提交的 PVC,就是這個 disk PVC 做綁定,之后我們就可以通過創建 pod 來使用了。
再看一下 pod yaml:
pod yaml 很簡單,也是通過 PVC 聲明,表明使用這個 PVC。然后是掛載點,下面我們可以創建看一下。
如下圖所示:我們可以大概看一下 Events,首先被調度器調度,調度完之后,接下來會有個 attachdetach controller,它會去做 disk 的 attach 操作,就是把我們對應的 PV 掛載到調度器調度的 node 上,然后Pod對應的容器才能啟動,啟動容器才能使用對應的盤。
接下來我會把 PVC 刪掉,看一下 PV 會不會根據我們的 reclaimPolicy 隨之刪掉呢?我們先看一下,這個時候 PVC 還是存在的,對應的 PV 也是存在的。
然后刪一下 PVC,刪完之后再看一下:我們的 PV 也被刪了,也就是說根據 reclaimPolicy,我們在刪除 PVC 的同時,PV 也會被刪除掉。
我們的演示部分就到這里了。
我們接下來看一下 K8s 中的 PV 和 PVC 體系的完整處理流程。我首先看一下這張圖的右下部分里面提到的 csi。
csi 是什么?csi 的全稱是 container storage interface,它是 K8s 社區后面對存儲插件實現 ( out of tree ) 的官方推薦方式。csi 的實現大體可以分為兩部分:
接下來看一下,當用戶提交 yaml 之后,k8s 內部的處理流程。用戶在提交 PVCyaml 的時候,首先會在集群中生成一個 PVC 對象,然后 PVC 對象會被 csi-provisioner controller watch 到,csi-provisioner 會結合 PVC 對象以及 PVC 對象中聲明的 storageClass,通過 GRPC 調用 csi-controller-server,然后,到云存儲服務這邊去創建真正的存儲,并最終創建出來 PV 對象。最后,由集群中的 PV controller 將 PVC 和 PV 對象做 bound 之后,這個 PV 就可以被使用了。
用戶在提交 pod 之后,首先會被調度器調度選中某一個合適的node,之后該 node 上面的 kubelet 在創建 pod 流程中會通過首先 csi-node-server 將我們之前創建的 PV 掛載到我們 pod 可以使用的路徑,然后 kubelet 開始 create && start pod 中的所有 container。
我們接下來通過另一張圖來更加詳細看一下我們 PV、PVC 以及通過 CSI 使用存儲的完整流程。
主要分為三個階段:
總的來說,有三個階段:第一個 create 階段,主要是創建存儲;第二個 attach 階段,就是將那塊存儲掛載到 node 上面(通常為將存儲 load 到 node 的 /dev 下面);第三個 mount 階段,將對應的存儲進一步掛載到 pod 可以使用的路徑。這就是我們的 PVC、PV、已經通過 CSI 實現的卷從創建到使用的完整流程。
本文內容就到此為止了,這里為大家簡單總結一下:
阿里巴巴云原生微信公眾號(ID:Alicloudnative)關注微服務、Serverless、容器、Service Mesh等技術領域、聚焦云原生流行技術趨勢、云原生大規模的落地實踐,做最懂云原生開發者的技術公眾號。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。