您好,登錄后才能下訂單哦!
Kafka如何實現每秒上百萬的超高并發寫入,相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現的原因和解決方法,通過這篇文章希望你能解決這個問題。
來聊一下 Kafka 的一些架構設計原理,這也是互聯網公司面試時非常高頻的技術考點。
Kafka 是高吞吐低延遲的高并發、高性能的消息中間件,在大數據領域有極為廣泛的運用。配置良好的 Kafka 集群甚至可以做到每秒幾十萬、上百萬的超高并發寫入。
那么 Kafka 到底是如何做到這么高的吞吐量和性能的呢?這篇文章我們來詳細說一下。
頁緩存技術 + 磁盤順序寫
首先 Kafka 每次接收到數據都會往磁盤上去寫,如下圖所示:
那么在這里我們不禁有一個疑問了,如果把數據基于磁盤來存儲,頻繁的往磁盤文件里寫數據,這個性能會不會很差?大家肯定都覺得磁盤寫性能是極差的。
沒錯,要是真的跟上面那個圖那么簡單的話,那確實這個性能是比較差的。
但是實際上 Kafka 在這里有極為優秀和出色的設計,就是為了保證數據寫入性能,首先 Kafka 是基于操作系統的頁緩存來實現文件寫入的。
操作系統本身有一層緩存,叫做 Page Cache,是在內存里的緩存,我們也可以稱之為 OS Cache,意思就是操作系統自己管理的緩存。
你在寫入磁盤文件的時候,可以直接寫入這個 OS Cache 里,也就是僅僅寫入內存中,接下來由操作系統自己決定什么時候把 OS Cache 里的數據真的刷入磁盤文件中。
僅僅這一個步驟,就可以將磁盤文件寫性能提升很多了,因為其實這里相當于是在寫內存,不是在寫磁盤,大家看下圖:
接著另外一個就是 kafka 寫數據的時候,非常關鍵的一點,它是以磁盤順序寫的方式來寫的。
也就是說,僅僅將數據追加到文件的末尾,不是在文件的隨機位置來修改數據。
普通的機械磁盤如果你要是隨機寫的話,確實性能極差,也就是隨便找到文件的某個位置來寫數據。
但是如果你是追加文件末尾按照順序的方式來寫數據的話,那么這種磁盤順序寫的性能基本上可以跟寫內存的性能本身也是差不多的。
所以大家就知道了,上面那個圖里,Kafka 在寫數據的時候,一方面基于 OS 層面的 Page Cache 來寫數據,所以性能很高,本質就是在寫內存罷了。
另外一個,它是采用磁盤順序寫的方式,所以即使數據刷入磁盤的時候,性能也是極高的,也跟寫內存是差不多的。
基于上面兩點,Kafka 就實現了寫入數據的超高性能。那么大家想想,假如說 Kafka 寫入一條數據要耗費 1 毫秒的時間,那么是不是每秒就是可以寫入 1000 條數據?
但是假如 Kafka 的性能極高,寫入一條數據僅僅耗費 0.01 毫秒呢?那么每秒是不是就可以寫入 10 萬條數據?
所以要保證每秒寫入幾萬甚至幾十萬條數據的核心點,就是盡***可能提升每條數據寫入的性能,這樣就可以在單位時間內寫入更多的數據量,提升吞吐量。
零拷貝技術
說完了寫入這塊,再來談談消費這塊。
大家應該都知道,從 Kafka 里我們經常要消費數據,那么消費的時候實際上就是要從 Kafka 的磁盤文件里讀取某條數據然后發送給下游的消費者,如下圖所示:
那么這里如果頻繁的從磁盤讀數據然后發給消費者,性能瓶頸在哪里呢?
假設要是 Kafka 什么優化都不做,就是很簡單的從磁盤讀數據發送給下游的消費者,那么大概過程如下所示:
先看看要讀的數據在不在 OS Cache 里,如果不在的話就從磁盤文件里讀取數據后放入 OS Cache。
接著從操作系統的 OS Cache 里拷貝數據到應用程序進程的緩存里,再從應用程序進程的緩存里拷貝數據到操作系統層面的 Socket 緩存里。
***從 Socket 緩存里提取數據后發送到網卡,***發送出去給下游消費。
整個過程,如下圖所示:
大家看上圖,很明顯可以看到有兩次沒必要的拷貝吧!一次是從操作系統的 Cache 里拷貝到應用進程的緩存里,接著又從應用程序緩存里拷貝回操作系統的 Socket 緩存里。
而且為了進行這兩次拷貝,中間還發生了好幾次上下文切換,一會兒是應用程序在執行,一會兒上下文切換到操作系統來執行。
所以這種方式來讀取數據是比較消耗性能的。Kafka 為了解決這個問題,在讀數據的時候是引入零拷貝技術。
也就是說,直接讓操作系統的 Cache 中的數據發送到網卡后傳輸給下游的消費者,中間跳過了兩次拷貝數據的步驟,Socket 緩存中僅僅會拷貝一個描述符過去,不會拷貝數據到 Socket 緩存。
大家看下圖,體會一下這個精妙的過程:
通過零拷貝技術,就不需要把 OS Cache 里的數據拷貝到應用緩存,再從應用緩存拷貝到 Socket 緩存了,兩次拷貝都省略了,所以叫做零拷貝。
對 Socket 緩存僅僅就是拷貝數據的描述符過去,然后數據就直接從 OS Cache 中發送到網卡上去了,這個過程大大的提升了數據消費時讀取文件數據的性能。
而且大家會注意到,在從磁盤讀數據的時候,會先看看 OS Cache 內存中是否有,如果有的話,其實讀數據都是直接讀內存的。
如果 Kafka 集群經過良好的調優,大家會發現大量的數據都是直接寫入 OS Cache 中,然后讀數據的時候也是從 OS Cache 中讀。
相當于是 Kafka 完全基于內存提供數據的寫和讀了,所以這個整體性能會極其的高。其實 ES 底層也是大量基于 OS Cache 實現了海量數據的高性能檢索的,跟 Kafka 原理類似。
看完上述內容,你們掌握Kafka如何實現每秒上百萬的超高并發寫入的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。