您好,登錄后才能下訂單哦!
kafka知識點有哪些呢,針對這個問題,這篇文章詳細介紹了相對應的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。
Kafka是分布式發布-訂閱消息系統,它最初是由LinkedIn公司開發的,之后成為Apache項目的一部分,Kafka是一個分布式,可劃分的,冗余備份的持久性的日志服務,它主要用于處理流式數據。
緩沖和削峰:上游數據時有突發流量,下游可能扛不住,或者下游沒有足夠多的機器來保證冗余,kafka在中間可以起到一個緩沖的作用,把消息暫存在kafka中,下游服務就可以按照自己的節奏進行慢慢處理。
解耦和擴展性:項目開始的時候,并不能確定具體需求。消息隊列可以作為一個接口層,解耦重要的業務流程。只需要遵守約定,針對數據編程即可獲取擴展能力。
冗余:可以采用一對多的方式,一個生產者發布消息,可以被多個訂閱topic的服務消費到,供多個毫無關聯的業務使用。
健壯性:消息隊列可以堆積請求,所以消費端業務即使短時間死掉,也不會影響主要業務的正常進行。
異步通信:很多時候,用戶不想也不需要立即處理消息。消息隊列提供了異步處理機制,允許用戶把一個消息放入隊列,但并不立即處理它。想向隊列中放入多少消息就放多少,然后在需要的時候再去處理它們。
ISR:In-Sync Replicas 副本同步隊列 AR:Assigned Replicas 所有副本 ISR是由leader維護,follower從leader同步數據有一些延遲(包括延遲時間replica.lag.time.max.ms和延遲條數replica.lag.max.messages兩個維度, 當前最新的版本0.10.x中只支持replica.lag.time.max.ms這個維度),任意一個超過閾值都會把follower剔除出ISR, 存入OSR(Outof-Sync Replicas)列表,新加入的follower也會先存放在OSR中。AR=ISR+OSR。
broker 是消息的代理,Producers往Brokers里面的指定Topic中寫消息,Consumers從Brokers里面拉取指定Topic的消息,然后進行業務處理,broker在中間起到一個代理保存消息的中轉站。
zookeeper 是一個分布式的協調組件,早期版本的kafka用zk做meta信息存儲,consumer的消費狀態,group的管理以及 offset的值。考慮到zk本身的一些因素以及整個架構較大概率存在單點問題,新版本中逐漸弱化了zookeeper的作用。新的consumer使用了kafka內部的group coordination協議,也減少了對zookeeper的依賴,
但是broker依然依賴于ZK,zookeeper 在kafka中還用來選舉controller 和 檢測broker是否存活等等。
Kafka的復制機制既不是完全的同步復制,也不是單純的異步復制。完全同步復制要求All Alive Follower都復制完,這條消息才會被認為commit,這種復制方式極大的影響了吞吐率。而異步復制方式下,Follower異步的從Leader復制數據,數據只要被Leader寫入log就被認為已經commit,這種情況下,如果leader掛掉,會丟失數據,kafka使用ISR的方式很好的均衡了確保數據不丟失以及吞吐率。Follower可以批量的從Leader復制數據,而且Leader充分利用磁盤順序讀以及send file(zero copy)機制,這樣極大的提高復制性能,內部批量寫磁盤,大幅減少了Follower與Leader的消息量差。
leader會維護一個與其基本保持同步的Replica列表,該列表稱為ISR(in-sync Replica),每個Partition都會有一個ISR,而且是由leader動態維護 ,如果一個follower比一個leader落后太多,或者超過一定時間未發起數據復制請求,則leader將其重ISR中移除 。
Cache Filesystem Cache PageCache緩存
順序寫 由于現代的操作系統提供了預讀和寫技術,磁盤的順序寫大多數情況下比隨機寫內存還要快。
Zero-copy 零拷技術減少拷貝次數
Batching of Messages 批量量處理。合并小的請求,然后以流的方式進行交互,直頂網絡上限。
Pull 拉模式 使用拉模式進行消息的獲取消費,與消費端處理能力相符。
增加線程
提高 batch.size
增加更多 producer 實例
增加 partition 數
設置 acks=-1 時,如果延遲增大:可以增大 num.replica.fetchers(follower 同步數據的線程數)來調解;
跨數據中心的傳輸:增加 socket 緩沖區設置以及 OS tcp 緩沖區設置。
1(默認) 數據發送到Kafka后,經過leader成功接收消息的的確認,就算是發送成功了。在這種情況下,如果leader宕機了,則會丟失數據。
0 生產者將數據發送出去就不管了,不去等待任何返回。這種情況下數據傳輸效率最高,但是數據可靠性確是最低的。
-1 producer需要等待ISR中的所有follower都確認接收到數據后才算一次發送完成,可靠性最高。當ISR中所有Replica都向Leader發送ACK時,leader才commit,這時候producer才能認為一個請求中的消息都commit了。
unclean.leader.election.enable為true的話,意味著非ISR集合的broker 也可以參與選舉,這樣有可能就會丟數據,spark streaming在消費過程中拿到的 end offset 會突然變小,導致 spark streaming job掛掉。如果unclean.leader.election.enable參數設置為true,就有可能發生數據丟失和數據不一致的情況,Kafka的可靠性就會降低;而如果unclean.leader.election.enable參數設置為false,Kafka的可用性就會降低。
kafka在Broker端提供了一個配置參數:unclean.leader.election,這個參數有兩個值:true(默認):允許不同步副本成為leader,由于不同步副本的消息較為滯后,此時成為leader,可能會出現消息不一致的情況。false:不允許不同步副本成為leader,此時如果發生ISR列表為空,會一直等待舊leader恢復,降低了可用性。
一個Kafka的Message由一個固定長度的header和一個變長的消息體body組成
header部分由一個字節的magic(文件格式)和四個字節的CRC32(用于判斷body消息體是否正常)構成。
當magic的值為1的時候,會在magic和crc32之間多一個字節的數據:attributes(保存一些相關屬性,比如是否壓縮、壓縮格式等等);如果magic的值為0,那么不存在attributes屬性。body是由N個字節構成的一個消息體,包含了具體的key/value消息
同樣是邏輯上的概念,是Kafka實現單播和廣播兩種消息模型的手段。同一個topic的數據,會廣播給不同的group;同一個group中的worker,只有一個worker能拿到這個數據。換句話說,對于同一個topic,每個group都可以拿到同樣的所有數據,但是數據進入group后只能被其中的一個worker消費。group內的worker可以使用多線程或多進程來實現,也可以將進程分散在多臺機器上,worker的數量通常不超過partition的數量,且二者最好保持整數倍關系,因為Kafka在設計時假定了一個partition只能被一個worker消費(同一group內)。
要確定Kafka的消息是否丟失或重復,從兩個方面分析入手:消息發送和消息消費。
Kafka消息發送有兩種方式:同步(sync)和異步(async),默認是同步方式,可通過producer.type屬性進行配置。Kafka通過配置request.required.acks屬性來確認消息的生產:
0---表示不進行消息接收是否成功的確認;1---表示當Leader接收成功時確認;-1---表示Leader和Follower都接收成功時確認;
綜上所述,有6種消息生產的情況,下面分情況來分析消息丟失的場景:
(1)acks=0,不和Kafka集群進行消息接收確認,則當網絡異常、緩沖區滿了等情況時,消息可能丟失;
(2)acks=1、同步模式下,只有Leader確認接收成功后但掛掉了,副本沒有同步,數據可能丟失;
Kafka消息消費有兩個consumer接口,Low-level API和High-level API:
Low-level API:消費者自己維護offset等值,可以實現對Kafka的完全控制;
High-level API:封裝了對parition和offset的管理,使用簡單;
如果使用高級接口High-level API,可能存在一個問題就是當消息消費者從集群中把消息取出來、并提交了新的消息offset值后,還沒來得及消費就掛掉了,那么下次再消費時之前沒消費成功的消息就“詭異”的消失了;
針對消息丟失:同步模式下,確認機制設置為-1,即讓消息寫入Leader和Follower之后再確認消息發送成功;異步模式下,為防止緩沖區滿,可以在配置文件設置不限制阻塞超時時間,當緩沖區滿時讓生產者一直處于阻塞狀態;
針對消息重復:將消息的唯一標識保存到外部介質中,每次消費時判斷是否處理過即可。
在 Kafka 中,生產者寫入消息、消費者讀取消息的操作都是與 leader 副本進行交互的,從 而實現的是一種主寫主讀的生產消費模型。
Kafka 并不支持主寫從讀,因為主寫從讀有 2 個很明 顯的缺點:
(1)數據一致性問題。數據從主節點轉到從節點必然會有一個延時的時間窗口,這個時間 窗口會導致主從節點之間的數據不一致。某一時刻,在主節點和從節點中 A 數據的值都為 X, 之后將主節點中 A 的值修改為 Y,那么在這個變更通知到從節點之前,應用讀取從節點中的 A 數據的值并不為最新的 Y,由此便產生了數據不一致的問題。
(2)延時問題。類似 Redis 這種組件,數據從寫入主節點到同步至從節點中的過程需要經 歷網絡→主節點內存→網絡→從節點內存這幾個階段,整個過程會耗費一定的時間。而在 Kafka 中,主從同步會比 Redis 更加耗時,它需要經歷網絡→主節點內存→主節點磁盤→網絡→從節 點內存→從節點磁盤這幾個階段。對延時敏感的應用而言,主寫從讀的功能并不太適用。
kafka每個partition中的消息在寫入時都是有序的,消費時,每個partition只能被每一個group中的一個消費者消費,保證了消費時也是有序的。整個topic不保證有序。如果為了保證topic整個有序,那么將partition調整為1.
offset+1
Kafka并沒有使用JDK自帶的Timer或者DelayQueue來實現延遲的功能,而是基于時間輪自定義了一個用于實現延遲功能的定時器(SystemTimer)。JDK的Timer和DelayQueue插入和刪除操作的平均時間復雜度為O(nlog(n)),并不能滿足Kafka的高性能要求,而基于時間輪可以將插入和刪除操作的時間復雜度都降為O(1)。時間輪的應用并非Kafka獨有,其應用場景還有很多,在Netty、Akka、Quartz、Zookeeper等組件中都存在時間輪的蹤影。
底層使用數組實現,數組中的每個元素可以存放一個TimerTaskList對象。TimerTaskList是一個環形雙向鏈表,在其中的鏈表項TimerTaskEntry中封裝了真正的定時任務TimerTask.
Kafka中到底是怎么推進時間的呢?Kafka中的定時器借助了JDK中的DelayQueue來協助推進時間輪。具體做法是對于每個使用到的TimerTaskList都會加入到DelayQueue中。Kafka中的TimingWheel專門用來執行插入和刪除TimerTaskEntry的操作,而DelayQueue專門負責時間推進的任務。再試想一下,DelayQueue中的第一個超時任務列表的expiration為200ms,第二個超時任務為840ms,這里獲取DelayQueue的隊頭只需要O(1)的時間復雜度。如果采用每秒定時推進,那么獲取到第一個超時的任務列表時執行的200次推進中有199次屬于“空推進”,而獲取到第二個超時任務時有需要執行639次“空推進”,這樣會無故空耗機器的性能資源,這里采用DelayQueue來輔助以少量空間換時間,從而做到了“精準推進”。Kafka中的定時器真可謂是“知人善用”,用TimingWheel做最擅長的任務添加和刪除操作,而用DelayQueue做最擅長的時間推進工作,相輔相成。
關于kafka知識點有哪些呢問題的解答就分享到這里了,希望以上內容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關注億速云行業資訊頻道了解更多相關知識。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。