您好,登錄后才能下訂單哦!
apache kafka數據采集是什么?相信大部分人都不太了解,今天小編為了讓大家更加了解apache kafka數據采集,給大家總結了以下內容,一起往下看吧。
Apache Kafka - 介紹
Apache Kafka起源于LinkedIn,后來成為2011年的開源Apache項目,然后在2012年成為Apache的一流項目。Kafka以Scala和Java編寫。Apache Kafka是基于發布訂閱的容錯消息系統。它是快速,可擴展和分布的設計。
本教程將探討Kafka的原理,安裝,操作,然后將介紹Kafka集群的部署。最后,我們將總結實時應用和與Big Data Technologies的集成。
在進行本教程之前,您必須對 Java,Scala,分布式消息系統和Linux環境有很好的了解。
在大數據中,使用了大量的數據。關于數據,我們有兩個主要挑戰。第一個挑戰是如何收集大量數據,第二個挑戰是分析收集的數據。為了克服這些挑戰,您需要一個消息系統。
Kafka專為分布式高吞吐量系統而設計。Kafka作為一個更傳統的郵件經紀人的替代品往往運作良好。與其他消息系統相比,Kafka具有更好的吞吐量,內置的分區,復制和固有的容錯能力,使其非常適合大規模的消息處理應用。
什么是郵件系統?
消息系統負責將數據從一個應用程序傳輸到另一個應用程序,因此應用程序可以專注于數據,但不用擔心如何共享數據。分布式消息傳遞基于可靠消息隊列的概念。消息在客戶端應用程序和消息系統之間異步排隊。兩種類型的消息傳遞模式是可用的 - 一種是點對點,另一種是發布訂閱(pub-sub)消息系統。大多數消息傳遞模式跟隨pub-sub。
點到點信息系統
在點對點系統中,消息將保留在隊列中。一個或多個消費者可以使用隊列中的消息,但是特定消息可以由最多僅一個消費者消費。一旦消費者讀取隊列中的消息,它將從該隊列中消失。該系統的典型示例是訂單處理系統,其中每個訂單將由一個訂單處理器處理,但多訂單處理器可以同時工作。下圖描繪了結構。
發布訂閱消息系統
在發布訂閱系統中,郵件將保留在主題中。與點對點系統不同,消費者可以訂閱一個或多個主題并消費該主題中的所有消息。在Publish-Subscribe系統中,消息生成器被稱為發布者,消息消費者被稱為訂戶。一個現實的例子是Dish TV,它發布不同的頻道,如運動,電影,音樂等,任何人都可以訂閱自己的頻道,并獲得他們的訂閱頻道。
什么是Kafka?
Apache Kafka是分布式發布訂閱消息傳遞系統和強大的隊列,可以處理大量數據,并使您能夠將消息從一個端點傳遞到另一個終端。Kafka適用于離線和在線消息消費。Kafka消息被保留在磁盤上,并在集群內復制以防止數據丟失。Kafka建立在ZooKeeper同步服務之上。它與Apache Storm和Spark完美結合,實時流式傳輸數據分析。
優點 以下是Kafka的幾個好處 -
可靠性 - Kafka是分布式,分區式,復制型和容錯型。
可擴展性 - Kafka消息系統輕松擴展,無需停機時間。
耐用性 - Kafka使用分布式提交日志,這意味著郵件盡可能快地依然存在于磁盤上,因此它是耐用的。
性能 - Kafka對于發布和訂閱消息都具有高吞吐量。它保持穩定的性能,即使存儲了許多TB的消息。
Kafka非常快,保證零停機和零數據丟失。
用例
Kafka可用于許多用例。其中有些列在下面 -
指標 - Kafka經常用于運行監控數據。這涉及從分布式應用程序聚合統計信息,以產生操作數據的集中式提要。
日志聚合解決方案 - Kafka可以在整個組織中使用,從多個服務收集日志,并以標準格式提供給多個服務器。
流處理 - 流行框架(如Storm和Spark
Streaming)從主題讀取數據,處理它,并將處理后的數據寫入可用于用戶和應用程序的新主題。Kafka的強大耐用性在流處理方面也非常有用。
Kafka需要
Kafka是處理所有實時數據源的統一平臺。Kafka支持低延遲消息傳遞,并在存在機器故障的情況下保證容錯。它具有處理大量不同消費者的能力。Kafka非常快,執行200萬次寫/秒。Kafka將所有數據保留到磁盤,這實質上意味著所有的寫入都將轉到操作系統(RAM)的頁面緩存。這將數據從頁面緩存傳輸到網絡套接字非常有效。
看完上訴內容,你們對apache kafka數據采集大概了解了嗎?如果想了解更多相關文章內容,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。