storm處理數據的兩種模式是什么

發布時間：2021-12-23 11:54:28 來源：億速云閱讀：169 作者：iii 欄目：云計算

這篇文章主要介紹“storm處理數據的兩種模式是什么”，在日常操作中，相信很多人在storm處理數據的兩種模式是什么問題上存在疑惑，小編查閱了各式資料，整理出簡單好用的操作方法，希望對大家解答”storm處理數據的兩種模式是什么”的疑惑有所幫助！接下來，請跟著小編一起來學習吧！

1、Storm簡介

storm是一個分布式、容錯的實時計算系統，起先被托管在GitHub上，遵循Eclipse Public License 1.0 。Storm是由BackType開發的實時處理系統，由Twitter開源

2013年，Storm進入Apache社區進行孵化；

2014年9月，晉級為Apache頂級項目

官網 http://storm.apache.org/

hadoop和storm的區別：hadoop反復啟動停止，數據反復落地耗費時間，storm采用流式處理，數據不落地

數據來源：hadoop的數據是hdfs上的TB級別數據，storm是實時新增的數據；

處理過程：hadoop是分為split 、map、shuffler 、reduce等階段、storm是由用戶定義流程，流程中可以包含多個步驟，每個步驟可以是數據源（spout）或處理邏輯（bolt）

是否結束：hadoop最后是要結束的；storm是沒有結束的，數據處理完是要等待新數據的進入的。

處理速度：hadoop處理堆積的數據，速度慢，storm只是處理新增的數據，時效性較高；

2、Storm架構：

Nimbus：管事，但是可以不存在，如果Nimbus掛掉，之前提價的job可以繼續進行處理，后續不能繼續提交，因此Nimbus的主要作用是提交任務和通過zk與Supervisor進行溝通；相當于Leader

Supervisor：

Worker

編程模型

DAG：有向無環圖

Spout：源頭

Bolt：bolt處理完數據會使用消息框架將信息返回給上一個Bolt或Spout；

數據傳輸：storm底層傳輸數據使用zmq或者netty

zmq

zmq是開源的消息傳遞框架；（0.9版本以上已經不用了）

Netty

netty是NIO的網絡框架，效率比較高。之所以有netty事storm在apache之后，zmq遵循linux的協議，netty遵循的協議比較寬松。

高可用：

異常處理，就是異常崩潰，也不影響，例如supervisor掛了，nimbus會重新調度

消息可靠性機制保證，ack機制

可維護：

storm UI

3、Storm處理數據的兩種模式：

實時請求應答模式（同步）

Client ----》DRPC Server ----》Spout---》Bolt-----》Return---》（返回給前面的drpc server 然后再返回給Client）

對應DRPC Server 有不同的Spout --》DRPC Spout ，Topology（拓撲結構）、ReturnResult

流式處理（異步）

Client---》MQ--->Sport------>Bolt1----->bolt2--------->Storage(redis、hbase、Mysql、mq等)

<----

Storm的wordCount

1、隨機生成數據

2、切割單詞

3、hash不同單詞到不同的任務上去

到此，關于“storm處理數據的兩種模式是什么”的學習就結束了，希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習，快去試試吧！若想繼續學習更多相關知識，請繼續關注億速云網站，小編會繼續努力為大家帶來更多實用的文章！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

storm處理數據的兩種模式是什么

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

storm處理數據的兩種模式是什么

猜你喜歡

最新資訊

相關推薦

相關標簽