您好,登錄后才能下訂單哦!
部署方式:spark standalone集群、yarn集群、meoss集群...
driver的HA:如果希望driver程序在失敗之后自動重啟,那么需要在程序中使用getOrcreate方法重構streamingContext對象,以及在spark-submit中添加參數。
Checkpoint目錄的設置:如果程序使用到checkpoint目錄,就必須配置一個hdfs兼容的文件系統作為checkpoint目錄,因為程序是分布式的,不能將checkpoint單獨的設置在某一個節點
接收數據的方式: Receiver和direct
Receiver方式:需要給executor分配足夠的資源,因為receiver接受的數據時存儲在executor的內存中,尤其是在做window操作時,必須保證有足夠的內存存儲相應時間內的所有數據。 spark.streaming.receiver.writeAheadLog.enable參數設置為true,用于開啟receive方式的WAL,保證數據不丟失。
direct方式:對于kafka direct方式,引入了backpressure機制,從而不需要設置spark.streaming.kafka.maxRatePerPartition,spark可以自動的估計receive最合理的接收速度,并根據情況動態調整,只需要設置:spark.streaming.backpressure.enabled設置為true即可
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。