您好,登錄后才能下訂單哦!
這篇文章將為大家詳細講解有關怎么理解Flink1.10中的時間機制,文章內容質量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關知識有一定的了解。
一、概述
這里我們介紹下Flink的另外一個核心概念“Event Time機制”。
二、Flink中的三種時間機制
Flink在流處理程序中支持三種時間的概念,分別是EventTime、ProcessingTime、IngestionTime,Flink流式處理中,絕大部分的業務都會使用EventTime,一般只在EventTime無法使用時,考慮其他時間屬性下面分別介紹下。
1.EventTime 事件時間
EventTime是事件發生的時間,在進行Flink流處理程序之前,這個時間就已經能包含在了事件中,并且可以從每個記錄中提取事件時間戳。
在EventTime中,時間的進展取決于數據,而不是任何墻上的時鐘。EventTime程序必須指定如何生成事件EventTime Watermarks,這是EventTime進展的信號機制。這種Watermarks機制將在下面的小節中進行描述。
假設所有數據都已到達,事件時間操作將按照預期的方式運行,即使在處理無序或延遲的事件或重新處理歷史數據時,也會產生正確和一致的結果。例如,每小時事件時間窗口將包含所有記錄,這些記錄攜帶屬于該小時的事件時間戳,而與它們到達的順序無關,也與它們被處理的時間無關。
2.ProcessingTime 處理時間
ProcessingTime是指執行相應操作的機器的系統時間,ProcessingTime是Flink默認的時間概念,如需使用其他時間類型需要單獨設置。
當流程序在處理時間上運行時,所有基于時間的操作(如時間窗口)將使用運行各個operator的機器的系統時鐘。每小時處理時間窗口將包括在系統時鐘指示完整小時之間到達特定operator的所有記錄。例如,如果一個應用程序在上午9:15開始運行,那么第一個每小時處理時間窗口將包括上午9:15到10:00之間處理的事件,下一個窗口將包括上午10:00到11:00之間處理的事件,依此類推。
3.IngestionTime 攝入時間
IngestionTime是事件進入Flink的時間。在source operator中,每個記錄以時間戳的形式獲取源的當前時間,基于時間的操作(如時間窗口)引用該時間戳。
IngestionTime概念上位于EventTime和ProcessingTime之間。與ProcessingTime相比,它稍微昂貴一些,但是提供了更可預測的結果。由于IngestionTime使用穩定的時間戳(在源處分配一次),對記錄的不同窗口操作將引用相同的時間戳,而在ProcessingTime中,每個窗口操作人員可以將記錄分配到不同的窗口(基于本地系統時鐘和任何傳輸延遲)。
與ProcessingTime相比,IngestionTime程序不能處理任何無序事件或延遲數據,但程序不必指定如何生成Watermarks,因為在內部,它自動進行時間戳分配和自動Watermarks生成。
下面是Flink官網中對于時間標識的一張圖:
4.設置時間特性
通常,我們在Flink初始化流式運行環境時,就會設置流處理時間特性。這個設置很重要,它決定了數據流的行為方式。(例如:是否需要給事件分配時間戳),以及窗口操作應該使用什么樣的時間類型;代碼示例:
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();//Flink默認的是ProcessingTimeenv.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime);// alternatively:// env.setStreamTimeCharacteristic(TimeCharacteristic.IngestionTime);// env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
至此,Flink三種時間機制講解完畢,上面我們說了EventTime必須要指定如何生成事件時間Watermarks。
關于怎么理解Flink1.10中的時間機制就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。