您好,登錄后才能下訂單哦!
DataSet Api編程指南是什么,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。
ApacheFlink是一個兼顧高吞吐、低延遲、高性能的分布式處理框架。在實時計算崛起的今天,Flink正在飛速發展。由于性能的優勢和兼顧批處理,流處理的特性,Flink可能正在顛覆整個大數據的生態。
首先要想運行Flink,我們需要下載并解壓Flink的二進制包。
我們可以選擇Flink與Scala結合版本,這里我們選擇最新的1.9版本ApacheFlink1.9.0forScala2.12進行下載。
下載成功后,在windows系統中可以通過Windows的bat文件或者Cygwin來運行Flink。
在linux系統中分為單機,集群和Hadoop等多種情況。
Flink的編程模型,Flink提供了不同的抽象級別以開發流式或者批處理應用,本文我們來介紹DataSetAPI,Flink最常用的批處理編程模型。
Flink中的DataSet程序是實現數據集轉換的常規程序(例如,Filter,映射,連接,分組)。數據集最初是從某些來源創建的(例如,通過讀取文件或從本地集合創建)。結果通過接收器返回,接收器可以例如將數據寫入(分布式)文件或標準輸出(例如命令行終端)。Flink程序可以在各種環境中運行,獨立運行或嵌入其他程序中。執行可以在本地JVM中執行,也可以在許多計算機的集群上執行。
數據轉換將一個或多個DataSet轉換為新的DataSet。程序可以將多個轉換組合到復雜的程序集中。
DataSetAPI中最重要的就是這些算子,我們將數據接入后,通過這些算子對數據進行處理,得到我們想要的結果。
通過創建輸入文件和讀取輸出文件來完成分析程序的輸入并檢查其輸出是很麻煩的。Flink具有特殊的數據源和接收器,由Java集合支持以簡化測試。一旦程序經過測試,源和接收器可以很容易地被讀取/寫入外部數據存儲(如HDFS)的源和接收器替換。
在開發中,我們經常直接使用接收器對數據源進行接收。
看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注億速云行業資訊頻道,感謝您對億速云的支持。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。