91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

SparkStreaming基礎理論

發布時間:2020-07-02 18:27:28 來源:網絡 閱讀:719 作者:原生zzy 欄目:大數據

一、Spark Streaming的介紹

(1)為什么要有Spark Streaming?

   Hadoop 的 MapReduce 及 Spark SQL 等只能進行離線計算,無法滿足實時性要求較高的業務 需求,例如實時推薦、實時網站性能分析等,流式計算可以解決這些問題。目前有三種比較 常用的流式計算框架,它們分別是 Storm,Spark Streaming 和 fink。

(2)Spark Streaming是什么?

SparkStreaming基礎理論
   Spark Streaming,其實就是一種Spark提供的,對于大數據,進行實時計算的一種框架。它的底層,其實,也是基于我們之前講解的Spark Core的。基本的計算模型,還是基于內存的大數據實時計算模型。而且,它的底層的核心組件還是我們在Spark Core中經常用到的RDD。針對實時計算的特點,在RDD之上,進行了一層封裝,叫做DStream。其底層還是基于RDD的。所以,RDD是整個Spark技術生態中的核心。
   Spark streaming支持的數據輸入源很多,如:Kafka、Flume、Twitter、ZeroMQ 和簡單的 TCP 套接字等等。數據輸入后可以用spark的高度抽象語:map、reduce、join、window 等進行運算。而結果也能保存在很多地方。如HDFS, 數據庫等。另外,spark streaming也能和MLlib(機器學習)以及 Graphx 完美融合。

(3)Spark Streaming的優勢

易用
SparkStreaming基礎理論
容錯
SparkStreaming基礎理論
與spark體系無縫整合
SparkStreaming基礎理論

二、Spark Streaming的核心概念

SparkStreaming基礎理論
   接收實時輸入數據流,然后將數據拆分成多個batch,比如每收集1秒的數據封裝為一個batch,然后將每個batch交給Spark的計算引擎進行處理,最后會生產出一個結果數據流,其中的數據,也是由一個一個的batch所組成的。

(1)相關術語介紹:

  離散流DStream:這是spark streaming對內部持續的實時數據流的抽象描述,即我們處理的一個實時數據,在sparkstreaming中對應一個DStream實例。
  批數據:這是化整為零的第一步,將實時數據抽象,以時間片為單位進行分批,將流處理轉化為時間片,數據的批處理,隨著持續時間的推移,這些處理結果就形成了對應的結果數據流。
  時間片或批處理時間間隔:人為地對流數據進行定量的標準,以時 間片作為我們拆分流數據的依據。一個時間片的數據對應一個 RDD 實例。
SparkStreaming基礎理論
窗口長度:一個窗口覆蓋的數據流的時間長度,必須是批處理時間間隔的倍數
滑動周期:前一個窗口到后一個窗口所經過的時間長度,必須是批處理時間間隔的倍數
  InputDStream:一個 InputDStream 是一個特殊的 DStream,表示第一次被加載到實時數據流中的原始數據。

(2)DStream的相關介紹:

SparkStreaming基礎理論
  Discretized Stream 是 Spark Streaming 的基礎抽象,代表持續性的數據流和經過各種 Spark 原 語操作后的結果數據流。在內部實現上,DStream 是一系列連續的 RDD 來表示。DStream 是 連續數據的離散化表示,DStream 中每個離散片段都是一個 RDD,DStream 可以變換成另一 個 DStream。
  DStream對數據的操作也是按照RDD為單位來進行的:
SparkStreaming基礎理論

1)DStream的相關操作:

  DStream上的原語與RDD類似,分為:Transformations(轉換)和Output Operations(輸出,類似于action)。
由于DStream的操作與RDD極為類似,而且DStream底層就是封裝的RDD,所以這里簡單的介紹一下Transformations。
SparkStreaming基礎理論
注意:Transformations操作中有幾個極為重要的操作:updateStateByKey()、transform()、window()、foreachRDD()。以后的博文中為詳細介紹。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

金坛市| 贡嘎县| 尼木县| 安龙县| 多伦县| 瑞安市| 三江| 重庆市| 思南县| 弋阳县| 富川| 偃师市| 满洲里市| 梅州市| 峨山| 宁远县| 元朗区| 诸城市| 克什克腾旗| 健康| 宿州市| 泸西县| 政和县| 镇雄县| 寿光市| 安仁县| 西安市| 佛教| 吕梁市| 呼伦贝尔市| 闽侯县| 青州市| 胶州市| 明溪县| 农安县| 彩票| 浪卡子县| 天水市| 萨迦县| 九江县| 麻阳|