91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

生產常用Spark累加器剖析之四

發布時間:2020-06-01 11:48:50 來源:網絡 閱讀:198 作者:Stitch_x 欄目:大數據

生產常用Spark累加器剖析之四

現象描述

val acc = sc.accumulator(0, “Error Accumulator”)
val data = sc.parallelize(1 to 10)
val newData = data.map(x => {
  if (x % 2 == 0) {
 accum += 1
}
})
newData.count
acc.value
newData.foreach(println)
acc.value

上述現象,會造成acc.value的最終值變為10

原因分析

Spark中的一系列transform操作都會構造成一長串的任務鏈,此時就需要通過一個action操作來觸發(lazy的特性),accumulator也是如此。

  • 因此在一個action操作之后,調用value方法查看,是沒有任何變化
  • 第一次action操作之后,調用value方法查看,變成了5
  • 第二次action操作之后,調用value方法查看,變成了10

原因就在于第二次action操作的時候,又執行了一次累加器的操作,同個累加器,在原有的基礎上又加了5,從而變成了10

解決方案

通過上述的現象描述,我們可以很快知道解決的方法:只進行一次action操作。基于此,我們只要切斷任務之間的依賴關系就可以了,即使用cache、persist。這樣操作之后,那么后續的累加器操作就不會受前面的transform操作影響了

相關案例

  • 需求

    使用Accumulators統計emp表中NULL出現的次數以及正常數據的條數 & 打印正常數據的信息

  • 數據

    7369  SMITH   CLERK   7902    1980-12-17  800.00      20
    7499  ALLEN   SALESMAN    7698    1981-2-20   1600.00 300.00  30
    7521  WARD    SALESMAN    7698    1981-2-22   1250.00 500.00  30
    7566  JONES   MANAGER 7839    1981-4-2    2975.00     20
    7654  MARTIN  SALESMAN    7698    1981-9-28   1250.00 1400.00 30
    7698  BLAKE   MANAGER 7839    1981-5-1    2850.00     30
    7782  CLARK   MANAGER 7839    1981-6-9    2450.00     10
    7788  SCOTT   ANALYST 7566    1987-4-19   3000.00     20
    7839  KING    PRESIDENT       1981-11-17  5000.00     10
    7844  TURNER  SALESMAN    7698    1981-9-8    1500.00 0.00    30
    7876  ADAMS   CLERK   7788    1987-5-23   1100.00     20
    7900  JAMES   CLERK   7698    1981-12-3   950.00      30
    7902  FORD    ANALYST 7566    1981-12-3   3000.00     20
    7934  MILLER  CLERK   7782    1982-1-23   1300.00     10
  • 遇到的坑 & 解決方法

    現象描述 & 原因分析:

    我們都知道,spark中的一系列transform操作會構成一串長的任務鏈,此時就需要通過一個action操作來觸發; accumulator也是一樣的,只有當action操作執行時,才會觸發accumulator的執行; 因此在一個action操作之前,我們調用accumulator的value方法是無法查看其數值的,肯定是沒有任何變化的; 所以在對normalData進行foreach操作之后,即action操作之后,我們會發現累加器的數值就變成了11; 之后,我們對normalData再進行一次count操作之后,即又一次的action操作之后,其實這時候,又去執行了一次前面的transform操作; 因此累加器的值又增加了11,變成了22

    解決辦法:

    經過上面的分析,我們可以知道,使用累加器的時候,我們只有使用一次action操作才能夠保證結果的準確性 因此,我們面對這種情況,是有辦法的,做法就是切斷它們相互之間的依賴關系即可 因此對normalData使用cache方法,當RDD第一次被計算出來時,就會被直接緩存起來 再調用時,相同的計算操作就不會再重新計算一遍

    import org.apache.spark.{SparkConf, SparkContext}
    /**
    * 使用Spark Accumulators完成Job的數據量處理
    * 統計emp表中NULL出現的次數以及正常數據的條數 & 打印正常數據的信息
    */
    object AccumulatorsApp {
    def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[2]").setAppName("AccumulatorsApp")
    val sc = new SparkContext(conf)
    val lines = sc.textFile("E:/emp.txt")
    // long類型的累加器值
    val nullNum = sc.longAccumulator("NullNumber")
    val normalData = lines.filter(line => {
      var flag = true
      val splitLines = line.split("\t")
      for (splitLine <- splitLines){
        if ("".equals(splitLine)){
          flag = false
          nullNum.add(1)
        }
      }
      flag
    })
    // 使用cache方法,將RDD的第一次計算結果進行緩存;防止后面RDD進行重復計算,導致累加器的值不準確
    normalData.cache()
    // 打印每一條正常數據
    normalData.foreach(println)
    // 打印正常數據的條數
    println("NORMAL DATA NUMBER: " + normalData.count())
    // 打印emp表中NULL出現的次數
    println("NULL: " + nullNum.value)
    sc.stop()
    }
    }
向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

恩平市| 晋江市| 扎兰屯市| 三台县| 武鸣县| 绵竹市| 安陆市| 威宁| 富顺县| 蕲春县| 连南| 淳安县| 丹凤县| 乐安县| 永仁县| 彰武县| 韶山市| 澜沧| 石景山区| 高邮市| 新余市| 天峨县| 竹山县| 黄石市| 阿荣旗| 如东县| 肇东市| 南昌市| 康保县| 茂名市| 吴川市| 合肥市| 佛教| 长沙县| 义乌市| 汉沽区| 博湖县| 上林县| 陇西县| 磐安县| 武陟县|