生產常用Spark累加器剖析之四

發布時間：2020-06-01 11:48:50 來源：網絡閱讀：198 作者：Stitch_x 欄目：大數據

生產常用Spark累加器剖析之四

現象描述

val acc = sc.accumulator(0, “Error Accumulator”)
val data = sc.parallelize(1 to 10)
val newData = data.map(x => {
  if (x % 2 == 0) {
 accum += 1
}
})
newData.count
acc.value
newData.foreach(println)
acc.value

上述現象，會造成acc.value的最終值變為10

原因分析

Spark中的一系列transform操作都會構造成一長串的任務鏈，此時就需要通過一個action操作來觸發（lazy的特性），accumulator也是如此。

因此在一個action操作之后，調用value方法查看，是沒有任何變化
第一次action操作之后，調用value方法查看，變成了5
第二次action操作之后，調用value方法查看，變成了10

原因就在于第二次action操作的時候，又執行了一次累加器的操作，同個累加器，在原有的基礎上又加了5，從而變成了10

解決方案

通過上述的現象描述，我們可以很快知道解決的方法：只進行一次action操作。基于此，我們只要切斷任務之間的依賴關系就可以了，即使用cache、persist。這樣操作之后，那么后續的累加器操作就不會受前面的transform操作影響了

相關案例

需求

使用Accumulators統計emp表中NULL出現的次數以及正常數據的條數 & 打印正常數據的信息

數據

7369  SMITH   CLERK   7902    1980-12-17  800.00      20
7499  ALLEN   SALESMAN    7698    1981-2-20   1600.00 300.00  30
7521  WARD    SALESMAN    7698    1981-2-22   1250.00 500.00  30
7566  JONES   MANAGER 7839    1981-4-2    2975.00     20
7654  MARTIN  SALESMAN    7698    1981-9-28   1250.00 1400.00 30
7698  BLAKE   MANAGER 7839    1981-5-1    2850.00     30
7782  CLARK   MANAGER 7839    1981-6-9    2450.00     10
7788  SCOTT   ANALYST 7566    1987-4-19   3000.00     20
7839  KING    PRESIDENT       1981-11-17  5000.00     10
7844  TURNER  SALESMAN    7698    1981-9-8    1500.00 0.00    30
7876  ADAMS   CLERK   7788    1987-5-23   1100.00     20
7900  JAMES   CLERK   7698    1981-12-3   950.00      30
7902  FORD    ANALYST 7566    1981-12-3   3000.00     20
7934  MILLER  CLERK   7782    1982-1-23   1300.00     10

遇到的坑 & 解決方法

現象描述 & 原因分析：

我們都知道，spark中的一系列transform操作會構成一串長的任務鏈，此時就需要通過一個action操作來觸發； accumulator也是一樣的，只有當action操作執行時，才會觸發accumulator的執行；因此在一個action操作之前，我們調用accumulator的value方法是無法查看其數值的，肯定是沒有任何變化的；所以在對normalData進行foreach操作之后，即action操作之后，我們會發現累加器的數值就變成了11；之后，我們對normalData再進行一次count操作之后，即又一次的action操作之后，其實這時候，又去執行了一次前面的transform操作；因此累加器的值又增加了11，變成了22

解決辦法：

經過上面的分析，我們可以知道，使用累加器的時候，我們只有使用一次action操作才能夠保證結果的準確性因此，我們面對這種情況，是有辦法的，做法就是切斷它們相互之間的依賴關系即可因此對normalData使用cache方法，當RDD第一次被計算出來時，就會被直接緩存起來再調用時，相同的計算操作就不會再重新計算一遍
```
import org.apache.spark.{SparkConf, SparkContext}
/**
* 使用Spark Accumulators完成Job的數據量處理
* 統計emp表中NULL出現的次數以及正常數據的條數 & 打印正常數據的信息
*/
object AccumulatorsApp {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setMaster("local[2]").setAppName("AccumulatorsApp")
val sc = new SparkContext(conf)
val lines = sc.textFile("E:/emp.txt")
// long類型的累加器值
val nullNum = sc.longAccumulator("NullNumber")
val normalData = lines.filter(line => {
  var flag = true
  val splitLines = line.split("\t")
  for (splitLine <- splitLines){
    if ("".equals(splitLine)){
      flag = false
      nullNum.add(1)
    }
  }
  flag
})
// 使用cache方法，將RDD的第一次計算結果進行緩存；防止后面RDD進行重復計算，導致累加器的值不準確
normalData.cache()
// 打印每一條正常數據
normalData.foreach(println)
// 打印正常數據的條數
println("NORMAL DATA NUMBER: " + normalData.count())
// 打印emp表中NULL出現的次數
println("NULL: " + nullNum.value)
sc.stop()
}
}
```

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

生產常用Spark累加器剖析之四

生產常用Spark累加器剖析之四

現象描述

原因分析

解決方案

相關案例

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

生產常用Spark累加器剖析之四

生產常用Spark累加器剖析之四

現象描述

原因分析

解決方案

相關案例

猜你喜歡

最新資訊

相關推薦

相關標簽