91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何進行spark join的源碼分析

發布時間:2021-12-17 10:41:19 來源:億速云 閱讀:165 作者:柒染 欄目:大數據

這期內容當中小編將會給大家帶來有關如何進行spark join的源碼分析,文章內容豐富且以專業的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object JoinDemo {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName(this.getClass.getCanonicalName.init).setMaster("local[*]")
    val sc = new SparkContext(conf)
    sc.setLogLevel("WARN")
    val random = scala.util.Random

    val col1 = Range(1, 50).map(idx => (random.nextInt(10), s"user$idx"))
    val col2 = Array((0, "BJ"), (1, "SH"), (2, "GZ"), (3, "SZ"), (4, "TJ"), (5, "CQ"), (6, "HZ"), (7, "NJ"), (8, "WH"), (0, "CD"))

    val rdd1: RDD[(Int, String)] = sc.makeRDD(col1)
    val rdd2: RDD[(Int, String)] = sc.makeRDD(col2)

    val rdd3: RDD[(Int, (String, String))] = rdd1.join(rdd2)
    println (rdd3.dependencies)

    val rdd4: RDD[(Int, (String, String))] = rdd1.partitionBy(new HashPartitioner(3)).join(rdd2.partitionBy(newHashPartitioner(3)))

    println(rdd4.dependencies)
    sc.stop()
  }
}
1.兩個打印語句:
List(org.apache.spark.OneToOneDependency@63acf8f6) 
List(org.apache.spark.OneToOneDependency@d9a498)

對應的依賴:
rdd3對應的是寬依賴,rdd4對應的是窄依賴

原因:
1)參考webUI
由DAG圖可以看出,第一個join和之前的清晰劃分成單獨的Satge。可以看出這個是寬依賴。第二個join,partitionBy之后再進行join并沒有單獨劃分成一個stage,由此可見是一個窄依賴。

rdd3的join 如何進行spark join的源碼分析

rdd4的join 如何進行spark join的源碼分析

2)代碼解析: a.首先是默認的join方法,這里使用了一個默認分區器

  /**
   * Return an RDD containing all pairs of elements with matching keys in `this` and `other`. Each
   * pair of elements will be returned as a (k, (v1, v2)) tuple, where (k, v1) is in `this` and
   * (k, v2) is in `other`. Performs a hash join across the cluster.
   */
  def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] = self.withScope {
    join(other, defaultPartitioner(self, other))
  }

b.默認分區器,對于第一個join會返回一個以電腦core總數為分區數量的HashPartitioner.第二個join會返回我們設定的HashPartitioner(分區數目3)

  def defaultPartitioner(rdd: RDD[_], others: RDD[_]*): Partitioner = {
    val rdds = (Seq(rdd) ++ others)
    val hasPartitioner = rdds.filter(_.partitioner.exists(_.numPartitions > 0))

    val hasMaxPartitioner: Option[RDD[_]] = if (hasPartitioner.nonEmpty) {
      Some(hasPartitioner.maxBy(_.partitions.length))
    } else {
      None
    }

    val defaultNumPartitions = if (rdd.context.conf.contains("spark.default.parallelism")) {
      rdd.context.defaultParallelism
    } else {
      rdds.map(_.partitions.length).max
    }

    // If the existing max partitioner is an eligible one, or its partitions number is larger
    // than the default number of partitions, use the existing partitioner.
    if (hasMaxPartitioner.nonEmpty && (isEligiblePartitioner(hasMaxPartitioner.get, rdds) ||
        defaultNumPartitions < hasMaxPartitioner.get.getNumPartitions)) {
      hasMaxPartitioner.get.partitioner.get
    } else {
      new HashPartitioner(defaultNumPartitions)
    }
  }

c.走到了實際執行的join方法,里面flatMapValues是一個窄依賴,所以說如果有寬依賴應該在cogroup算子中

  /**
   * Return an RDD containing all pairs of elements with matching keys in `this` and `other`. Each
   * pair of elements will be returned as a (k, (v1, v2)) tuple, where (k, v1) is in `this` and
   * (k, v2) is in `other`. Uses the given Partitioner to partition the output RDD.
   */
  def join[W](other: RDD[(K, W)], partitioner: Partitioner): RDD[(K, (V, W))] = self.withScope {
    this.cogroup(other, partitioner).flatMapValues( pair =>
      for (v <- pair._1.iterator; w <- pair._2.iterator) yield (v, w)
    )
  }

d.進入cogroup方法中,核心是CoGroupedRDD,根據兩個需要join的rdd和一個分區器。由于第一個join的時候,兩個rdd都沒有分區器,所以在這一步,兩個rdd需要先根據傳入的分區器進行一次shuffle,因此第一個join是寬依賴。第二個join此時已經分好區了,不需要再再進行shuffle了。所以第二個是窄依賴

  /**
   * For each key k in `this` or `other`, return a resulting RDD that contains a tuple with the
   * list of values for that key in `this` as well as `other`.
   */
  def cogroup[W](other: RDD[(K, W)], partitioner: Partitioner)
      : RDD[(K, (Iterable[V], Iterable[W]))] = self.withScope {
    if (partitioner.isInstanceOf[HashPartitioner] && keyClass.isArray) {
      throw new SparkException("HashPartitioner cannot partition array keys.")
    }
    val cg = new CoGroupedRDD[K](Seq(self, other), partitioner)
    cg.mapValues { case Array(vs, w1s) =>
      (vs.asInstanceOf[Iterable[V]], w1s.asInstanceOf[Iterable[W]])
    }
  }

e.兩個都打印出OneToOneDependency,是因為在CoGroupedRDD里面,getDependencies方法里面,如果rdd有partitioner就都會返回OneToOneDependency(rdd)。

  override def getDependencies: Seq[Dependency[_]] = {
    rdds.map { rdd: RDD[_] =>
      if (rdd.partitioner == Some(part)) {
        logDebug("Adding one-to-one dependency with " + rdd)
        new OneToOneDependency(rdd)
      } else {
        logDebug("Adding shuffle dependency with " + rdd)
        new ShuffleDependency[K, Any, CoGroupCombiner](
          rdd.asInstanceOf[RDD[_ <: Product2[K, _]]], part, serializer)
      }
    }
  }
join什么時候是寬依賴什么時候是窄依賴?
由上述分析可以知道,如果需要join的兩個表,本身已經有分區器,且分區的數目相同,此時,相同的key在同一個分區內。就是窄依賴。反之,如果兩個需要join的表中沒有分區器或者分區數量不同,在join的時候需要shuffle,那么就是寬依賴

上述就是小編為大家分享的如何進行spark join的源碼分析了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

钦州市| 三原县| 大洼县| 黄浦区| 米易县| 滁州市| 含山县| 灌南县| 迁西县| 聂拉木县| 攀枝花市| 宣汉县| 温州市| 江川县| 文水县| 开平市| 介休市| 连云港市| 咸丰县| 鸡西市| 鹤壁市| 泾阳县| 奎屯市| 津南区| 车致| 巴里| 丰镇市| 定兴县| 沙河市| 弥勒县| 会泽县| 永修县| 宣武区| 平昌县| 新巴尔虎右旗| 临安市| 油尖旺区| 敦煌市| 涟源市| 辉县市| 和硕县|