91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

spark union 特別注意

發布時間:2020-03-07 01:22:28 來源:網絡 閱讀:411 作者:大海之中 欄目:大數據

今天遇到一個很詭異的問題。

表A

userid housecode res ctime
u1 code1 1 1301

表B

userid housecode res ctime
u2 code2 0 1302

表C

userid name type time
u1 大海 0 1303

然后對表A進行處理操作

表A.createOrReplaceTempView("t1");
JavaRDD<HistoryModelExt> rdd=removeDuplicateData(t1);
t1= s.createDataFrame(rdd, HistoryModelExt.class);

然后查看t1, t1.show()

u1 code1 1 1301
.. .. .. ..

數據還在,然后 B union A 然后 join C(通過userid), 理論上應該是有結果的,感覺就像1+1=2 這么肯定,但是還真沒有數據,非常詫異。

剛開始以為是自己程序哪里有問題,苦苦尋找,發現一切正常, 最后回到 union這個方法上。

為了看清楚前因后果, 我把B union A的數據打印了出來,發現了一個奇怪的事情

userid housecode res ctime
u2 code2 0 1302
1301 code1 1 u1

當時一下子就明白為什么join 沒有數據了, A的schema已經與B不一致了。
原來 union函數并不是按照列名合并,而是按照位置合并。
但是在JavaRDD<HistoryModelExt> rdd=removeDuplicateData(t1); 這步之前還是一致的,為什么轉成java對象后,schema就變了呢

查看源代碼

  /**
   * Applies a schema to an RDD of Java Beans.
   *
   * WARNING: Since there is no guaranteed ordering for fields in a Java Bean,
   * SELECT * queries will return the columns in an undefined order.
   *
   * @since 2.0.0
   */

 def createDataFrame(rdd: RDD[_], beanClass: Class[_]): DataFrame = {
    val attributeSeq: Seq[AttributeReference] = getSchema(beanClass)
    val className = beanClass.getName
    val rowRdd = rdd.mapPartitions { iter =>
    // BeanInfo is not serializable so we must rediscover it remotely for each partition.
      SQLContext.beansToRows(iter, Utils.classForName(className), attributeSeq)
    }
    Dataset.ofRows(self, LogicalRDD(attributeSeq, rowRdd.setName(rdd.name))(self))
  }

看注釋,fields的順序是不保證的, 原來如此。

這樣你在union前乖乖的執行

t1.select("userId","houseCode","res","ctime"); 

這樣順序就又恢復了,大數據排查問題特別麻煩,感覺是一個很大的坑,希望能幫到后來人。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

浠水县| 太原市| 怀安县| 巴南区| 稷山县| 湾仔区| 同心县| 巩留县| 内江市| 平乐县| 日喀则市| 福州市| 乌兰察布市| 邵阳县| 霸州市| 长沙市| 开江县| 广灵县| 商都县| 错那县| 兰州市| 临高县| 巴楚县| 鄂托克前旗| 长乐市| 鹿邑县| 大田县| 新沂市| 手游| 庆阳市| 常宁市| 广丰县| 芜湖县| 平遥县| 疏附县| 通城县| 依安县| 禄丰县| 六安市| 嵩明县| 丹东市|