大數據中Spark實戰技巧是什么

發布時間：2021-12-17 10:29:35 來源：億速云閱讀：125 作者：柒染欄目：大數據

本篇文章給大家分享的是有關大數據中Spark實戰技巧是什么，小編覺得挺實用的，因此分享給大家學習，希望大家閱讀完這篇文章后可以有所收獲，話不多說，跟著小編一起來看看吧。

1.連接mysql

--driver-class-path mysql-connector-java-5.1.21.jar 在數據庫中，SET GLOBAL binlog_format=mixed;

2.Spark中使用Hive的udf

同樣使用—jars 才行

3.Spark jupyter使用

https://www.jb51.net/article/163641.htm

https://my.oschina.net/albert2011/blog/754174

使用jupyter-notebook --ip hostname -i來啟動

4.Spark使用hive的orc解析格式

spark.sql.hive.convertMetastoreOrc=true

使用spark寫入hive表中的數據，可能會出現空指針問題或者數據越界問題，問題原因是spark的元數據解析問題，而不是hive的元數據解析問題

5.row_number排序算子的使用

import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions.row_number
import org.apache.spark.sql.functions._

1.spark.sql(sql).withColumn("rn", row_number().over(Window.partitionBy('f_trans_id).orderBy(col("f_modify_time").desc))) 2.spark.sql(sql).withColumn("rn", row_number().over(Window.partitionBy('f_trans_id).orderBy(-col("f_modify_time"))))

3.val df = spark.sql(sql)

df.withColumn("rn", row_number().over(Window.partitionBy('f_trans_id).orderBy(-df("f_modify_time"))))

4.spark.sql(sql).withColumn("rn", row_number().over(Window.partitionBy('f_trans_id).orderBy(-'f_modify_time)))

注意：-的方式，經過測試，不穩定，有時可以，有時不可以

6.broadcast廣播表

sc.broadcast是廣播數據，一般用于rdd廣播，而下面的方式用于廣播表

import org.apache.spark.sql.functions.broadcast

broadcast(tableData).createOrReplaceTempView

以上就是大數據中Spark實戰技巧是什么，小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

大數據中Spark實戰技巧是什么

1.連接mysql

2.Spark中使用Hive的udf

3.Spark jupyter使用

4.Spark使用hive的orc解析格式

5.row_number排序算子的使用

6.broadcast廣播表

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

大數據中Spark實戰技巧是什么

1.連接mysql

2.Spark中 使用Hive的udf

3.Spark jupyter使用

4.Spark使用hive的orc解析格式

5.row_number排序算子的使用

6.broadcast廣播表

猜你喜歡

最新資訊

相關推薦

相關標簽

2.Spark中使用Hive的udf