Spark如何安裝、配置及基礎使用

發布時間：2021-11-15 10:15:12 來源：億速云閱讀：176 作者：小新欄目：云計算

小編給大家分享一下Spark如何安裝、配置及基礎使用，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

7. Spark

此主題介紹Spark的安裝、配置及基礎使用。

Spark基本信息

官網：http://spark.apache.org/
官方教程：http://spark.apache.org/docs/latest/programming-guide.html

7.1. 環境準備

# 切換到工作空間
cd /opt/workspaces
# 創建Spark數據目錄
mkdir data/spark
# 創建Spark日志目錄
mkdir logs/spark

官方教程

http://spark.apache.org/docs/latest/spark-standalone.html

7.2. 安裝

wget http://mirrors.hust.edu.cn/apache/spark/spark-1.6.1/spark-1.6.1-bin-hadoop2.6.tgz
tar -zxf spark-1.6.1-bin-hadoop2.6.tgz
rm -rf spark-1.6.1-bin-hadoop2.6.tgz
mv spark-1.6.1-bin-hadoop2.6 ./frameworks/spark

7.3. 配置(偽分布式)

vi ./frameworks/spark/conf/spark-env.sh

export SPARK_MASTER_IP=bd
export SPARK_MASTER_PORT=7077
export MASTER=spark://${SPARK_MASTER_IP}:${SPARK_MASTER_PORT}
# 指定Spark數據目錄
export SPARK_LOCAL_DIRS=/opt/workspaces/data/spark/
# 指定Spark日志目錄
export SPARK_LOG_DIR=/opt/workspaces/logs/spark/
# 指定JDK目錄
export JAVA_HOME=/opt/env/java
# 指定Scala目錄
export SCALA_HOME=/opt/env/scala

7.4. 啟動與停止

./frameworks/spark/sbin/start-all.sh

7.5. 測試

# 執行圓周率計算示例
./frameworks/spark/bin/run-example  org.apache.spark.examples.SparkPi

./frameworks/spark/bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master spark://bd:6066\
  --deploy-mode cluster \
  --driver-memory 512M \
  --executor-memory 256M \  #如果運行出錯請改大些
  ./frameworks/spark/lib/spark-examples-1.6.1-hadoop2.6.0.jar \
  1000

7.6. Word Count

http://spark.apache.org/docs/latest/quick-start.html

Word Count

./frameworks/spark/bin/spark-shell

// 基礎版
val textFile = sc.textFile("./frameworks/spark/README.md")
val words = textFile.flatMap(line => line.split(" "))
val exchangeVal = words.map(word => (word,1))
val count = exchangeVal.reduceByKey((a,b) => a + b)
count.collect

// 優化版
sc.textFile("./frameworks/spark/README.md").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect

// 帶排序
sc.textFile("./frameworks/spark/README.md").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).map(_.swap).sortByKey(false).map(_.swap).collect

// 最終版
val wordR="""\w+""".r
sc.textFile("./frameworks/spark/README.md").flatMap(_.split(" ")).filter(wordR.pattern.matcher(_).matches).map((_,1)).reduceByKey(_ + _).map(_.swap).sortByKey(false).map(_.swap).saveAsTextFile("hdfs://bd:9000/wordcount")

可以訪問 http://<host>:8080 查看作業

7.7. 參數說明

在哪配置：

Spark properties （Spark屬性）在應用程序中通過SparkConf 對象設置，或通過Java系統屬性設置。
Environment variables （環境變量）指定各節點的設置，如IP地址、端口，配置文件在conf/spark-env.sh中。
Logging （日志）可以通過log4j.properties配置日志。

Spark properties

在代碼中指定配置

val conf = new SparkConf()
             // 指定使用2個本地線程來運行，本地模式下，我們可以使用n個線程（n >= 1），但在像Spark Streaming這樣的場景下，我們可能需要多個線程
             .setMaster("local[2]")
             .setAppName("CountingSheep")
val sc = new SparkContext(conf)

在腳本中指定配置

./bin/spark-submit --name "My app" --master local[4] --conf spark.eventLog.enabled=false
  --conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" myApp.jar

Table 1. 常用配置

屬性名稱	默認值	說明
spark.app.name		Spark應用的名字
spark.driver.cores	1	在cluster模式下運行driver進程的核數
spark.driver.memory	1g	driver進程可以用的內存總量（如：1g，2g），client模式下無效果，必須要在命令行里用 –driver-memory 或者在默認屬性配置文件里設置
spark.executor.memory	1g	單個executor使用的內存總量（如，2g，8g）
spark.master		集群管理器URL

Environment variables

環境變量在${SPARK_HOME}/conf/spark-env.sh腳本中設置

Table 2. 常用配置

模式	屬性名稱	默認值	說明
	JAVA_HOME		Java安裝目錄
	SCALA_HOME		Scala安裝目錄
	SPARK_LOCAL_IP		本地綁定的IP
	SPARK_LOG_DIR	${SPARK_HOME}/logs	日志目錄
standalone	SPARK_MASTER_IP	（當前IP）	Master IP
standalone	SPARK_MASTER_PORT	7077（6066）	Master 端口
standalone	MASTER		默認Master URL
standalone	SPARK_WORKER_CORES	所有	每個節點使用的CPU core上限
standalone	SPARK_WORKER_MEMORY	本節點所有內存減去1GB	每個節點使用的內存上限
standalone	SPARK_WORKER_INSTANCES	1	每個節點啟動的worker實例個數
standalone	SPARK_WORKER_PORT	隨機	Worker綁定的端口

如果你的slave節點性能非常強勁，可以把SPARK_WORKER_INSTANCES設為大于1；相應的，需要設置SPARK_WORKER_CORES參數限制每個worker實例使用的CPU個數，否則每個worker實例都會使用所有的CPU。

Logging

日志在${SPARK_HOME}/conf/log4j.properties中設置

Hadoop集群配置

使用HDFS時需要從Hadoop中復制hdfs-site.xml、 core-site.xml到Spark的classpath中

http://spark.apache.org/docs/latest/configuration.html

7.8. 資源調度

standalone目前只支持簡單的先進先出（FIFO）調度器。這個調度器可以支持多用戶，你可以控制每個應用所使用的最大資源。默認情況下，Spark應用會申請集群中所有的CPU。

在代碼中限制資源

val conf = new SparkConf()
             .setMaster(...)
             .setAppName(...)
             .set("spark.cores.max", "10")
val sc = new SparkContext(conf)

在配置文件 spark-env.sh中限制資源

export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=<value>"

7.9. 性能調優

http://spark.apache.org/docs/latest/tuning.html

7.10. 硬件配置

每個節點：
* 4-8塊磁盤
* 8G以上內存
* 千兆網卡
* 8-16核CPU

至少3個節點

http://spark.apache.org/docs/latest/hardware-provisioning.html

7.11. 整合Hive

在spark-env.sh中添加配置項

# Hive目錄
export HIVE_HOME=$HIVE_HOME

SPARK_CLASSPATH

有些教程中說要添加
export SPARK_CLASSPATH=$HIVE_HOME/lib/mysql-connector-java-x.jar:$SPARK_CLASSPATH
但目前版本不需要此配置，并且添加上去會導致zeppelin運行出錯:
org.apache.spark.SparkException: Found both spark.driver.extraClassPath and SPARK_CLASSPATH. Use only the former.

復制Hive的幾個配置文件

cp ./frameworks/hive/conf/hive-site.xml ./frameworks/spark/conf
cp ./frameworks/hive/conf/hive-log4j.properties ./frameworks/spark/conf

啟動thriftserver，用于對外提供JDBC服務
```
./frameworks/spark/sbin/start-thriftserver.sh
```

測試連接

./frameworks/spark/bin/beeline
!connect jdbc:hive2://bd:10000
show tables;

以上是“Spark如何安裝、配置及基礎使用”這篇文章的所有內容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內容對大家有所幫助，如果還想學習更多知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Spark如何安裝、配置及基礎使用

7. Spark

7.1. 環境準備

7.2. 安裝

7.3. 配置(偽分布式)

7.4. 啟動與停止

7.5. 測試

7.6. Word Count

7.7. 參數說明

7.8. 資源調度

7.9. 性能調優

7.10. 硬件配置

7.11. 整合Hive

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Spark如何安裝、配置及基礎使用

7. Spark

7.1. 環境準備

7.2. 安裝

7.3. 配置(偽分布式)

7.4. 啟動與停止

7.5. 測試

7.6. Word Count

7.7. 參數說明

7.8. 資源調度

7.9. 性能調優

7.10. 硬件配置

7.11. 整合Hive

猜你喜歡

最新資訊

相關推薦

相關標簽