Spark 系列（二）—— Spark 開發環境搭建

發布時間：2020-07-05 17:40:25 來源：網絡閱讀：270 作者：heibaiying 欄目：大數據

一、安裝Spark

1.1 下載并解壓

官方下載地址：http://spark.apache.org/downloads.html ，選擇 Spark 版本和對應的 Hadoop 版本后再下載：

解壓安裝包：

# tar -zxvf  spark-2.2.3-bin-hadoop2.6.tgz

1.2 配置環境變量

# vim /etc/profile

添加環境變量：

export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6
export  PATH=${SPARK_HOME}/bin:$PATH

使得配置的環境變量立即生效：

# source /etc/profile

1.3 Local模式

Local 模式是最簡單的一種運行方式，它采用單節點多線程方式運行，不用部署，開箱即用，適合日常測試開發。

# 啟動spark-shell
spark-shell --master local[2]

local：只啟動一個工作線程；
local[k]：啟動 k 個工作線程；
*local[]**：啟動跟 cpu 數目相同的工作線程數。

Spark 系列（二）—— Spark 開發環境搭建

進入 spark-shell 后，程序已經自動創建好了上下文 SparkContext，等效于執行了下面的 Scala 代碼：

val conf = new SparkConf().setAppName("Spark shell").setMaster("local[2]")
val sc = new SparkContext(conf)

二、詞頻統計案例

安裝完成后可以先做一個簡單的詞頻統計例子，感受 spark 的魅力。準備一個詞頻統計的文件樣本 wc.txt，內容如下：

hadoop,spark,hadoop
spark,flink,flink,spark
hadoop,hadoop

在 scala 交互式命令行中執行如下 Scala 語句：

val file = spark.sparkContext.textFile("file:///usr/app/wc.txt")
val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)
wordCounts.collect

執行過程如下，可以看到已經輸出了詞頻統計的結果：

Spark 系列（二）—— Spark 開發環境搭建

同時還可以通過 Web UI 查看作業的執行情況，訪問端口為 4040：

Spark 系列（二）—— Spark 開發環境搭建

三、Scala開發環境配置

Spark 是基于 Scala 語言進行開發的，分別提供了基于 Scala、Java、Python 語言的 API，如果你想使用 Scala 語言進行開發，則需要搭建 Scala 語言的開發環境。

3.1 前置條件

Scala 的運行依賴于 JDK，所以需要你本機有安裝對應版本的 JDK，最新的 Scala 2.12.x 需要 JDK 1.8+。

3.2 安裝Scala插件

IDEA 默認不支持 Scala 語言的開發，需要通過插件進行擴展。打開 IDEA，依次點擊 File => settings=> plugins 選項卡，搜索 Scala 插件 (如下圖)。找到插件后進行安裝，并重啟 IDEA 使得安裝生效。

Spark 系列（二）—— Spark 開發環境搭建

3.3 創建Scala項目

在 IDEA 中依次點擊 File => New => Project 選項卡，然后選擇創建 Scala—IDEA 工程：

Spark 系列（二）—— Spark 開發環境搭建

3.4 下載Scala SDK

1. 方式一

此時看到 Scala SDK 為空，依次點擊 Create => Download ，選擇所需的版本后，點擊 OK 按鈕進行下載，下載完成點擊 Finish 進入工程。

Spark 系列（二）—— Spark 開發環境搭建

2. 方式二

方式一是 Scala 官方安裝指南里使用的方式，但下載速度通常比較慢，且這種安裝下并沒有直接提供 Scala 命令行工具。所以個人推薦到官網下載安裝包進行安裝，下載地址：https://www.scala-lang.org/download/

這里我的系統是 Windows，下載 msi 版本的安裝包后，一直點擊下一步進行安裝，安裝完成后會自動配置好環境變量。

Spark 系列（二）—— Spark 開發環境搭建

由于安裝時已經自動配置好環境變量，所以 IDEA 會自動選擇對應版本的 SDK。

Spark 系列（二）—— Spark 開發環境搭建

3.5 創建Hello World

在工程 src 目錄上右擊 New => Scala class 創建 Hello.scala。輸入代碼如下，完成后點擊運行按鈕，成功運行則代表搭建成功。

Spark 系列（二）—— Spark 開發環境搭建

3.6 切換Scala版本

在日常的開發中，由于對應軟件（如 Spark）的版本切換，可能導致需要切換 Scala 的版本，則可以在 Project Structures 中的 Global Libraries 選項卡中進行切換。

Spark 系列（二）—— Spark 開發環境搭建

3.7 可能出現的問題

在 IDEA 中有時候重新打開項目后，右擊并不會出現新建 scala 文件的選項，或者在編寫時沒有 Scala 語法提示，此時可以先刪除 Global Libraries 中配置好的 SDK，之后再重新添加：

Spark 系列（二）—— Spark 開發環境搭建

另外在 IDEA 中以本地模式運行 Spark 項目是不需要在本機搭建 Spark 和 Hadoop 環境的。

更多大數據系列文章可以參見 GitHub 開源項目： 大數據入門指南

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Spark 系列（二）—— Spark 開發環境搭建

一、安裝Spark

1.1 下載并解壓

1.2 配置環境變量

1.3 Local模式

二、詞頻統計案例

三、Scala開發環境配置

3.1 前置條件

3.2 安裝Scala插件

3.3 創建Scala項目

3.4 下載Scala SDK

1. 方式一

2. 方式二

3.5 創建Hello World

3.6 切換Scala版本

3.7 可能出現的問題

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Spark 系列（二）—— Spark 開發環境搭建

一、安裝Spark

1.1 下載并解壓

1.2 配置環境變量

1.3 Local模式

二、詞頻統計案例

三、Scala開發環境配置

3.1 前置條件

3.2 安裝Scala插件

3.3 創建Scala項目

3.4 下載Scala SDK

1. 方式一

2. 方式二

3.5 創建Hello World

3.6 切換Scala版本

3.7 可能出現的問題

猜你喜歡

最新資訊

相關推薦

相關標簽