91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Spark 系列(二)—— Spark 開發環境搭建

發布時間:2020-07-05 17:40:25 來源:網絡 閱讀:270 作者:heibaiying 欄目:大數據

一、安裝Spark

1.1 下載并解壓

官方下載地址:http://spark.apache.org/downloads.html ,選擇 Spark 版本和對應的 Hadoop 版本后再下載:

Spark 系列(二)—— Spark 開發環境搭建

解壓安裝包:

# tar -zxvf  spark-2.2.3-bin-hadoop2.6.tgz

1.2 配置環境變量

# vim /etc/profile

添加環境變量:

export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6
export  PATH=${SPARK_HOME}/bin:$PATH

使得配置的環境變量立即生效:

# source /etc/profile

1.3 Local模式

Local 模式是最簡單的一種運行方式,它采用單節點多線程方式運行,不用部署,開箱即用,適合日常測試開發。

# 啟動spark-shell
spark-shell --master local[2]
  • local:只啟動一個工作線程;
  • local[k]:啟動 k 個工作線程;
  • *local[]**:啟動跟 cpu 數目相同的工作線程數。

Spark 系列(二)—— Spark 開發環境搭建

進入 spark-shell 后,程序已經自動創建好了上下文 SparkContext,等效于執行了下面的 Scala 代碼:

val conf = new SparkConf().setAppName("Spark shell").setMaster("local[2]")
val sc = new SparkContext(conf)

二、詞頻統計案例

安裝完成后可以先做一個簡單的詞頻統計例子,感受 spark 的魅力。準備一個詞頻統計的文件樣本 wc.txt,內容如下:

hadoop,spark,hadoop
spark,flink,flink,spark
hadoop,hadoop

在 scala 交互式命令行中執行如下 Scala 語句:

val file = spark.sparkContext.textFile("file:///usr/app/wc.txt")
val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)
wordCounts.collect

執行過程如下,可以看到已經輸出了詞頻統計的結果:

Spark 系列(二)—— Spark 開發環境搭建

同時還可以通過 Web UI 查看作業的執行情況,訪問端口為 4040

Spark 系列(二)—— Spark 開發環境搭建

三、Scala開發環境配置

Spark 是基于 Scala 語言進行開發的,分別提供了基于 Scala、Java、Python 語言的 API,如果你想使用 Scala 語言進行開發,則需要搭建 Scala 語言的開發環境。

3.1 前置條件

Scala 的運行依賴于 JDK,所以需要你本機有安裝對應版本的 JDK,最新的 Scala 2.12.x 需要 JDK 1.8+。

3.2 安裝Scala插件

IDEA 默認不支持 Scala 語言的開發,需要通過插件進行擴展。打開 IDEA,依次點擊 File => settings=> plugins 選項卡,搜索 Scala 插件 (如下圖)。找到插件后進行安裝,并重啟 IDEA 使得安裝生效。

Spark 系列(二)—— Spark 開發環境搭建

3.3 創建Scala項目

在 IDEA 中依次點擊 File => New => Project 選項卡,然后選擇創建 Scala—IDEA 工程:

Spark 系列(二)—— Spark 開發環境搭建

3.4 下載Scala SDK

1. 方式一

此時看到 Scala SDK 為空,依次點擊 Create => Download ,選擇所需的版本后,點擊 OK 按鈕進行下載,下載完成點擊 Finish 進入工程。

Spark 系列(二)—— Spark 開發環境搭建

2. 方式二

方式一是 Scala 官方安裝指南里使用的方式,但下載速度通常比較慢,且這種安裝下并沒有直接提供 Scala 命令行工具。所以個人推薦到官網下載安裝包進行安裝,下載地址:https://www.scala-lang.org/download/

這里我的系統是 Windows,下載 msi 版本的安裝包后,一直點擊下一步進行安裝,安裝完成后會自動配置好環境變量。

Spark 系列(二)—— Spark 開發環境搭建

由于安裝時已經自動配置好環境變量,所以 IDEA 會自動選擇對應版本的 SDK。

Spark 系列(二)—— Spark 開發環境搭建

3.5 創建Hello World

在工程 src 目錄上右擊 New => Scala class 創建 Hello.scala。輸入代碼如下,完成后點擊運行按鈕,成功運行則代表搭建成功。

Spark 系列(二)—— Spark 開發環境搭建

3.6 切換Scala版本

在日常的開發中,由于對應軟件(如 Spark)的版本切換,可能導致需要切換 Scala 的版本,則可以在 Project Structures 中的 Global Libraries 選項卡中進行切換。

Spark 系列(二)—— Spark 開發環境搭建

3.7 可能出現的問題

在 IDEA 中有時候重新打開項目后,右擊并不會出現新建 scala 文件的選項,或者在編寫時沒有 Scala 語法提示,此時可以先刪除 Global Libraries 中配置好的 SDK,之后再重新添加:

Spark 系列(二)—— Spark 開發環境搭建

另外在 IDEA 中以本地模式運行 Spark 項目是不需要在本機搭建 Spark 和 Hadoop 環境的。

更多大數據系列文章可以參見 GitHub 開源項目大數據入門指南

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

瓮安县| 盐池县| 中阳县| 图木舒克市| 奎屯市| 喀什市| 铜梁县| 祁门县| 鹿泉市| 阿荣旗| 嘉黎县| 嘉兴市| 湄潭县| 鄂尔多斯市| 象山县| 会同县| 玉田县| 巩义市| 永州市| 香格里拉县| 安仁县| 万安县| 德清县| 新干县| 清水河县| 临朐县| 鄂州市| 都匀市| 田阳县| 安化县| 铁岭县| 深水埗区| 浪卡子县| 宁陵县| 黑山县| 晋城| 罗江县| 阳春市| 正镶白旗| 博乐市| 建阳市|