您好,登錄后才能下訂單哦!
官方下載地址:http://spark.apache.org/downloads.html ,選擇 Spark 版本和對應的 Hadoop 版本后再下載:
解壓安裝包:
# tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz
# vim /etc/profile
添加環境變量:
export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6
export PATH=${SPARK_HOME}/bin:$PATH
使得配置的環境變量立即生效:
# source /etc/profile
Local 模式是最簡單的一種運行方式,它采用單節點多線程方式運行,不用部署,開箱即用,適合日常測試開發。
# 啟動spark-shell
spark-shell --master local[2]
進入 spark-shell 后,程序已經自動創建好了上下文 SparkContext
,等效于執行了下面的 Scala 代碼:
val conf = new SparkConf().setAppName("Spark shell").setMaster("local[2]")
val sc = new SparkContext(conf)
安裝完成后可以先做一個簡單的詞頻統計例子,感受 spark 的魅力。準備一個詞頻統計的文件樣本 wc.txt
,內容如下:
hadoop,spark,hadoop
spark,flink,flink,spark
hadoop,hadoop
在 scala 交互式命令行中執行如下 Scala 語句:
val file = spark.sparkContext.textFile("file:///usr/app/wc.txt")
val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)
wordCounts.collect
執行過程如下,可以看到已經輸出了詞頻統計的結果:
同時還可以通過 Web UI 查看作業的執行情況,訪問端口為 4040
:
Spark 是基于 Scala 語言進行開發的,分別提供了基于 Scala、Java、Python 語言的 API,如果你想使用 Scala 語言進行開發,則需要搭建 Scala 語言的開發環境。
Scala 的運行依賴于 JDK,所以需要你本機有安裝對應版本的 JDK,最新的 Scala 2.12.x 需要 JDK 1.8+。
IDEA 默認不支持 Scala 語言的開發,需要通過插件進行擴展。打開 IDEA,依次點擊 File => settings=> plugins 選項卡,搜索 Scala 插件 (如下圖)。找到插件后進行安裝,并重啟 IDEA 使得安裝生效。
在 IDEA 中依次點擊 File => New => Project 選項卡,然后選擇創建 Scala—IDEA
工程:
此時看到 Scala SDK
為空,依次點擊 Create
=> Download
,選擇所需的版本后,點擊 OK
按鈕進行下載,下載完成點擊 Finish
進入工程。
方式一是 Scala 官方安裝指南里使用的方式,但下載速度通常比較慢,且這種安裝下并沒有直接提供 Scala 命令行工具。所以個人推薦到官網下載安裝包進行安裝,下載地址:https://www.scala-lang.org/download/
這里我的系統是 Windows,下載 msi 版本的安裝包后,一直點擊下一步進行安裝,安裝完成后會自動配置好環境變量。
由于安裝時已經自動配置好環境變量,所以 IDEA 會自動選擇對應版本的 SDK。
在工程 src
目錄上右擊 New => Scala class 創建 Hello.scala
。輸入代碼如下,完成后點擊運行按鈕,成功運行則代表搭建成功。
在日常的開發中,由于對應軟件(如 Spark)的版本切換,可能導致需要切換 Scala 的版本,則可以在 Project Structures
中的 Global Libraries
選項卡中進行切換。
在 IDEA 中有時候重新打開項目后,右擊并不會出現新建 scala
文件的選項,或者在編寫時沒有 Scala 語法提示,此時可以先刪除 Global Libraries
中配置好的 SDK,之后再重新添加:
另外在 IDEA 中以本地模式運行 Spark 項目是不需要在本機搭建 Spark 和 Hadoop 環境的。
更多大數據系列文章可以參見 GitHub 開源項目: 大數據入門指南
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。