91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Spark1.0.0 應用程序部署工具spark-submit怎么用

發布時間:2021-12-16 21:55:53 來源:億速云 閱讀:136 作者:柒染 欄目:云計算

這期內容當中小編將會給大家帶來有關Spark1.0.0 應用程序部署工具spark-submit怎么用,文章內容豐富且以專業的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。





   隨著Spark的應用越來越廣泛,對支持多資源管理器應用程序部署工具的需求也越來越迫切。Spark1.0.0的出現,這個問題得到了逐步改善。從 Spark1.0.0開始,Spark提供了一個容易上手的應用程序部署工具bin/spark-submit,可以完成Spark應用程序在 local、Standalone、YARN、Mesos上的快捷部署。

1:使用說明
      進入$SPARK_HOME目錄,輸入bin/spark-submit --help可以得到該命令的使用幫助。

  1. hadoop@wyy:/app/hadoop/spark100$ bin/spark-submit --help

  2. Usage: spark-submit [options] <app jar | python file> [app options]

復制代碼



Options:
  --master MASTER_URL         spark://host:port, mesos://host:port, yarn, or local.
  --deploy-mode DEPLOY_MODE   driver運行之處,client運行在本機,cluster運行在集群
  --class CLASS_NAME          應用程序包的要運行的class
  --name NAME                 應用程序名稱
  --jars JARS                 用逗號隔開的driver本地jar包列表以及executor類路徑
  --py-files PY_FILES         用逗號隔開的放置在Python應用程序PYTHONPATH上的.zip, .egg, .py文件列表
  --files FILES               用逗號隔開的要放置在每個executor工作目錄的文件列表
  --properties-file FILE      設置應用程序屬性的文件放置位置,默認是conf/spark-defaults.conf
  --driver-memory MEM         driver內存大小,默認512M
  --driver-java-options       driver的java選項
  --driver-library-path       driver的庫路徑Extra library path entries to pass to the driver
  --driver-class-path         driver的類路徑,用--jars 添加的jar包會自動包含在類路徑里
  --executor-memory MEM       executor內存大小,默認1G

Spark standalone with cluster deploy mode only:
  --driver-cores NUM          driver使用內核數,默認為1
  --supervise                 如果設置了該參數,driver失敗是會重啟

Spark standalone and Mesos only:
  --total-executor-cores NUM  executor使用的總核數

YARN-only:
  --executor-cores NUM        每個executor使用的內核數,默認為1
  --queue QUEUE_NAME          提交應用程序給哪個YARN的隊列,默認是default隊列
  --num-executors NUM         啟動的executor數量,默認是2個
  --archives ARCHIVES         被每個executor提取到工作目錄的檔案列表,用逗號隔開

     關于以上spark-submit的help信息,有幾點需要強調一下:
使用類似 --master spark://host:port --deploy-mode cluster會將driver提交給cluster,然后就將worker給kill的現象。
Spark1.0.0 應用程序部署工具spark-submit怎么用


如果要使用--properties-file的話,在--properties-file中定義的屬性就不必要在spark-sumbit中再定義了, 比如在conf/spark-defaults.conf 定義了spark.master,就可以不使用--master了。關于Spark屬性的優先權為:SparkConf方式 > 命令行參數方式 >文件配置方式,具體參見Spark1.0.0屬性配置。
和之前的版本不同,Spark1.0.0會將自身的jar包和--jars選項中的jar包自動傳給集群。
Spark使用下面幾種URI來處理文件的傳播:
file:// 使用file://和絕對路徑,是由driver的HTTP server來提供文件服務,各個executor從driver上拉回文件。
hdfs:, http:, https:, ftp: executor直接從URL拉回文件
local: executor本地本身存在的文件,不需要拉回;也可以是通過NFS網絡共享的文件。
如果需要查看配置選項是從哪里來的,可以用打開--verbose選項來生成更詳細的運行信息以做參考。


2:測試環境
測試程序來源于使用IntelliJ IDEA開發Spark1.0.0應用程序,將測試其中的WordCount1和WordCount2這兩個Class。
測試數據來源于搜狗的用戶查詢日志(SogouQ),詳見Spark1.0.0 開發環境快速搭建,雖然用這個數據集測試不是很理想,但由于其完整版足夠大,可以分割其中部分數據進行測試,在加上其他例程需要使用,將就采用了這個數據 集。實驗中分別截取100000行(SogouQ1.txt)和200000行(SogouQ2.txt)做實驗。


3:準備工作
A:集群
切換到用戶hadoop啟動Spark1.0.0 開發環境快速搭建中搭建的虛擬集群

  1. [hadoop@hadoop1 ~]$ su - hadoop

  2. [hadoop@hadoop1 ~]$ cd /app/hadoop/hadoop220

  3. [hadoop@hadoop1 hadoop220]$ sbin/start-all.sh

  4. [hadoop@hadoop1 hadoop220]$ cd ../spark100/

  5. [hadoop@hadoop1 spark100]$ sbin/start-all.sh

復制代碼


B:客戶端
在客戶端切換到用戶hadoop并切換到/app/hadoop/spark100目錄,將實驗數據上傳hadoop集群,然后將使用IntelliJ IDEA開發Spark1.0.0應用程序生成的程序包復制過來。

  1. mmicky@wyy:~/data$ su - hadoop

  2. hadoop@wyy:~$ cd /app/hadoop/hadoop220

  3. hadoop@wyy:/app/hadoop/hadoop220$ bin/hdfs dfs -mkdir -p /dataguru/data

  4. hadoop@wyy:/app/hadoop/hadoop220$ bin/hdfs dfs -put /home/mmicky/data/SogouQ1.txt /dataguru/data/

  5. hadoop@wyy:/app/hadoop/hadoop220$ bin/hdfs dfs -put /home/mmicky/data/SogouQ2.txt /dataguru/data/

復制代碼


檢查SogouQ1.txt的塊分布

  1. hadoop@wyy:/app/hadoop/hadoop220$ bin/hdfs fsck /dataguru/data/SogouQ1.txt -files -blocks -locations -racks

  2. Connecting to namenode via http://hadoop1:50070

  3. FSCK started by hadoop (auth:SIMPLE) from /192.168.1.111 for path /dataguru/data/SogouQ1.txt at Sat Jun 14 03:47:39 CST 2014

  4. /dataguru/data/SogouQ1.txt 108750574 bytes, 1 block(s):  OK

  5. 0. BP-1801429707-192.168.1.171-1400957381096:blk_1073741835_1011 len=108750574 repl=1 [/default-rack/192.168.1.171:50010]

復制代碼


檢查SogouQ2.txt的塊分布

  1. hadoop@wyy:/app/hadoop/hadoop220$ bin/hdfs fsck /dataguru/data/SogouQ2.txt -files -blocks -locations -racks

  2. Connecting to namenode via http://hadoop1:50070

  3. FSCK started by hadoop (auth:SIMPLE) from /192.168.1.111 for path /dataguru/data/SogouQ2.txt at Sat Jun 14 03:48:07 CST 2014

  4. /dataguru/data/SogouQ2.txt 217441417 bytes, 2 block(s):  OK

  5. 0. BP-1801429707-192.168.1.171-1400957381096:blk_1073741836_1012 len=134217728 repl=1 [/default-rack/192.168.1.173:50010]

  6. 1. BP-1801429707-192.168.1.171-1400957381096:blk_1073741837_1013 len=83223689 repl=1 [/default-rack/192.168.1.172:50010]

復制代碼


切換到spark目錄并復制程序包

  1. hadoop@wyy:/app/hadoop/hadoop220$ cd ../spark100

  2. hadoop@wyy:/app/hadoop/spark100$ cp /home/mmicky/IdeaProjects/week2/out/artifacts/week2/week2.jar .

復制代碼



4:實驗
下面給出了幾種實驗CASE的命令,具體的運行架構會抽取幾個例子在Spark1.0.0 on Standalone 運行架構實例解析說明。
Spark1.0.0 應用程序部署工具spark-submit怎么用


在使用spark-submit提交spark應用程序的時候,需要注意以下幾點:
集群外的客戶機向Spark Standalone部署Spark應用程序時,要注意事先實現該客戶機和Spark Standalone之間的SSH無密碼登錄。
向YARN部署spark應用程序的時候,注意executor-memory的大小,其內存加上container要使用的內存(默認值是1G)不要超過NM可用內存,不然分配不到container來運行executor。

上述就是小編為大家分享的Spark1.0.0 應用程序部署工具spark-submit怎么用了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

阿瓦提县| 宝鸡市| 九江县| 榆社县| 安阳县| 德阳市| 涪陵区| 沈丘县| 大同县| 舒兰市| 克拉玛依市| 南昌县| 淮南市| 栾城县| 商河县| 同江市| 泾阳县| 南皮县| 山阴县| 南华县| 万安县| 疏附县| 南丰县| 永靖县| 乐清市| 象山县| 会东县| 汾阳市| 浮梁县| 长海县| 普兰店市| 福海县| 克什克腾旗| 岑溪市| 高邮市| 石嘴山市| 上蔡县| 内丘县| 鄂托克旗| 吉林市| 神木县|