91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python中有沒有spark庫

發布時間:2020-11-13 14:20:10 來源:億速云 閱讀:134 作者:小新 欄目:編程語言

這篇文章給大家分享的是有關python中有沒有spark庫的內容。小編覺得挺實用的,因此分享給大家做個參考。一起跟隨小編過來看看吧。

從這個名字pyspark就可以看出來,它是由python和spark組合使用的.

相信你此時已經電腦上已經裝載了hadoop,spark,python3.

Spark提供了一個Python_Shell,即pyspark,從而可以以交互的方式使用Python編寫Spark程序。

pyspark里最核心的模塊是SparkContext(簡稱sc),最重要的數據載體是RDD。RDD就像一個NumPy array或者一個Pandas Series,可以視作一個有序的item集合。只不過這些item并不存在driver端的內存里,而是被分割成很多個partitions,每個partition的數據存在集群的executor的內存中。

引入Python中pyspark工作模塊

import pyspark
from pyspark import SparkContext as sc
from pyspark import SparkConf
conf=SparkConf().setAppName("miniProject").setMaster("local[*]")
sc=SparkContext.getOrCreate(conf)
#任何Spark程序都是SparkContext開始的,SparkContext的初始化需要一個SparkConf對象,SparkConf包含了Spark集群配置的各種參數(比如主節點的URL)。初始化后,就可以使用SparkContext對象所包含的各種方法來創建和操作RDD和共享變量。Spark shell會自動初始化一個SparkContext(在Scala和Python下可以,但不支持Java)。
#getOrCreate表明可以視情況新建session或利用已有的session

SparkSession是Spark 2.0引入的新概念。

SparkSession為用戶提供了統一的切入點,來讓用戶學習spark的各項功能。 在spark的早期版本中,SparkContext是spark的主要切入點,由于RDD是主要的API,我們通過sparkcontext來創建和操作RDD。對于每個其他的API,我們需要使用不同的context。

例如,對于Streming,我們需要使用StreamingContext;對于sql,使用sqlContext;對于hive,使用hiveContext。但是隨著DataSet和DataFrame的API逐漸成為標準的API,就需要為他們建立接入點。所以在spark2.0中,引入SparkSession作為DataSet和DataFrame API的切入點。

SparkSession實質上是SQLContext和HiveContext的組合(未來可能還會加上StreamingContext),所以在SQLContext和HiveContext上可用的API在SparkSession上同樣是可以使用的。SparkSession內部封裝了SparkContext,所以計算實際上是由SparkContext完成的。

感謝各位的閱讀!關于python中有沒有spark庫就分享到這里了,希望以上內容可以對大家有一定的幫助,讓大家可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

永德县| 炉霍县| 林西县| 大宁县| 托里县| 错那县| 合川市| 云阳县| 武隆县| 阿拉尔市| 宜君县| 灵璧县| 宾川县| 台湾省| 阿尔山市| 临澧县| 确山县| 兰考县| 巢湖市| 沂水县| 进贤县| 蓬溪县| 丹江口市| 泸水县| 于田县| 南江县| 肃北| 美姑县| 武邑县| 沈阳市| 且末县| 隆安县| 和顺县| 洛川县| 通州市| 老河口市| 简阳市| 峨边| 郁南县| 黔西县| 玉龙|