您好,登錄后才能下訂單哦!
這篇文章主要講解了將PySpark導入Python的方法,內容清晰明了,對此有興趣的小伙伴可以學習一下,相信大家閱讀完之后會有幫助。
方法一
使用findspark
使用pip安裝findspark:
pip install findspark
在py文件中引入findspark:
>>> import findspark >>> findspark.init()
導入你要使用的pyspark庫
>>> from pyspark import *
優點:簡單快捷
缺點:治標不治本,每次寫一個新的Application都要加載一遍findspark
方法二
把預編譯包中的Python庫文件添加到Python的環境變量中
export SPARK_HOME=你的PySpark目錄 export PYTHONPATH=$SPARK_HOME/libexec/python:$SPARK_HOME/libexec/python/build:$PYTHONPATH
優點:一勞永逸
缺點:對于小白可能不太了解環境變量是什么
問題1、ImportError: No module named pyspark
現象:
參照上面解決
問題2、ImportError: No module named ‘py4j'
現象:
已經安裝配置好了PySpark,可以打開PySpark交互式界面;
按照上面的b方式配置后出現該問題。
解決方法:
把py4j添加到Python的環境變量中
export PYTHONPATH= $SPARK_HOME/python/lib/py4j-x.xx-src.zip:$PYTHONPATH
注意:這里的py4j-x.xx-src.zip根據自己電腦上的py4j版本決定。
測試成功的環境
看完上述內容,是不是對將PySpark導入Python的方法有進一步的了解,如果還想學習更多內容,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。