91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

用代碼分析python如何讀取hdfs并返回dataframe

發布時間:2020-07-18 10:31:43 來源:億速云 閱讀:1059 作者:小豬 欄目:開發技術

這篇文章主要用代碼分析python如何讀取hdfs并返回dataframe,內容清晰明了,對此有興趣的小伙伴可以學習一下,相信大家閱讀完之后會有幫助。

不多說,直接上代碼

from hdfs import Client
import pandas as pd
 
HDFSHOST = "http://xxx:50070"
FILENAME = "/tmp/preprocess/part-00000" #hdfs文件路徑
COLUMNNAMES = [xx']
 
def readHDFS():
'''
讀取hdfs文件
 
Returns:
df:dataframe hdfs數據
'''
client = Client(HDFSHOST)
# 目前讀取hdfs文件采用方式:
# 1. 先從hdfs讀取二進制數據流文件
# 2. 將二進制文件另存為.csv
# 3. 使用pandas讀取csv文件
with client.read(FILENAME) as fs:
content = fs.read()
s = str(content, 'utf-8')
file = open("data/tmp/data.csv", "w")
file.write(s)
df = pd.read_csv("data/tmp/data.csv", names=COLUMNNAMES)
return df

補充知識:Python連接HDFS實現文件上傳下載及Pandas轉換文本文件到CSV

1. 目標

通過hadoop hive或spark等數據計算框架完成數據清洗后的數據在HDFS上

爬蟲和機器學習在Python中容易實現

在Linux環境下編寫Python沒有pyCharm便利

需要建立Python與HDFS的讀寫通道

2. 實現

安裝Python模塊pyhdfs

版本:Python3.6, hadoop 2.9

讀文件代碼如下

from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070')#hdfs地址
res=client.open('/sy.txt')#hdfs文件路徑,根目錄/
for r in res:
  line=str(r,encoding='utf8')#open后是二進制,str()轉換為字符串并轉碼
  print(line)

寫文件代碼如下

from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070',user_name='hadoop')#只有hadoop用戶擁有寫權限
str='hello world'
client.create('/py.txt',str)#創建新文件并寫入字符串

上傳本地文件到HDFS

from pyhdfs import HdfsClient
client = HdfsClient(hosts='ghym:50070', user_name='hadoop')
client.copy_from_local('d:/pydemo.txt', '/pydemo')#本地文件絕對路徑,HDFS目錄必須不存在

3. 讀取文本文件寫入csv

Python安裝pandas模塊

確認文本文件的分隔符

# pyhdfs讀取文本文件,分隔符為逗號,
from pyhdfs import HdfsClient
client = HdfsClient(hosts='ghym:50070', user_name='hadoop')
inputfile=client.open('/int.txt')
# pandas調用讀取方法read_table
import pandas as pd
df=pd.read_table(inputfile,encoding='gbk',sep=',')#參數為源文件,編碼,分隔符
# 數據集to_csv方法轉換為csv
df.to_csv('demo.csv',encoding='gbk',index=None)#參數為目標文件,編碼,是否要索引

看完上述內容,是不是對用代碼分析python如何讀取hdfs并返回dataframe有進一步的了解,如果還想學習更多內容,歡迎關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

夏津县| 寿宁县| 邵阳县| 工布江达县| 聂拉木县| 浦东新区| 大丰市| 海阳市| 五常市| 中江县| 池州市| 威宁| 长垣县| 商都县| 沙湾县| 萝北县| 永福县| 城步| 武邑县| 郧西县| 蒲江县| 通渭县| 玛曲县| 山西省| 吐鲁番市| 阳原县| 多伦县| 鸡西市| 和林格尔县| 青阳县| 南宫市| 精河县| 平南县| 福清市| 两当县| 通海县| 颍上县| 鄯善县| 拜泉县| 万盛区| 饶阳县|