在Python中讀取HDFS上的文件可以使用pyarrow
庫。pyarrow
是一個Apache Arrow的Python接口,可以用來讀寫HDFS上的文件。
以下是一個示例代碼,演示如何使用pyarrow
庫讀取HDFS上的Parquet文件:
import pyarrow as pa
import pyarrow.parquet as pq
# 創建HDFS連接
fs = pa.hdfs.connect()
# 指定HDFS上的Parquet文件路徑
file_path = 'hdfs://<namenode>:<port>/path/to/parquet/file.parquet'
# 讀取Parquet文件
table = pq.read_table(file_path, filesystem=fs)
# 將table轉換為Pandas DataFrame
df = table.to_pandas()
# 打印DataFrame
print(df)
需要注意的是,在代碼中需要替換<namenode>
和<port>
為實際的HDFS Namenode地址和端口號,以及替換/path/to/parquet/file.parquet
為實際的Parquet文件路徑。
通過以上代碼,您可以讀取HDFS上的Parquet文件并將其轉換為Pandas DataFrame進行進一步處理。