如何使用Pandas分塊處理大文件

發布時間：2021-11-30 15:00:50 來源：億速云閱讀：408 作者：小新欄目：大數據

這篇文章給大家分享的是有關如何使用Pandas分塊處理大文件的內容。小編覺得挺實用的，因此分享給大家做個參考，一起跟隨小編過來看看吧。

使用Pandas分塊處理大文件

問題：今天在處理快手的用戶數據時，遇到了一個差不多600M的txt文本，用sublime打開都蹦了，我用pandas.read_table()去讀，差不多花了近2分鐘，最后打開發現差不多3千萬行數據。這僅僅是打開，如果要處理不知得多費勁。

如何使用Pandas分塊處理大文件

解決：我翻了一下文檔，這一類讀取文件的函數有兩個參數：chunksize、iterator

原理就是不一次性把文件數據讀入內存中，而是分多次。

1、指定chunksize分塊讀取文件

read_csv 和 read_table 有一個 chunksize 參數，用以指定一個塊大小(每次讀取多少行)，返回一個可迭代的 TextFileReader 對象。

table=pd.read_table(path+'kuaishou.txt',sep='\t',chunksize=1000000) for df in table:     對df處理     #如df.drop(columns=['page','video_id'],axis=1,inplace=True)     #print(type(df),df.shape)打印看一下信息12345

我這里又對文件進行了劃分，分成若干個子文件分別處理(沒錯，to_csv也同樣有chunksize參數)

2、指定iterator=True

iterator=True同樣返回的是TextFileReader對象

reader = pd.read_table('tmp.sv', sep='\t', iterator=True) df=reader.get_chunk(10000) #通過get_chunk(size)，返回一個size行的塊 #接著同樣可以對df處理

感謝各位的閱讀！關于“如何使用Pandas分塊處理大文件”這篇文章就分享到這里了，希望以上內容可以對大家有一定的幫助，讓大家可以學到更多知識，如果覺得文章不錯，可以把它分享出去讓更多的人看到吧！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

如何使用Pandas分塊處理大文件

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

如何使用Pandas分塊處理大文件

猜你喜歡

最新資訊

相關推薦

相關標簽