您好,登錄后才能下訂單哦!
這篇文章主要介紹Pandas怎么讀取大文件,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
如何利用read_csv函數讀取沒有表頭的文件
get_chunk()方法來分塊讀取數據
concat()方法將數據庫進行疊加(垂直方向)
若數據量過大,采取隨機抽放(是否放回)
<!--MORE-->
filepath = open("taobao.csv",errors="ignore") # 指定文件路徑 reader = pd.read_csv(filepath, header=None, names=["user_id","item_id","cat_id","type","time"], # 指定列屬性名稱 iterator=True) # loop,chunkSize,chunks = True, 10000000, [] # 連續賦值語句 loop = True chunkSize = 10000000 chunks = [] while loop: # loop一直為True,執行循環 try: chunk = reader.get_chunk(chunkSize) chunks.append(chunk) except StopIteration: loop = False print("Iteration is stopped.") # 如果考慮數據量過大,只抽取部分的數據來進行分析,采取不放回抽樣的方式 # pd.concat(chunks, ignore_index=True).sample(frac=0.05, replace=False) 不放回抽樣、記錄不重復 df = pd.concat(chunks, ignore_index=True)
以上是“Pandas怎么讀取大文件”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。