您好,登錄后才能下訂單哦!
這篇文章主要介紹“怎么將一個CSV格式的文件分割成兩個CSV文件”的相關知識,小編通過實際案例向大家展示操作過程,操作方法簡單快捷,實用性強,希望這篇“怎么將一個CSV格式的文件分割成兩個CSV文件”文章能幫助大家解決問題。
本項目可以按照比例將一個csv文件分割成兩個csv文件,效果是:在C:\algo_file文件夾下,將該文件夾下的data.csv文件分成train.csv和vali.csv
完整代碼:
import csv import os def split_csv(path, total_len, per): # 如果train.csv和vali.csv存在就刪除 if os.path.exists('C:\\algo_file\\train.csv'): os.remove('C:\\algo_file\\train.csv') if os.path.exists('C:\\algo_file\\vali.csv'): os.remove('C:\\algo_file\\vali.csv') with open(path, 'r', newline='') as file: csvreader = csv.reader(file) i = 0 for row in csvreader: if i < round(total_len * per/100): # train.csv存放路徑 csv_path = os.path.join("C:\\algo_file", 'train.csv') print(csv_path) # 不存在此文件的時候,就創建 if not os.path.exists(csv_path): with open(csv_path, 'w', newline='') as file: csvwriter = csv.writer(file) csvwriter.writerow(row) i += 1 # 存在的時候就往里面添加 else: with open(csv_path, 'a', newline='') as file: csvwriter = csv.writer(file) csvwriter.writerow(row) i += 1 elif (i >= round(total_len * per/100)) and (i < total_len): # vali.csv存放路徑 csv_path = os.path.join("C:\\algo_file", 'vali.csv') print(csv_path) # 不存在此文件的時候,就創建 if not os.path.exists(csv_path): with open(csv_path, 'w', newline='') as file: csvwriter = csv.writer(file) csvwriter.writerow(row) i += 1 # 存在的時候就往里面添加 else: with open(csv_path, 'a', newline='') as file: csvwriter = csv.writer(file) csvwriter.writerow(row) i += 1 else: break print("訓練集和驗證集分離成功") return
if __name__ == '__main__': path = 'C:\\algo_file\\data.csv' total_len = len(open(path, 'r').readlines())# csv文件行數 per = 80 # 分割比例% split_csv(path, total_len, per)
按照訓練集占80%(驗證集20%)比例,對C:\algo_file文件夾下的data.csv進行分割,在該文件下得到train.csv 和 vali.csv。
最后
本項目只是以C:\algo_file文件夾為例,實際上data.csv所在路徑,train.csv所在路徑,vali.csv所在路徑包括文件名都可以更改。
項目中有一個數據文件數量龐大,一個文件中按照年月日分成幾十萬條數據,想試試能不能用python把它簡單切割一下,按照日期分類切成小的csv文件。
于是在網上找了很多資料,結合自己的一些修改,整理了一下,方便以后再用。
1、讀取文件
2、找出需要分類的列
3、將此列中重復的內容刪除,每類剩余一條
4、把該列所有符合某一類的內容存入一個csv文件中
import pandas as pd # 讀取文件數據 df=pd.read_csv('D:\\接收的文件\\lqf.csv', sep=',',engine='python',header=[0]) # 列csv文件中所有列 df.columns = ['year', 'date', 'statefips', 'countyfips', 'ctfips', 'latitude', 'longitude', 'DS_PM_pred', 'DS_PM_stdd'] # 刪除date列中的重復項,也就是說剩下的date都是已經分好的類別 date_cate = df.drop_duplicates(subset=['date']) print(date_cate.date) print(range(len(date_cate))) # date中的所有類,也就是文件數 for name in date_cate.date: print(name) # 當date為某一個類時,存入一個小的csv文件中,文件名為類名 df[df.date == name].to_csv("D:\\接收的文件\\data\\"+u"%s" %name+".csv")
header=[0] #代表第一行為表頭不計入其中,可根據表格修改。
!!!!!!(2)!!!!!!遍歷文件夾中所有的文件然后進行切割,沒啥用,自己做個存檔而已 ↓↓↓↓↓
import pandas as pd import os j = 347 for info in os.listdir('D:\\接收的文件\year_02'): domain = os.path.abspath(r'D:\\接收的文件\year_02') # 獲取文件夾的路徑 info = os.path.join(domain, info) # 將路徑與文件名結合起來就是每個文件的完整路徑 # 讀取文件數據 df = pd.read_csv(info, sep=',', engine='python', header=[0]) # 列csv文件中所有列 df.columns = ['year', 'date', 'statefips', 'countyfips', 'ctfips', 'latitude', 'longitude', 'DS_PM_pred', 'DS_PM_stdd'] grouped = df.groupby('date') # delete duplicated data ind_frame = df.drop_duplicates(subset=['date']) # print(ind_frame.date) # print(range(len(ind_frame))) for name in ind_frame.date: # print(name) j += 1 print("已經掃描到第" + '{}'.format(j)+'個文件') df[df.date == name].to_csv("D:\\接收的文件\\data2\\" + u"%s" %name+".csv")
關于“怎么將一個CSV格式的文件分割成兩個CSV文件”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識,可以關注億速云行業資訊頻道,小編每天都會為大家更新不同的知識點。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。