您好,登錄后才能下訂單哦!
此操作目的是為了制作自己的數據集,深度學習框架進行數據準備,此操作步驟包括對文件夾進行操作,將兩個文件夾合并至另一個文件夾
該實例為一個煤礦工人臉識別的案例;首先原始數據集(簡化版的數據集旨在說明數據準備過程)如下圖所示:
該數據集只有三個人的數據,A01代表工人甲的煤礦下的照片,B01代表工人甲下礦前的照片,同理A02、B02代表工人乙的礦下、礦上的照片數據。。。
如下圖所示
礦下
礦上
開始制作數據集:
首先建立訓練集(0.7)和測試集(0.3),即建立一個空白文件夾
將該文件夾分為四個小文件夾(空),train代表訓練集,val代表測試集,valb代表礦井下的測試集,vall代表礦井上的測試集,注:后邊兩個測試集可有可無
最終制作的數據集如下所示:
下面為所有的程序詳解
#導入一些進行該操作需要的庫 import numpy as np import os import random import shutil path=r'C:\Users\Administrator.SKY-20180518VHY\Desktop\rx\ore'#原始數據集的路徑 data=os.listdir(path) #listdir該操作([添加鏈接描述](https://www.jb51.net/article/184106.htm))在我的上篇文章中有所介紹,此操作能讀取的內容為A01、A02、A03、B01、B02、B03這些文件夾 #print(data) root=path#復制原始數據路徑path
讀取文件夾 A01、A02、A03、存入c列表中B01、B02、B03,將其存入d列表中
c=[] d=[]#創建兩個空列表 for i in range(len(data)): a=data[i][0] if (a=='A'): c.append(data[i]) else: d.append(data[i]) #print(d)
導入路徑四個空文件夾的路徑
train_root='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\train' val_root='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\val' vall_root='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\valb' valb_root='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\vall' for i in range(len(c)): qqq=os.path.exists(train_root+'/'+c[i][1:]) if (not qqq): os.mkdir(train_root+'/'+c[i][1:]) qq=os.path.exists(val_root+'/'+c[i][1:]) if (not qq): os.mkdir(val_root+'/'+c[i][1:]) qq=os.path.exists(vall_root+'/'+c[i][1:]) if (not qq): os.mkdir(vall_root+'/'+c[i][1:]) qq=os.path.exists(valb_root+'/'+c[i][1:]) if (not qq): os.mkdir(valb_root+'/'+c[i][1:]) #f=[] #g=[] aq='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\rx\\ore\\' train_root1='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\train\\' val_root1='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\val\\' vall_root1='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\valb\\' valb_root1='C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\myself\\vall\\' for i in range(len(c)): a=c[i] data_0=os.listdir(aq+a) # f.append(data_0) # g.append(aq+a) #print(f) #print(g) random.shuffle(data_0)#打亂A中數據 for j in range(len(d)): b=d[j] if(a[1:]==b[1:]): data_1=os.listdir(aq+b) #print(aq+b); random.shuffle(data_1) #print(data_1) #print(data_0,data_1) for z in range(len(data_0)): #print(z) pic_path=aq+a+'/'+data_0[z] if z<int(len(data_0)*0.7): obj_path=train_root1+a[1:]+'/'+data_0[z] else: obj_path=val_root1+a[1:]+'/'+data_0[z] obl_path=vall_root1+a[1:]+'/'+data_0[z] shutil.copyfile(pic_path,obl_path) #print(len(data_0),len(data_0)*0.7) #if (os.path.exists(pic_path)): shutil.copyfile(pic_path,obj_path) for z in range(len(data_1)): pic_path=aq+b+'/'+data_1[z] if z<int(len(data_1)*0.7): obj_path=train_root1+b[1:]+'/'+data_1[z] else: obj_path=val_root1+b[1:]+'/'+data_1[z] obl_path=valb_root1+a[1:]+'/'+data_1[z] shutil.copyfile(pic_path,obl_path) #if (os.path.exists(pic_path)): shutil.copyfile(pic_path,obj_path)#shutil.copyfile( src, dst)
從源src復制到dst中去。當然前提是目標地址是具備可寫權限。拋出的異常信息為IOException. 如果當前的dst已存在的話就會被覆蓋掉
將數據送入pytorch中,對數據進行迭代
from __future__ import print_function, division import torch import torch.nn as nn import torch.optim as optim from torch.optim import lr_scheduler import numpy as np import torchvision from torchvision import datasets, models, transforms import matplotlib.pyplot as plt import time import os import copy import math import torch.nn.functional as F D=299 data_transforms = { 'train': transforms.Compose([ # transforms.RandomResizedCrop(D), transforms.Resize(D), transforms.RandomCrop(D), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]), 'val': transforms.Compose([ transforms.Resize(D), transforms.CenterCrop(D), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]), } data_dir = r'C:\Users\Administrator.SKY-20180518VHY\Desktop\myself' image_datasets = {x: datasets.ImageFolder(os.path.join(data_dir, x), data_transforms[x]) for x in ['train', 'val']} dataloaders = {x: torch.utils.data.DataLoader(image_datasets[x], batch_size=200, shuffle=True, num_workers=4) for x in ['train', 'val']} dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'val']} class_names = image_datasets['train'].classes device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") #print(image_datasets['train'][0]) img, label = image_datasets['val'][11] print(label)#輸出為2即第三類
以上這篇python實現將兩個文件夾合并至另一個文件夾(制作數據集)就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持億速云。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。