您好,登錄后才能下訂單哦!
這篇文章主要介紹pytorch如何實現對輸入超過三通道的數據進行訓練,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
案例背景:視頻識別
假設每次輸入是8s的灰度視頻,視頻幀率為25fps,則視頻由200幀圖像序列構成.每幀是一副單通道的灰度圖像,通過pythonb里面的np.stack(深度拼接)可將200幀拼接成200通道的深度數據.進而送到網絡里面去訓練.
如果輸入圖像200通道覺得多,可以對視頻進行抽幀,針對具體場景可以隨機抽幀或等間隔抽幀.比如這里等間隔抽取40幀.則最后輸入視頻相當于輸入一個40通道的圖像數據了.
pytorch對超過三通道數據的加載:
讀取視頻每一幀,轉為array格式,然后依次將每一幀進行深度拼接,最后得到一個40通道的array格式的深度數據,保存到pickle里.
對每個視頻都進行上述操作,保存到pickle里.
我這里將火的視頻深度數據保存在一個.pkl文件中,一共2504個火的視頻,即2504個火的深度數據.
將非火的視頻深度數據保存在一個.pkl文件中,一共3985個非火的視頻,即3985個非火的深度數據.
數據加載
import torch from torch.utils import data import os from PIL import Image import numpy as np import pickle class Fire_Unfire(data.Dataset): def __init__(self,fire_path,unfire_path): self.pickle_fire = open(fire_path,'rb') self.pickle_unfire = open(unfire_path,'rb') def __getitem__(self,index): if index <2504: fire = pickle.load(self.pickle_fire)#高*寬*通道 fire = fire.transpose(2,0,1)#通道*高*寬 data = torch.from_numpy(fire) label = 1 return data,label elif index>=2504 and index<6489: unfire = pickle.load(self.pickle_unfire) unfire = unfire.transpose(2,0,1) data = torch.from_numpy(unfire) label = 0 return data,label def __len__(self): return 6489
root_path = './datasets/train' dataset = Fire_Unfire(root_path +'/fire_train.pkl',root_path +'/unfire_train.pkl') #轉換成pytorch網絡輸入的格式(批量大小,通道數,高,寬) from torch.utils.data import DataLoader fire_dataloader = DataLoader(dataset,batch_size=4,shuffle=True,drop_last = True)
模型訓練
import torch from torch.utils import data from nets.mobilenet import mobilenet from config.config import default_config from torch.autograd import Variable as V import numpy as np import sys import time opt = default_config() def train(): #模型定義 model = mobilenet().cuda() if opt.pretrain_model: model.load_state_dict(torch.load(opt.pretrain_model)) #損失函數 criterion = torch.nn.CrossEntropyLoss().cuda() #學習率 lr = opt.lr #優化器 optimizer = torch.optim.SGD(model.parameters(),lr = lr,weight_decay=opt.weight_decay) pre_loss = 0.0 #訓練 for epoch in range(opt.max_epoch): #訓練數據 train_data = Fire_Unfire(opt.root_path +'/fire_train.pkl',opt.root_path +'/unfire_train.pkl') train_dataloader = data.DataLoader(train_data,batch_size=opt.batch_size,shuffle=True,drop_last = True) loss_sum = 0.0 for i,(datas,labels) in enumerate(train_dataloader): #print(i,datas.size(),labels) #梯度清零 optimizer.zero_grad() #輸入 input = V(datas.cuda()).float() #目標 target = V(labels.cuda()).long() #輸出 score = model(input).cuda() #損失 loss = criterion(score,target) loss_sum += loss #反向傳播 loss.backward() #梯度更新 optimizer.step() print('{}{}{}{}{}'.format('epoch:',epoch,',','loss:',loss)) torch.save(model.state_dict(),'models/mobilenet_%d.pth'%(epoch+370))
RuntimeError: Expected object of scalar type Long but got scalar type Float for argument #2 'target'
解決方案:target = target.long()
1.PyTorch是相當簡潔且高效快速的框架;2.設計追求最少的封裝;3.設計符合人類思維,它讓用戶盡可能地專注于實現自己的想法;4.與google的Tensorflow類似,FAIR的支持足以確保PyTorch獲得持續的開發更新;5.PyTorch作者親自維護的論壇 供用戶交流和求教問題6.入門簡單
以上是“pytorch如何實現對輸入超過三通道的數據進行訓練”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。