您好,登錄后才能下訂單哦!
這篇文章主要介紹“什么是卷積神經網絡LeNet”,在日常操作中,相信很多人在什么是卷積神經網絡LeNet問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”什么是卷積神經網絡LeNet”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
LeNet
模型訓練
在本節中,我們將介紹LeNet,它是最早發布的卷積神經網絡之一。這個模型是由AT&T貝爾實驗室的研究院Yann LeCun在1989年提出的(并以其命名),目的是識別手寫數字。當時,LeNet取得了與支持向量機性能相媲美的成果,成為監督學習的主流方法。LeNet被廣泛用于自動取款機中,幫助識別處理支票的數字。
總體來看,LeNet(LeNet-5)由兩個部分組成:
卷積編碼器: 由兩個卷積層組成
全連接層密集快: 由三個全連接層組成
每個卷積塊中的基本單元是一個卷積層、一個sigmoid激活函數和平均池化層。這里,雖然ReLU和最大池化層更有效,但它們在20世紀90年代還沒有出現。每個卷積層使用 5 × 5 5\times5 5×5卷積核和一個sigmoid激活函數。這些層將輸入映射到多個二維特征輸出,通常同時增加通道的數量。第一卷積層有6個輸出通道,而第二個卷積層有16個輸出通道。每個 2 × 2 2\times2 2×2池操作通過空間下采樣將維數減少4倍。
為了將卷積塊中的輸出傳遞給稠密塊,我們必須在小批量中戰平每個樣本。LeNet的稠密快有三個全連接層,分別有120、84和10個輸出。因為我們仍在執行分類,所以輸出層的10維對應于最后輸出結果的數量。
通過下面的LeNet代碼,我們會相信深度學習框架實現此類模型非常簡單。我們只需要實例化一個Sequential塊并將需要的層連接在一起。
import torch from torch import nn from d2l import torch as d2l class Reshape(torch.nn.Module): def forward(self, x): return x.view(-1, 1, 28, 28) net = torch.nn.Sequential( Reshape(), nn.Conv2d(1, 6, kernel_size=5, padding=2), nn.Sigmoid(), nn.AvgPool2d(kernel_size=2, stride=2), nn.Conv2d(6, 16, kernel_size=5), nn.Sigmoid(), nn.AvgPool2d(kernel_size=2, stride=2), nn.Flatten(), nn.Linear(16 * 5 * 5, 120), nn.Sigmoid(), nn.Linear(120, 84), nn.Sigmoid(), nn.Linear(84, 10) )
我們對原始模型做了一點小改動,去掉了最后一層的高斯激活。除此之外,這個網絡與最初的LeNet-5一致。下面,我們將一個大小為 28 × 28 28\times28 28×28的單通道(黑白)圖像通過LeNet。通過在每一層打印輸出的形狀,我們可以檢查模型,以確保其操作與我們期望的下圖一致。
X = torch.rand(size=(1, 1, 28, 28), dtype=torch.float32) for layer in net: X = layer(X) print(layer.__class__.__name__, 'output shape: \t', X.shape)
Reshape output shape: torch.Size([1, 1, 28, 28]) Conv2d output shape: torch.Size([1, 6, 28, 28]) Sigmoid output shape: torch.Size([1, 6, 28, 28]) AvgPool2d output shape: torch.Size([1, 6, 14, 14]) Conv2d output shape: torch.Size([1, 16, 10, 10]) Sigmoid output shape: torch.Size([1, 16, 10, 10]) AvgPool2d output shape: torch.Size([1, 16, 5, 5]) Flatten output shape: torch.Size([1, 400]) Linear output shape: torch.Size([1, 120]) Sigmoid output shape: torch.Size([1, 120]) Linear output shape: torch.Size([1, 84]) Sigmoid output shape: torch.Size([1, 84]) Linear output shape: torch.Size([1, 10])
請注意,在整個卷積塊中,與上一層相比,每一層特征的高度和寬度都減小了。第一個卷積層使用2個像素的填充,來補償 5 × 5 卷積核導致的特征減少。相反,第二個卷積層沒有填充,因此高度和寬度都減少了4個像素。隨著層疊的上升,通道的數量從輸入時的1個,增加到第一個卷積層之后的6個,再到第二個卷積層之后的16個。同時,每個匯聚層的高度和寬度都減半。最后,每個全連接層減少維度,最終輸出一個維數與結果分類數相匹配的輸出。
現在我們已經實現了LeNet,讓我們看看LeNet在Fashion-MNIST數據集上的表現。
batch_size = 256 train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size = batch_size)
雖然卷積神經網絡的參數較少,但與深度的多層感知機相比,它們的計算成本仍然很高,因為每個參數都參與更多的乘法。
如果我們有機會使用GPU,可以用它加快訓練。
到此,關于“什么是卷積神經網絡LeNet”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。