使用TensorFlow 來實現一個簡單的驗證碼識別過程

發布時間：2020-07-28 22:43:01 來源：網絡閱讀：5626 作者：MobService 欄目：大數據

本文我們來用 TensorFlow 來實現一個深度學習模型，用來實現驗證碼識別的過程，這里識別的驗證碼是圖形驗證碼，首先我們會用標注好的數據來訓練一個模型，然后再用模型來實現這個驗證碼的識別。

1.驗證碼準備

這里我們使用 python 的 captcha 庫來生成即可，這個庫默認是沒有安裝的，所以這里我們需要先安裝這個庫，另外我們還需要安裝 pillow 庫

使用TensorFlow 來實現一個簡單的驗證碼識別過程 cdn.xitu.io/2019/5/27/16af775b82262772?imageView2/0/w/1280/h/960/format/webp/ignore-error/1">

安裝好之后，我們就可以用如下代碼來生成一個簡單的圖形驗證碼

使用TensorFlow 來實現一個簡單的驗證碼識別過程

可以看到圖中的文字正是我們所定義的內容，這樣我們就可以得到一張圖片和其對應的真實文本，接下來我們就可以用它來生成一批訓練數據和測試數據了。

2.預處理

在訓練之前肯定是要進行數據預處理了，現在我們首先定義好了要生成的驗證碼文本內容，這就相當于已經有了 label 了，然后我們再用它來生成驗證碼，就可以得到輸入數據 x 了，在這里我們首先定義好我們的輸入詞表，由于大小寫字母加數字的詞表比較龐大，設想我們用含有大小寫字母和數字的驗證碼，一個驗證碼四個字符，那么一共可能的組合是 (26 + 26 + 10) ^ 4 = 14776336 種組合，這個數量訓練起來有點大，所以這里我們精簡一下，只使用純數字的驗證碼來訓練，這樣其組合個數就變為 10 ^ 4 = 10000 種，顯然少了很多。

所以在這里我們先定義一個詞表和其長度變量：

使用TensorFlow 來實現一個簡單的驗證碼識別過程

這里 VOCAB 就是詞表的內容，即 0 到 9 這 10 個數字，驗證碼的字符個數即 CAPTCHA_LENGTH 是 4，詞表長度是 VOCAB 的長度，即 10。

接下來我們定義一個生成驗證碼數據的方法，流程類似上文，只不過這里我們將返回的數據轉為了 Numpy 形式的數組：

使用TensorFlow 來實現一個簡單的驗證碼識別過程

這樣調用此方法，我們就可以得到一個 Numpy 數組了，這個其實是把驗證碼轉化成了每個像素的 RGB，我們調用一下這個方法試試：

使用TensorFlow 來實現一個簡單的驗證碼識別過程

內容如下：

使用TensorFlow 來實現一個簡單的驗證碼識別過程

可以看到它的 shape 是 (60, 160, 3)，這其實代表驗證碼圖片的高度是 60，寬度是 160，是 60 x 160 像素的驗證碼，每個像素都有 RGB 值，所以最后一維即為像素的 RGB 值。

接下來我們需要定義 label，由于我們需要使用深度學習模型進行訓練，所以這里我們的 label 數據最好使用 One-Hot 編碼，即如果驗證碼文本是 1234，那么應該詞表索引位置置 1，總共的長度是 40，我們用程序實現一下 One-Hot 編碼和文本的互相轉換：

使用TensorFlow 來實現一個簡單的驗證碼識別過程

這里 text2vec() 方法就是將真實文本轉化為 One-Hot 編碼，vec2text() 方法就是將 One-Hot 編碼轉回真實文本。

例如這里調用一下這兩個方法，我們將 1234 文本轉換為 One-Hot 編碼，然后在將其轉回來：

使用TensorFlow 來實現一個簡單的驗證碼識別過程

這樣我們就可以實現文本到 One-Hot 編碼的互轉了。

接下來我們就可以構造一批數據了，x 數據就是驗證碼的 Numpy 數組，y 數據就是驗證碼的文本的 One-Hot 編碼，生成內容如下：

使用TensorFlow 來實現一個簡單的驗證碼識別過程

這里我們定義了一個 getrandomtext() 方法，可以隨機生成驗證碼文本，然后接下來再利用這個隨機生成的文本來產生對應的 x、y 數據，然后我們再將數據寫入到 pickle 文件里，這樣就完成了預處理的操作。

3.構建模型

有了數據之后，我們就開始構建模型吧，這里我們還是利用 traintestsplit() 方法將數據分為三部分，訓練集、開發集、驗證集：

使用TensorFlow 來實現一個簡單的驗證碼識別過程

接下來我們使用者三個數據集構建三個 Dataset 對象：

使用TensorFlow 來實現一個簡單的驗證碼識別過程

然后初始化一個迭代器，并綁定到這個數據集上：

使用TensorFlow 來實現一個簡單的驗證碼識別過程

接下來就是關鍵的部分了，在這里我們使用三層卷積和兩層全連接網絡進行構造，在這里為了簡化寫法，直接使用 TensorFlow 的 layers 模塊：

使用TensorFlow 來實現一個簡單的驗證碼識別過程

這里卷積核大小為 3，padding 使用 SAME 模式，激活函數使用 relu。

經過全連接網絡變換之后，y 的 shape 就變成了 [batchsize, nclasses]，我們的 label 是 CAPTCHALENGTH 個 One-Hot 向量拼合而成的，在這里我們想使用交叉熵來計算，但是交叉熵計算的時候，label 參數向量最后一維各個元素之和必須為 1，不然計算梯度的時候會出現問題。詳情參見 TensorFlow 的官方文檔：

https://www.tensorflow.org/apidocs/python/tf/nn/softmaxcrossentropywithlogits

但是現在的 label 參數是 CAPTCHALENGTH 個 One-Hot 向量拼合而成，所以這里各個元素之和為 CAPTCHALENGTH，所以我們需要重新 reshape 一下，確保最后一維各個元素之和為 1：

使用TensorFlow 來實現一個簡單的驗證碼識別過程

這樣我們就可以確保最后一維是 VOCAB_LENGTH 長度，而它就是一個 One-Hot 向量，所以各元素之和必定為 1。

然后 Loss 和 Accuracy 就好計算了：

使用TensorFlow 來實現一個簡單的驗證碼識別過程

再接下來執行訓練即可：

使用TensorFlow 來實現一個簡單的驗證碼識別過程

在這里我們首先初始化 traininitializer，將 iterator 綁定到 Train Dataset 上，然后執行 trainop，獲得 loss、acc、gstep 等結果并輸出。

訓練

運行訓練過程，結果類似如下：

使用TensorFlow 來實現一個簡單的驗證碼識別過程

測試

訓練過程我們還可以每隔幾個 Epoch 保存一下模型：

使用TensorFlow 來實現一個簡單的驗證碼識別過程

當然也可以取驗證集上準確率最高的模型進行保存。

驗證時我們可以重新 Reload 一下模型，然后進行驗證：

使用TensorFlow 來實現一個簡單的驗證碼識別過程

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

使用TensorFlow 來實現一個簡單的驗證碼識別過程

1.驗證碼準備

2.預處理

3.構建模型

訓練

測試

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

使用TensorFlow 來實現一個簡單的驗證碼識別過程

1.驗證碼準備

2.預處理

3.構建模型

訓練

測試

猜你喜歡

最新資訊

相關推薦

相關標簽