初探利用Python進行圖文識別(OCR)

發布時間：2020-10-05 02:42:42 來源：腳本之家閱讀：410 作者：Max老白Gān丶欄目：開發技術

話說什么是OCR？？？？？

簡介

OCR技術是光學字符識別的縮寫(Optical Character Recognition)，是通過掃描等光學輸入方式將各種票據、報刊、書籍、文稿及其它印刷品的文字轉化為圖像信息，再利用文字識別技術將圖像信息轉化為可以使用的計算機輸入技術。可應用于銀行票據、大量文字資料、檔案卷宗、文案的錄入和處理領域。適合于銀行、稅務等行業大量票據表格的自動掃描識別及長期存儲。相對一般文本，通常以最終識別率、識別速度、版面理解正確率及版面還原滿意度4個方面作為OCR技術的評測依據；而相對于表格及票據，通常以識別率或整張通過率及識別速度為測定OCR技術的實用標準。

解析

采用OCR識別技術,可以將其應用于銀行票據光盤縮微系統，可以自動提取票據要素，可減輕操作員的工作量，減少重復勞動，尤其是在與銀行事后且監督系統相結合后，可以替代原先的操作人員完成事后監督工作。由計算機自動識別票據上的日期、帳號、金額等要素，通過銀行事后監督系統與業務系統中的數據進行比較，完成傳統的事后監督操作；配有印章驗證系統后，自動將憑證圖像中的印章與系統中預留的印鑒進行比較，完成印章的真偽識別。

OCR識別技術不僅具有可以自動判斷、拆分、識別和還原各種通用型印刷體表格，在表格理解上做出了令人滿意的實用結果，能夠自動分析文稿的版面布局，自動分欄、并判斷出標題、橫欄、圖像、表格等相應屬性，并判定識別順序，能將識別結果還原成與掃描文稿的版面布局一致的新文本。表格自動錄入技術，可自動識別特定表格的印刷或打印漢字、字母、數字，可識別手寫體漢字、手寫體字母、數字及多種手寫符號，并按表格格式輸出。提高了表格錄入效率，可節省大量人力。同時支持將表格識別直接還原成PTF、PDF、HTML等格式文檔；并可以對圖像嵌入橫排文本和豎排文本、表格文本進行自動排版面分析。　　利用目前的高新技術-OCR，直接從憑證影像中提取金額、帳號等重要數據，代替人的手工錄入，與條碼識別/流水識別緊密結合，實現建立事后副本帳、完成事后監督的工作。OCR處理一般使用性能較好的PC機，OCR處理程序一經啟動會自動掃描數據庫中的憑證影像，發現有需OCR處理而未處理的，提取到本地進行處理。　　　

OCR手寫體、印刷體識別技術，能識別不同人寫的千差萬別的手寫體漢字和數字，應用于本系統，識別憑證影像中儲戶填寫的信息，如大寫金額、小寫金額、帳號、存期、日期、證件號等，可以代替手工錄入。同時被識別得出的金額還要與流水識別所得的金額進行核對，核對成功，則OCR識別成功。這樣處理是為了避免誤判。　　　

經過對銀行產生的實際憑證進行的大量測試，在實際開發過程中，根據銀行的實際需求，OCR技術在票據和表格識別能力和手寫體自動識別能力上不斷提升，目前處理速度可達到每分鐘60～80張票據，存折識別率已經達到了85%以上，存單、憑條識別率達到90%以上，而85%以上的識別率就能減少80%以上的數據錄入員。

在檔案領域OCR技術使檔案掃描成果達到了全文可識別，將檔案數字化發展提升了到了一個新的階段，是原本掃描出來的圖片變得更容易進行檢索，為數字檔案館的數據查詢提供了技術支持，是檔案數字化發展中必不可少的一環。

以上來自百度百科哈哈哈哈哈！！

相關的工具：Tesseract

Tesseract概述：

Tesseract 是一個OCR庫，目前由Google贊助（Google也是一家以OCR和機器學習技術聞名于世的公司）。Tesseract是目前公認最優秀、最精確的開源OCR系統。

Tesseract的Windows安裝包下載地址為：http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe，下載后雙擊直接安裝即可。安裝完后，需要將Tesseract添加到系統變量中。在CMD中輸入tesseract-v,如顯示以下界面，則表示Tesseract安裝完成且添加到系統變量中。

初探利用Python進行圖文識別(OCR)

配置完成后在命令行輸入tesseract -v，如果出現如下圖所示，說明環境變量配置成功

初探利用Python進行圖文識別(OCR)

命令使用： tesseract C://Users\lenovo\Desktop\Tesseract-OCR\233.jpg C://Users\lenovo\Desktop\Tesseract-OCR\Max.txt，則會將233.jpg中的識別文字寫入到Max.txt一執行報錯？？？什么情況？

初探利用Python進行圖文識別(OCR)

后來我找了一些資料來看上面的意思就是說不能加載'eng'語言包。請將tessdata的父文件夾路徑設置為TESSDATA_PREFIX環境變量值，這個就是說在環境變量中新建一個系統變量，變量名稱為TESSDATA_PREFIX，tessdata是放置語言包的文件夾，一般在你安裝tesseract的目錄下，即tesseract的安裝目錄就是tessdata的父目錄，把ESSDATA_PREFIX的值設置為它就沒問題了

初探利用Python進行圖文識別(OCR)