您好,登錄后才能下訂單哦!
話說什么是OCR?????
簡介
OCR技術是光學字符識別的縮寫(Optical Character Recognition),是通過掃描等光學輸入方式將各種票據、報刊、書籍、文稿及其它印刷品的文字轉化為圖像信息,再利用文字識別技術將圖像信息轉化為可以使用的計算機輸入技術。可應用于銀行票據、大量文字資料、檔案卷宗、文案的錄入和處理領域。適合于銀行、稅務等行業大量票據表格的自動掃描識別及長期存儲。相對一般文本,通常以最終識別率、識別速度、版面理解正確率及版面還原滿意度4個方面作為OCR技術的評測依據;而相對于表格及票據,通常以識別率或整張通過率及識別速度為測定OCR技術的實用標準。
解析
采用OCR識別技術,可以將其應用于銀行票據光盤縮微系統,可以自動提取票據要素,可減輕操作員的工作量,減少重復勞動,尤其是在與銀行事后且監督系統相結合后,可以替代原先的操作人員完成事后監督工作。由計算機自動識別票據上的日期、帳號、金額等要素,通過銀行事后監督系統與業務系統中的數據進行比較,完成傳統的事后監督操作;配有印章驗證系統后,自動將憑證圖像中的印章與系統中預留的印鑒進行比較,完成印章的真偽識別。
OCR識別技術不僅具有可以自動判斷、拆分、識別和還原各種通用型印刷體表格,在表格理解上做出了令人滿意的實用結果,能夠自動分析文稿的版面布局,自動分欄、并判斷出標題、橫欄、圖像、表格等相應屬性,并判定識別順序,能將識別結果還原成與掃描文稿的版面布局一致的新文本。表格自動錄入技術,可自動識別特定表格的印刷或打印漢字、字母、數字,可識別手寫體漢字、手寫體字母、數字及多種手寫符號,并按表格格式輸出。提高了表格錄入效率,可節省大量人力。同時支持將表格識別直接還原成PTF、PDF、HTML等格式文檔;并可以對圖像嵌入橫排文本和豎排文本、表格文本進行自動排版面分析。 利用目前的高新技術-OCR,直接從憑證影像中提取金額、帳號等重要數據,代替人的手工錄入,與條碼識別/流水識別緊密結合,實現建立事后副本帳、完成事后監督的工作。OCR處理一般使用性能較好的PC機,OCR處理程序一經啟動會自動掃描數據庫中的憑證影像,發現有需OCR處理而未處理的,提取到本地進行處理。
OCR手寫體、印刷體識別技術,能識別不同人寫的千差萬別的手寫體漢字和數字,應用于本系統,識別憑證影像中儲戶填寫的信息,如大寫金額、小寫金額、帳號、存期、日期、證件號等,可以代替手工錄入。同時被識別得出的金額還要與流水識別所得的金額進行核對,核對成功,則OCR識別成功。這樣處理是為了避免誤判。
經過對銀行產生的實際憑證進行的大量測試,在實際開發過程中,根據銀行的實際需求,OCR技術在票據和表格識別能力和手寫體自動識別能力上不斷提升,目前處理速度可達到每分鐘60~80張票據,存折識別率已經達到了85%以上,存單、憑條識別率達到90%以上,而85%以上的識別率就能減少80%以上的數據錄入員。
在檔案領域OCR技術使檔案掃描成果達到了全文可識別,將檔案數字化發展提升了到了一個新的階段,是原本掃描出來的圖片變得更容易進行檢索,為數字檔案館的數據查詢提供了技術支持,是檔案數字化發展中必不可少的一環。
以上來自百度百科哈哈哈哈哈!!
相關的工具:Tesseract
Tesseract概述:
Tesseract 是一個OCR庫,目前由Google贊助(Google也是一家以OCR和機器學習技術聞名于世的公司)。Tesseract是目前公認最優秀、最精確的開源OCR系統。
Tesseract的Windows安裝包下載地址為:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe,下載后雙擊直接安裝即可。安裝完后,需要將Tesseract添加到系統變量中。在CMD中輸入tesseract-v,如顯示以下界面,則表示Tesseract安裝完成且添加到系統變量中。
配置完成后在命令行輸入tesseract -v,如果出現如下圖所示,說明環境變量配置成功
命令使用: tesseract C://Users\lenovo\Desktop\Tesseract-OCR\233.jpg C://Users\lenovo\Desktop\Tesseract-OCR\Max.txt,則會將233.jpg中的識別文字寫入到Max.txt一執行報錯???什么情況?
后來我找了一些資料來看 上面的意思就是說不能加載'eng'語言包。請將tessdata的父文件夾路徑設置為TESSDATA_PREFIX環境變量值,這個就是說在環境變量中新建一個系統變量,變量名稱為TESSDATA_PREFIX,tessdata是放置語言包的文件夾,一般在你安裝tesseract的目錄下,即tesseract的安裝目錄就是tessdata的父目錄,把ESSDATA_PREFIX的值設置為它就沒問題了
更改完成后重啟就沒問題了。
規整的中文也是可以識別的哦。
命令:tesseract C://Users\lenovo\Desktop\Tesseract-OCR\libai.png C://Users\lenovo\Desktop\Tesseract-OCR\libai.txt -l chi_sim
我們開始使用python編寫識別小腳本了,這里我們需要一個pytesseract庫使用pip install pytesseract安裝。安裝完后,就可以使用Python調用Tesseract這里我們還需要安裝一個Python的圖片處理模塊,可以安裝pillow.
輸入以下代碼,可以實現同上述Tesseract命令一樣的效果:
我們的圖片里面內容是:
運行程序:
識別!!
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持億速云。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。