您好,登錄后才能下訂單哦!
本篇內容介紹了“python開發中怎么使用pytesseract實現文字識別”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!
pytesseract是一款開源的圖片文字識別庫,能識別中文、英文等不少類型的語言,使用之前需要安裝tesseract-ocr引擎,此引擎在windows、linux、macos上都能進行安裝,(OCR,Optical Character Recognition,光學字符識別),安裝完成后,對應安裝pytesseract庫,就能做簡單的文字識別了,自帶的文字類庫,識別有時不準確,但是可以自己訓練識別庫。
“Tesseract的OCR引擎最先由HP實驗室于1985年開始研發,至1995年時已經成為OCR業內最準確的三款識別引擎之一。然而,HP不久便決定放棄OCR業務,Tesseract也從此塵封。
數年以后,HP意識到,與其將Tesseract束之高閣,不如貢獻給開源軟件業,讓其重煥新生--2005年,Tesseract由美國內華達州信息技術研究所獲得,并求諸于Google對Tesseract進行改進、消除Bug、優化工作 。”
下邊列舉一下,如何在Centos7系統的環境下,搭建一個python的tesseract-ocr環境,并使用python進行簡單的圖片識別。
安裝Tesseract-ocr,在github上有安裝的網址,https://github.com/tesseract-ocr/tesseract/wiki,在Centos7上,使用最簡單的yum進行安裝,這種方式,需要保持互聯網的連接,但是也不用編譯源代碼進行安裝了。
//更新配置,添加tesseract的地址
yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
//更新yum
yum update
//安裝tesseract
yum install tesseract
//安裝簡體中文語言包
yum install tesseract-langpack-chi_sim
安裝完引擎后,安裝python的開發包,使用pip進行安裝,安裝命令是:
pip install pytesseract
簡單的圖片識別代碼:
import pytesseract
from PIL import Image
#打開圖片
image = Image.open('圖片路徑')
#將圖片中的文字轉換字符串
code = pytesseract.image_to_string(image, lang='chi_sim')
#輸出字符串
print(code)
“python開發中怎么使用pytesseract實現文字識別”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。