用python實現驗證碼識別

發布時間：2021-06-21 09:47:00 來源：億速云閱讀：148 作者：chen 欄目：開發技術

本篇內容介紹了“用python實現驗證碼識別”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠學有所成！

1. 環境準備

1.1 安裝pillow 和 pytesseract

python模塊庫需要 pillow 和 pytesseract 這兩個庫，直接pip install 安裝就好了。

pip install pillow
pip install pytesseract

1.2 安裝Tesseract-OCR.exe

下載地址：ocr下載地址

建議下載最新穩定版本：

tesseract-ocr-w64-setup-v5.0.0.20190623.exe。

安裝過程很簡單，直接點擊下一步就完事了，其間可以默認安裝路徑，也可以自定義安裝路徑，裝好之后，把它的安裝路徑添加到環境變量中即可，如我的這樣：

我的安裝位置：

用python實現驗證碼識別

環境變量就這樣加：

用python實現驗證碼識別

1.3 更改pytesseract.py的ocr路徑

我們pip install pytesseract 之后，在python解釋器安裝位置包里可以找到pytesseract.py文件如下：

用python實現驗證碼識別

打開之后，更改：

用python實現驗證碼識別

至此，環境準備工作算是大功告成了。

2. 測試識別效果

ocr一直默認安裝，起始就可以支持數字和英文字母識別的，接下來

我們準備一張驗證碼圖片：

用python實現驗證碼識別

將圖片，命名為captcha.png，放到程序同一目錄下

import pytesseract
from PIL import Image
image = Image.open("captcha.png")
print(pytesseract.image_to_string(image))

效果：

用python實現驗證碼識別

我們再嘗試一下中文識別。

在進行識別之前我們要先下載好中文拓展語言包，
語言包地址

下載需要的的語言包，如下圖，紅框內為中文簡體語言包：

用python實現驗證碼識別

下載后將該包直接放在ocr程序安裝目錄的tessdata文件夾里面即可。

用python實現驗證碼識別

找一張圖片測試一下：

用python實現驗證碼識別

import pytesseract
from PIL import Image
image = Image.open("00.jpg")
print(pytesseract.image_to_string(image,lang='chi_sim'))

效果：

用python實現驗證碼識別

有時候文本識別率并不高，建議圖像識別前，先對圖像進行灰度化和二值化

代碼示例：

import pytesseract
from PIL import Image
file = r"00.jpg"

# 先對圖像進行灰度化和 二值化
image = Image.open(file)
Img = image.convert('L')   # 灰度化
#自定義灰度界限，這里可以大于這個值為黑色，小于這個值為白色。threshold可根據實際情況進行調整(最大可為255)。
threshold = 180
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
photo = Img.point(table, '1')  #圖片二值化
#保存處理好的圖片
photo.save('01.jpg')

image = Image.open('01.jpg')
# 解析圖片，lang='chi_sim'表示識別簡體中文，默認為English
# 如果是只識別數字，可再加上參數config='--psm 6 --oem 3 -c tessedit_char_whitelist=0123456789'
content = pytesseract.image_to_string(image, lang='chi_sim')
print(content)

3. 實戰案例–實現古詩文網驗證碼自動識別登錄

import pytesseract
from PIL import Image
from selenium import webdriver


def save_captcha(path):
    driver = webdriver.Chrome()  # 創建瀏覽器對象
    driver.maximize_window()
    driver.implicitly_wait(10)
    driver.get(url=url)
    image = driver.find_element_by_id('imgCode')
    image.screenshot(path)
    return driver


def recognize_captcha(captcha_path):
    captcha = Image.open(captcha_path)  # 打開圖片
    grap = captcha.convert('L')  # 對圖片進行灰度化處理
    data = grap.load()  # 將圖片對象加載成數據
    w, h = captcha.size  # 獲取圖片的大小(寬度,高度)
    # 圖片二值化處理
    for x in range(w):
        for y in range(h):
            if data[x, y] < 140:
                data[x, y] = 0
            else:
                data[x, y] = 255
    code = pytesseract.image_to_string(grap)  # 對圖片進行識別
    return code


def login(driver, code):
    flag = True
    email = '1242931802@qq.com' # 注冊的古詩文網賬號和密碼
    password = 'xxxx'
    try:
        driver.find_element_by_id('email').send_keys(email)
        driver.find_element_by_id('pwd').send_keys(password)
        driver.find_element_by_id('code').send_keys(code)
        driver.implicitly_wait(10)
        driver.find_element_by_id('denglu').click()
    except Exception as ex:
        flag = False
    return flag


if __name__ == '__main__':
    url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx'
    captcha_path = './captcha.png'
    count = 1
    driver = save_captcha(captcha_path)  # 獲取驅動
    code = recognize_captcha(captcha_path)  # 獲取驗證碼
    print('識別驗證碼為:', code)
    if login(driver, code):
        driver.quit()

效果如下（有時候第一次可能識別失敗，可以寫個循環邏輯讓它多識別幾次，一般程序運行1-3次基本會識別成功）：

用python實現驗證碼識別

“用python實現驗證碼識別”的內容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站，小編將為大家輸出更多高質量的實用文章！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

用python實現驗證碼識別

目錄

1. 環境準備

1.1 安裝pillow 和 pytesseract

1.2 安裝Tesseract-OCR.exe

1.3 更改pytesseract.py的ocr路徑

2. 測試識別效果

3. 實戰案例–實現古詩文網驗證碼自動識別登錄

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

用python實現驗證碼識別

目錄

1. 環境準備

1.1 安裝pillow 和 pytesseract

1.2 安裝Tesseract-OCR.exe

1.3 更改pytesseract.py的ocr路徑

2. 測試識別效果

3. 實戰案例–實現古詩文網驗證碼自動識別登錄

猜你喜歡

最新資訊

相關推薦

相關標簽