91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

用python實現驗證碼識別

發布時間:2021-06-21 09:47:00 來源:億速云 閱讀:148 作者:chen 欄目:開發技術

本篇內容介紹了“用python實現驗證碼識別”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!

目錄
  • 1. 環境準備

    • 1.1 安裝pillow 和 pytesseract

    • 1.2 安裝Tesseract-OCR.exe

    • 1.3 更改pytesseract.py的ocr路徑

  • 2. 測試識別效果

    • 3. 實戰案例–實現古詩文網驗證碼自動識別登錄

    1. 環境準備

    1.1 安裝pillow 和 pytesseract

    python模塊庫需要 pillow 和 pytesseract 這兩個庫,直接pip install 安裝就好了。

    pip install pillow
    pip install pytesseract

    1.2 安裝Tesseract-OCR.exe

    下載地址:ocr下載地址

    建議下載最新穩定版本:

    tesseract-ocr-w64-setup-v5.0.0.20190623.exe。

    安裝過程很簡單,直接點擊下一步就完事了,其間可以默認安裝路徑,也可以自定義安裝路徑,裝好之后,把它的安裝路徑添加到環境變量中即可,如我的這樣:

    我的安裝位置:

    用python實現驗證碼識別

    環境變量就這樣加:

    用python實現驗證碼識別

    1.3 更改pytesseract.py的ocr路徑

    我們pip install pytesseract 之后,在python解釋器安裝位置包里可以找到pytesseract.py文件如下:

    用python實現驗證碼識別

    打開之后,更改:

    用python實現驗證碼識別

    至此,環境準備工作算是大功告成了。

    2. 測試識別效果

    ocr一直默認安裝,起始就可以支持數字和英文字母識別的,接下來

    我們準備一張驗證碼圖片:

    用python實現驗證碼識別

    將圖片,命名為captcha.png,放到程序同一目錄下

    import pytesseract
    from PIL import Image
    image = Image.open("captcha.png")
    print(pytesseract.image_to_string(image))

    效果:

    用python實現驗證碼識別

    我們再嘗試一下中文識別。

    在進行識別之前我們要先下載好中文拓展語言包,
    語言包地址

    下載需要的的語言包,如下圖,紅框內為中文簡體語言包:

    用python實現驗證碼識別

    下載后將該包直接放在ocr程序安裝目錄的tessdata文件夾里面即可。

    用python實現驗證碼識別

    找一張圖片測試一下:

    用python實現驗證碼識別

    import pytesseract
    from PIL import Image
    image = Image.open("00.jpg")
    print(pytesseract.image_to_string(image,lang='chi_sim'))

    效果:

    用python實現驗證碼識別

    有時候文本識別率并不高,建議圖像識別前,先對圖像進行灰度化和 二值化

    代碼示例:

    import pytesseract
    from PIL import Image
    file = r"00.jpg"
    
    # 先對圖像進行灰度化和 二值化
    image = Image.open(file)
    Img = image.convert('L')   # 灰度化
    #自定義灰度界限,這里可以大于這個值為黑色,小于這個值為白色。threshold可根據實際情況進行調整(最大可為255)。
    threshold = 180
    table = []
    for i in range(256):
        if i < threshold:
            table.append(0)
        else:
            table.append(1)
    photo = Img.point(table, '1')  #圖片二值化
    #保存處理好的圖片
    photo.save('01.jpg')
    
    image = Image.open('01.jpg')
    # 解析圖片,lang='chi_sim'表示識別簡體中文,默認為English
    # 如果是只識別數字,可再加上參數config='--psm 6 --oem 3 -c tessedit_char_whitelist=0123456789'
    content = pytesseract.image_to_string(image, lang='chi_sim')
    print(content)

    3. 實戰案例–實現古詩文網驗證碼自動識別登錄

    import pytesseract
    from PIL import Image
    from selenium import webdriver
    
    
    def save_captcha(path):
        driver = webdriver.Chrome()  # 創建瀏覽器對象
        driver.maximize_window()
        driver.implicitly_wait(10)
        driver.get(url=url)
        image = driver.find_element_by_id('imgCode')
        image.screenshot(path)
        return driver
    
    
    def recognize_captcha(captcha_path):
        captcha = Image.open(captcha_path)  # 打開圖片
        grap = captcha.convert('L')  # 對圖片進行灰度化處理
        data = grap.load()  # 將圖片對象加載成數據
        w, h = captcha.size  # 獲取圖片的大小(寬度,高度)
        # 圖片二值化處理
        for x in range(w):
            for y in range(h):
                if data[x, y] < 140:
                    data[x, y] = 0
                else:
                    data[x, y] = 255
        code = pytesseract.image_to_string(grap)  # 對圖片進行識別
        return code
    
    
    def login(driver, code):
        flag = True
        email = '1242931802@qq.com' # 注冊的古詩文網賬號和密碼
        password = 'xxxx'
        try:
            driver.find_element_by_id('email').send_keys(email)
            driver.find_element_by_id('pwd').send_keys(password)
            driver.find_element_by_id('code').send_keys(code)
            driver.implicitly_wait(10)
            driver.find_element_by_id('denglu').click()
        except Exception as ex:
            flag = False
        return flag
    
    
    if __name__ == '__main__':
        url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx'
        captcha_path = './captcha.png'
        count = 1
        driver = save_captcha(captcha_path)  # 獲取驅動
        code = recognize_captcha(captcha_path)  # 獲取驗證碼
        print('識別驗證碼為:', code)
        if login(driver, code):
            driver.quit()

    效果如下(有時候第一次可能識別失敗,可以寫個循環邏輯讓它多識別幾次,一般程序運行1-3次基本會識別成功):

    用python實現驗證碼識別

    “用python實現驗證碼識別”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!

    向AI問一下細節

    免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

    AI

    蓬安县| 辉南县| 馆陶县| 西吉县| 蒙阴县| 绥宁县| 宁乡县| 沁阳市| 敦化市| 隆林| 溆浦县| 历史| 登封市| 怀柔区| 河源市| 大埔区| 建瓯市| 吴川市| 巴青县| 哈密市| 广平县| 赤峰市| 婺源县| 徐闻县| 尉氏县| 新兴县| 池州市| 济宁市| 闽清县| 鲜城| 金昌市| 嘉峪关市| 修文县| 壤塘县| 渑池县| 康平县| 米林县| 黎平县| 英德市| 孟村| 九龙坡区|