您好,登錄后才能下訂單哦!
不懂python爬蟲實現自動登錄與驗證碼識別的方法?其實想解決這個問題也不難,下面讓小編帶著大家一起學習怎么去解決,希望大家閱讀完這篇文章后大所收獲。
在用爬蟲爬取網站數據時,有些站點的一些關鍵數據的獲取需要使用賬號登錄,這里可以使用requests發送登錄請求,并用Session對象來自動處理相關Cookie。
另外在登錄時,有些網站有時會要求輸入驗證碼,比較簡單的驗證碼可以直接用pytesser來識別,復雜的驗證碼可以依據相應的特征自己采集數據訓練分類器。
以CSDN網站的登錄為例,這里用Python的requests庫與pytesser庫寫了一個登錄函數。如果需要輸入驗證碼,函數會首先下載驗證碼到本地,然后用pytesser識別驗證碼后登錄,對于CSDN登錄驗證碼,pytesser的識別率很高。
具體代碼如下:
#coding:utf-8 import sys import time import urllib import shutil import pytesser import requests from lxml import etree config = {'gid': 1} def parse(s, html, idx): result = {} tree = etree.HTML(html) try: result['lt'] = tree.xpath('//input[@name="lt"]/@value')[0] result['execution'] = tree.xpath('//input[@name="execution"]/@value')[0] result['path'] = tree.xpath('//form[@id="fm1"]/@action')[0] except IndexError, e: return None valimg = None valimgs = tree.xpath('//img[@id="yanzheng"]/@src') if len(valimgs) > 0: valimg = valimgs[0] validateCode = None if valimg: fname = 'img/' + str(idx) + '_' + str(config['gid']) + '.jpg' config['gid'] = config['gid'] + 1 ri = s.get("https://passport.csdn.net" + valimg) with open(fname, 'wb') as f: for chk in ri: f.write(chk) f.close() validateCode = pytesser.image_file_to_string(fname) validateCode = validateCode.strip() validateCode = validateCode.replace(' ', '') validateCode = validateCode.replace('\n', '') result['validateCode'] = validateCode return result def login(usr, pwd, idx): s = requests.Session() r = s.get('https://passport.csdn.net/account/login', headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0', 'Host': 'passport.csdn.net', }) while True: res = parse(s, r.text, idx) if res == None: return False url = 'https://passport.csdn.net' + res['path'] form = {'username': usr, 'password':pwd, '_eventId':'submit', 'execution':res['execution'], 'lt':res['lt'],} if res.has_key('validateCode'): form['validateCode'] = res['validateCode'] s.headers.update({ 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0', 'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4', 'Content-Type': 'application/x-www-form-urlencoded', 'Host': 'passport.csdn.net', 'Origin': 'https://passport.csdn.net', 'Referer': 'https://passport.csdn.net/account/login', 'Upgrade-Insecure-Requests': 1, }) r = s.post(url, data=form) tree = etree.HTML(r.text) err_strs = tree.xpath('//span[@id="error-message"]/text()') if len(err_strs) == 0: return True err_str = err_strs[0] print err_str err = err_str.encode('utf8') validate_code_err = '驗證碼錯誤' usr_pass_err = '帳戶名或登錄密碼不正確,請重新輸入' try_later_err = '登錄失敗連續超過5次,請10分鐘后再試' if err[:5] == validate_code_err[:5]: pass elif err[:5] == usr_pass_err[:5]: return False elif err[:5] == try_later_err[:5]: return False else: return True if __name__ == '__main__': main(sys.argv[1], sys.argv[2], 0)
感謝你能夠認真閱讀完這篇文章,希望小編分享python爬蟲實現自動登錄與驗證碼識別的方法內容對大家有幫助,同時也希望大家多多支持億速云,關注億速云行業資訊頻道,遇到問題就找億速云,詳細的解決方法等著你來學習!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。