您好,登錄后才能下訂單哦!
1.selenum:三方庫。可以實現讓瀏覽器完成自動化的操作。
2.環境搭建
2.1 安裝:
pip install selenium
2.2 獲取瀏覽器的驅動程序
下載地址:
http://chromedriver.storage.googleapis.com/index.html
http://npm.taobao.org/mirrors/chromedriver/
瀏覽器版本和驅動版本的對應關系表:
chromedriver版本 | 支持的Chrome版本 |
---|---|
v2.46 | v71-73 |
v2.45 | v70-72 |
v2.44 | v69-71 |
v2.43 | v69-71 |
v2.42 | v68-70 |
v2.41 | v67-69 |
v2.40 | v66-68 |
v2.39 | v66-68 |
v2.38 | v65-67 |
v2.37 | v64-66 |
v2.36 | v63-65 |
v2.35 | v62-64 |
v2.34 | v61-63 |
v2.33 | v60-62 |
v2.32 | v59-61 |
v2.31 | v58-60 |
v2.30 | v58-60 |
v2.29 | v56-58 |
v2.28 | v55-57 |
v2.27 | v54-56 |
v2.26 | v53-55 |
v2.25 | v53-55 |
v2.24 | v52-54 |
v2.23 | v51-53 |
v2.22 | v49-52 |
v2.21 | v46-50 |
v2.20 | v43-48 |
v2.19 | v43-47 |
v2.18 | v43-46 |
v2.17 | v42-43 |
v2.13 | v42-45 |
v2.15 | v40-43 |
v2.14 | v39-42 |
v2.13 | v38-41 |
v2.12 | v36-40 |
v2.11 | v36-40 |
v2.10 | v33-36 |
v2.9 | v31-34 |
v2.8 | v30-33 |
v2.7 | v30-33 |
v2.6 | v29-32 |
v2.5 | v29-32 |
v2.4 | v29-32 |
所有chromedriver均可在下面鏈接中下載到:
http://chromedriver.storage.googleapis.com/index.html
現在有一點好的是出了按照chrome版本對應的driver,直接按照瀏覽器版本去找對應的driver(只對應大版本就行),不用再費心去對應了,大家可以嘗試一下
有些同學說下不了,到taobao下也是可以的:
http://npm.taobao.org/mirrors/chromedriver/
定位元素的8種方式:
#使用下面的方法,查找指定的元素進行操作即可 find_element_by_id 根據id找節點 find_elements_by_name 根據name找 find_elements_by_xpath 根據xpath查找 find_elements_by_tag_name 根據標簽名找 find_elements_by_class_name 根據class名字查找 # 通過id定位: dr.find_element_by_id("kw") # 通過name定位: dr.find_element_by_name("wd") # 通過class name定位: dr.find_element_by_class_name("s_ipt") # 通過tag name定位: dr.find_element_by_tag_name("input") # 通過xpath定位,xpath定位有N種寫法,這里列幾個常用寫法: dr.find_element_by_xpath("http://*[@id='kw']") dr.find_element_by_xpath("http://*[@name='wd']") dr.find_element_by_xpath("http://input[@class='s_ipt']") dr.find_element_by_xpath("/html/body/form/span/input") dr.find_element_by_xpath("http://span[@class='soutu-btn']/input") dr.find_element_by_xpath("http://form[@id='form']/span/input") dr.find_element_by_xpath("http://input[@id='kw' and @name='wd']") # 通過css定位,css定位有N種寫法,這里列幾個常用寫法: dr.find_element_by_css_selector("#kw") dr.find_element_by_css_selector("[name=wd]") dr.find_element_by_css_selector(".s_ipt") dr.find_element_by_css_selector("html > body > form > span > input") dr.find_element_by_css_selector("span.soutu-btn> input#kw") dr.find_element_by_css_selector("form#form > span > input")
接下來,我們的頁面上有一組文本鏈接。
<a class="mnav" rel="external nofollow" name="tj_trnews">新聞</a> <a class="mnav" rel="external nofollow" name="tj_trhao123">hao123</a>
# 通過link text定位: dr.find_element_by_link_text("新聞") dr.find_element_by_link_text("hao123") # 通過partial link text定位: dr.find_element_by_partial_link_text("新") dr.find_element_by_partial_link_text("hao") dr.find_element_by_partial_link_text("123")
Selenium庫下webdriver模塊常用方法的使用
控制瀏覽器操作的一些方法
方法 說明
---------------------
例子:
1.chrom瀏覽器自動搜索
from selenium import webdriver from time import sleep # 創建瀏覽器對象 驅動為瀏覽器的路徑 bro = webdriver.Chrome("./chromedriver.exe") url = "https://www.baidu.com"7 # 發送請求 bro.get(url) # 讓百度指定詞條的搜索 text = bro.find_element_by_id('kw') # 發送關鍵字 text.send_keys('python') # 點擊搜索按鈕 button = bro.find_element_by_id('su') button.click() # 關閉瀏覽器 bro.quit()
2.phantomjs無界面瀏覽器,其自動化流程上述操作谷歌自動化流程一致。
from selenium import webdriver from time import sleep bro = webdriver.PhantomJS('E:/BaiduNetdiskDownload/爬蟲課件/5. 動態數據加載 爬取\phantomjs‐2.1.1‐windows/bin/phantomjs.exe') url = "https://www.baidu.com" # 發送請求 bro.get(url) bro.save_screenshot('./1.png') # 讓百度指定詞條的搜索 text = bro.find_element_by_id('kw') # 發送關鍵字 text.send_keys('python') bro.save_screenshot('./2.png') # 點擊搜索按鈕 button = bro.find_element_by_id('su') button.click() sleep(3) bro.save_screenshot('./3.png') # 關閉瀏覽器 bro.quit()
3.豆瓣網電影排行榜滾動條數據
from selenium import webdriver from time import sleep3 url = 'https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&typ e=24&interval_id=100:90&action=' bro = webdriver.PhantomJS('E:/BaiduNetdiskDownload/爬蟲課件/5. 動態數據加載 爬取\phantomjs‐2.1.1‐windows/bin/phantomjs.exe') bro.get(url) sleep(1) bro.save_screenshot("./1.png") js = 'window.scrollTo(0,document.body.scrollHeight)' # 執行js代碼 滾動條 bro.execute_script(js) sleep(1) bro.save_screenshot('./2.png') # 獲取頁面數據 page_source = bro.page_source print(page_source)
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持億速云。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。