python爬蟲selenium和phantomJs使用方法解析

發布時間：2020-10-24 21:02:03 來源：腳本之家閱讀：179 作者：一覺昏睡人欄目：開發技術

1.selenum：三方庫。可以實現讓瀏覽器完成自動化的操作。

2.環境搭建

2.1 安裝：

pip install selenium

2.2 獲取瀏覽器的驅動程序

下載地址：

http://chromedriver.storage.googleapis.com/index.html

http://npm.taobao.org/mirrors/chromedriver/

瀏覽器版本和驅動版本的對應關系表：

chromedriver版本	支持的Chrome版本
v2.46	v71-73
v2.45	v70-72
v2.44	v69-71
v2.43	v69-71
v2.42	v68-70
v2.41	v67-69
v2.40	v66-68
v2.39	v66-68
v2.38	v65-67
v2.37	v64-66
v2.36	v63-65
v2.35	v62-64
v2.34	v61-63
v2.33	v60-62
v2.32	v59-61
v2.31	v58-60
v2.30	v58-60
v2.29	v56-58
v2.28	v55-57
v2.27	v54-56
v2.26	v53-55
v2.25	v53-55
v2.24	v52-54
v2.23	v51-53
v2.22	v49-52
v2.21	v46-50
v2.20	v43-48
v2.19	v43-47
v2.18	v43-46
v2.17	v42-43
v2.13	v42-45
v2.15	v40-43
v2.14	v39-42
v2.13	v38-41
v2.12	v36-40
v2.11	v36-40
v2.10	v33-36
v2.9	v31-34
v2.8	v30-33
v2.7	v30-33
v2.6	v29-32
v2.5	v29-32
v2.4	v29-32

所有chromedriver均可在下面鏈接中下載到：

http://chromedriver.storage.googleapis.com/index.html

現在有一點好的是出了按照chrome版本對應的driver，直接按照瀏覽器版本去找對應的driver（只對應大版本就行），不用再費心去對應了，大家可以嘗試一下

python爬蟲selenium和phantomJs使用方法解析

有些同學說下不了，到taobao下也是可以的：

http://npm.taobao.org/mirrors/chromedriver/

定位元素的8種方式：

#使用下面的方法，查找指定的元素進行操作即可
find_element_by_id 根據id找節點
find_elements_by_name 根據name找
find_elements_by_xpath 根據xpath查找
find_elements_by_tag_name 根據標簽名找
find_elements_by_class_name 根據class名字查找
# 通過id定位:
dr.find_element_by_id("kw")

# 通過name定位:
dr.find_element_by_name("wd")

# 通過class name定位:
dr.find_element_by_class_name("s_ipt")

# 通過tag name定位:
dr.find_element_by_tag_name("input")

# 通過xpath定位，xpath定位有N種寫法，這里列幾個常用寫法:
dr.find_element_by_xpath("http://*[@id='kw']")
dr.find_element_by_xpath("http://*[@name='wd']")
dr.find_element_by_xpath("http://input[@class='s_ipt']")
dr.find_element_by_xpath("/html/body/form/span/input")
dr.find_element_by_xpath("http://span[@class='soutu-btn']/input")
dr.find_element_by_xpath("http://form[@id='form']/span/input")
dr.find_element_by_xpath("http://input[@id='kw' and @name='wd']")

# 通過css定位，css定位有N種寫法，這里列幾個常用寫法:
dr.find_element_by_css_selector("#kw")
dr.find_element_by_css_selector("[name=wd]")
dr.find_element_by_css_selector(".s_ipt")
dr.find_element_by_css_selector("html > body > form > span > input")
dr.find_element_by_css_selector("span.soutu-btn> input#kw")
dr.find_element_by_css_selector("form#form > span > input")

接下來，我們的頁面上有一組文本鏈接。

<a class="mnav"  rel="external nofollow" name="tj_trnews">新聞</a>
<a class="mnav"  rel="external nofollow" name="tj_trhao123">hao123</a>

# 通過link text定位:
dr.find_element_by_link_text("新聞")
dr.find_element_by_link_text("hao123")

# 通過partial link text定位:
dr.find_element_by_partial_link_text("新")
dr.find_element_by_partial_link_text("hao")
dr.find_element_by_partial_link_text("123")

Selenium庫下webdriver模塊常用方法的使用

控制瀏覽器操作的一些方法

方法說明

set_window_size() 設置瀏覽器的大小
back() 控制瀏覽器后退
forward() 控制瀏覽器前進
refresh() 刷新當前頁面
clear() 清除文本
send_keys (value) 模擬按鍵輸入
click() 單擊元素
submit() 用于提交表單
get_attribute(name) 獲取元素屬性值
is_displayed() 設置該元素是否用戶可見
size 返回元素的尺寸
text 獲取元素的文本

---------------------

例子：

1.chrom瀏覽器自動搜索

from selenium import webdriver
from time import sleep
# 創建瀏覽器對象 驅動為瀏覽器的路徑
bro = webdriver.Chrome("./chromedriver.exe")
url = "https://www.baidu.com"7 # 發送請求
bro.get(url)
# 讓百度指定詞條的搜索
text = bro.find_element_by_id('kw')
# 發送關鍵字
text.send_keys('python')
# 點擊搜索按鈕
button = bro.find_element_by_id('su')
button.click()
# 關閉瀏覽器
bro.quit()

2.phantomjs無界面瀏覽器,其自動化流程上述操作谷歌自動化流程一致。

from selenium import webdriver
from time import sleep
bro = webdriver.PhantomJS('E:/BaiduNetdiskDownload/爬蟲課件/5. 動態數據加載
爬取\phantomjs‐2.1.1‐windows/bin/phantomjs.exe')
url = "https://www.baidu.com"
# 發送請求
bro.get(url)
bro.save_screenshot('./1.png')
# 讓百度指定詞條的搜索
text = bro.find_element_by_id('kw')
# 發送關鍵字
text.send_keys('python')
bro.save_screenshot('./2.png')
# 點擊搜索按鈕
button = bro.find_element_by_id('su')
button.click()
sleep(3)
bro.save_screenshot('./3.png')
# 關閉瀏覽器
bro.quit()

3.豆瓣網電影排行榜滾動條數據

from selenium import webdriver
from time import sleep3 url = 'https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&typ
e=24&interval_id=100:90&action='
bro = webdriver.PhantomJS('E:/BaiduNetdiskDownload/爬蟲課件/5. 動態數據加載
爬取\phantomjs‐2.1.1‐windows/bin/phantomjs.exe')
bro.get(url)
sleep(1)
bro.save_screenshot("./1.png")
js = 'window.scrollTo(0,document.body.scrollHeight)'
# 執行js代碼 滾動條
bro.execute_script(js)
sleep(1)
bro.save_screenshot('./2.png')
# 獲取頁面數據
page_source = bro.page_source
print(page_source)

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持億速云。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

python爬蟲selenium和phantomJs使用方法解析

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

python爬蟲selenium和phantomJs使用方法解析

猜你喜歡

最新資訊

相關推薦

相關標簽