您好,登錄后才能下訂單哦!
最近要弄一個爬蟲程序,想著先來個簡單的模擬登陸, 在權衡JxBrowser
和HtmlUnit
兩種技術, JxBowser
有界面呈現效果,但是對于某些js跳轉之后的效果獲取比較繁瑣。
隨后考慮用HtmlUnit
, 想著借用咱們CSND的登陸練練手。誰知道CSDN的登陸,js加載時間超長,不設置長一點的加載時間,按鈕提交根本沒效果,js沒生效。 具體看代碼注釋吧。 奉勸做爬蟲的同志們,千萬別用CSDN登陸練手,坑死我了。
maven
配置如下:
<dependencies> <!-- https://mvnrepository.com/artifact/net.sourceforge.htmlunit/htmlunit --> <dependency> <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId> <version>2.18</version> </dependency> <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup --> <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.9.2</version> </dependency> </dependencies>
代碼如下:
package com.test; import java.io.IOException; import java.net.MalformedURLException; import java.util.HashMap; import java.util.Map; import java.util.Set; import com.gargoylesoftware.htmlunit.BrowserVersion; import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException; import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController; import com.gargoylesoftware.htmlunit.SilentCssErrorHandler; import com.gargoylesoftware.htmlunit.WebClient; import com.gargoylesoftware.htmlunit.html.HtmlButtonInput; import com.gargoylesoftware.htmlunit.html.HtmlForm; import com.gargoylesoftware.htmlunit.html.HtmlPage; import com.gargoylesoftware.htmlunit.html.HtmlPasswordInput; import com.gargoylesoftware.htmlunit.html.HtmlTextInput; import com.gargoylesoftware.htmlunit.util.Cookie; public class SimulateLogin { //訪問的目標網址(CSDN) private static String TARGET_URL = "https://passport.csdn.net/account/login?from=http://www.csdn.net"; public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException { // 模擬一個瀏覽器 WebClient webClient = new WebClient(BrowserVersion.CHROME); // 設置webClient的相關參數 webClient.setCssErrorHandler(new SilentCssErrorHandler()); //設置ajax webClient.setAjaxController(new NicelyResynchronizingAjaxController()); //設置支持js webClient.getOptions().setJavaScriptEnabled(true); //CSS渲染禁止 webClient.getOptions().setCssEnabled(false); //超時時間 webClient.getOptions().setTimeout(50000); //設置js拋出異常:false webClient.getOptions().setThrowExceptionOnScriptError(false); //允許重定向 webClient.getOptions().setRedirectEnabled(true); //允許cookie webClient.getCookieManager().setCookiesEnabled(true); // 模擬瀏覽器打開一個目標網址 HtmlPage page = webClient.getPage(TARGET_URL); /**等待js加載完全,CSDN這點 特別坑,js加載時間超長!!!!!!! 后人切記不要用CSDN模擬登陸!!!!!!!**/ webClient.waitForBackgroundJavaScript(10000*3); // 根據form的名字獲取頁面表單,也可以通過索引來獲取:page.getForms().get(0) HtmlForm form = (HtmlForm) page.getElementById("fm1"); HtmlTextInput username = (HtmlTextInput) form.getInputByName("username"); HtmlPasswordInput password = (HtmlPasswordInput) form.getInputByName("password"); username.setValueAttribute("********"); //用戶名 password.setValueAttribute("********"); //密碼 HtmlButtonInput button = (HtmlButtonInput) page.getByXPath("http://input[contains(@class, 'logging')]").get(0); // ScriptResult result = page.executeJavaScript("javascript:document.getElementsByClassName('logging')[0].click()"); // HtmlPage retPage = (HtmlPage) result.getNewPage(); HtmlPage retPage = button.click(); // 等待JS驅動dom完成獲得還原后的網頁 webClient.waitForBackgroundJavaScript(1000); //輸出跳轉網頁的地址 System.out.println(retPage.getUrl().toString()); //輸出跳轉網頁的內容 System.out.println(retPage.asXml()); //獲取cookie Set<Cookie> cookies = webClient.getCookieManager().getCookies(); Map<String, String> responseCookies = new HashMap<String, String>(); for (Cookie c : cookies) { responseCookies.put(c.getName(), c.getValue()); System.out.print(c.getName()+":"+c.getValue()); } webClient.close(); System.out.println("Success!"); } }
另外,CSDN的JS總是莫名其妙的報一堆錯,如果不想看,想忽略的話,在創建WebClient
前加上如下代碼:
//設置日志級別,原頁面js異常不打印 LogFactory.getFactory().setAttribute("org.apache.commons.logging.Log", "org.apache.commons.logging.impl.NoOpLog"); java.util.logging.Logger.getLogger("com.gargoylesoftware.htmlunit") .setLevel(Level.OFF); java.util.logging.Logger.getLogger("org.apache.commons.httpclient") .setLevel(Level.OFF);
總結
以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對億速云的支持。如果你想了解更多相關內容請查看下面相關鏈接
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。