您好,登錄后才能下訂單哦!
小編給大家分享一下如何基于node.js實現爬蟲,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
1、js屬于一種解釋性腳本語言;2、在絕大多數瀏覽器的支持下,js可以在多種平臺下運行,擁有著跨平臺特性;3、js屬于一種弱類型腳本語言,對使用的數據類型未做出嚴格的要求,能夠進行類型轉換,簡單又容易上手;4、js語言安全性高,只能通過瀏覽器實現信息瀏覽或動態交互,從而有效地防止數據的丟失;5、基于對象的腳本語言,js不僅可以創建對象,也能使用現有的對象。
1. cheerio 與 request
request:模擬客戶端行為,對頁面進行請求
cheerio:對服務器端返回的頁面進行解析;
var cheerio = require('cheerio'); var request = require('request'); var startUrl = 'http://www.baidu.com' request(startUrl, function(err, response) { if (err) { console.log(err); } var $ = cheerio.load(response.body); var title = $('title').text(); console.log(title); }
2. 認識 cheerio
獲取 element 位置
通過 class 屬性進行匹配:
var $=cheerio.load('<div class="container"></div>'); $('.container')
取其鏈接:<a class="downbtn" href="http://mov.bn.netease.com/mobilev/2013/1/F/G/S8KTEF7FG.mp4" id="M8KTEKR84" target="_blank"></a>
$('a.downbtn').attr('href')
某一頁面下的全部可鏈接:
var url = var $ = cheerio.load(data); $("a.downbtn").each(function(i, e) { console.log($(e).attr("href")); }); console.log("done"); } else { console.log("error"); }
以上是“如何基于node.js實現爬蟲”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。