您好,登錄后才能下訂單哦!
node.js爬蟲框架node-crawler?相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現的原因和解決方法,通過這篇文章希望你能解決這個問題。
npm 安裝:
npm install crawler
new一個crawler對象
var c = new Crawler({ // 在每個請求處理完畢后將調用此回調函數 callback : function (error, res, done) { if(error){ console.log(error); }else{ var $ = res.$; // $ 默認為 Cheerio 解析器 // 它是核心jQuery的精簡實現,可以按照jQuery選擇器語法快速提取DOM元素 console.log($("title").text()); } done(); } });
然后往crawler隊列里面不停的加url就行了,
// 將一個URL加入請求隊列,并使用默認回調函數 c.queue('http://www.amazon.com'); // 將多個URL加入請求隊列 c.queue(['http://www.google.com/','http://www.yahoo.com']);
控制并發速度
爬蟲框架一般都是同時去爬多個頁面,但是速度過快會觸發目標網站的反爬蟲機制,也同時影響別人網站的性能。
控制最大的并發數量
var c = new Crawler({ // 最大并發數默認為10 maxConnections : 1, callback : function (error, res, done) { if(error){ console.log(error); }else{ var $ = res.$; console.log($("title").text()); } done(); } });
使用慢速模式
使用參數 rateLimit 啟用慢速模式,兩次請求之間會閑置 rateLimit 毫秒,而 maxConnections 將被強行修改為 1 。
var c = new Crawler({ // `maxConnections` 將被強制修改為 1 maxConnections : 10, // 兩次請求之間將閑置1000ms rateLimit: 1000, callback : function (error, res, done) { if(error){ console.log(error); }else{ var $ = res.$; console.log($("title").text()); } done(); } });
下載圖片等靜態文件
var c = new Crawler({ encoding:null, jQuery:false,// set false to suppress warning message. callback:function(err, res, done){ if(err){ console.error(err.stack); }else{ fs.createWriteStream(res.options.filename).write(res.body); } done(); } }); c.queue({ uri:"https://nodejs.org/static/images/logos/nodejs-1920x1200.png", filename:"nodejs-1920x1200.png" });
看完上述內容,你們掌握node.js爬蟲框架node-crawler的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。