以下是一個簡單的Node.js爬蟲代碼示例:
const request = require('request');
const cheerio = require('cheerio');
// 目標網站的URL
const url = 'https://example.com';
// 發送HTTP請求并獲取頁面內容
request(url, (error, response, body) => {
if (error) {
console.error(error);
return;
}
// 使用cheerio解析頁面內容
const $ = cheerio.load(body);
// 使用CSS選擇器獲取目標數據
const title = $('title').text();
const links = $('a').map((i, el) => $(el).attr('href')).get();
// 輸出結果
console.log('Title:', title);
console.log('Links:', links);
});
這個代碼使用request
模塊發送HTTP請求,然后通過cheerio
模塊解析頁面內容。通過使用CSS選擇器,我們可以方便地提取出頁面中的目標數據。這個示例中,我們提取了頁面的標題和鏈接,并將結果打印出來。
請注意,這只是一個簡單的示例,實際的爬蟲代碼可能需要處理更多的情況,如處理分頁、處理異步加載的內容等。