91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

node中如何借助第三方開源庫實現網站爬取功能

發布時間:2021-12-18 09:41:45 來源:億速云 閱讀:212 作者:小新 欄目:web開發

這篇文章主要介紹node中如何借助第三方開源庫實現網站爬取功能,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

nodejs實現網站爬取功能

第三方庫介紹

  • request 對網絡請求的封裝

  • cheerio node 版本的 jQuery

  • mkdirp 創建多層的文件夾目錄

實現思路

  • 通過request獲取指定 url 內容

  • 通過cheerio找到頁面中跳轉的路徑(去重)

  • 通過mkdirp創建目錄

  • 通過fs創建文件,將讀取的內容寫入

  • 拿到沒有訪問的路徑重復以上執行步驟

代碼實現

const fs = require("fs");
const path = require("path");
const request = require("request");
const cheerio = require("cheerio");
const mkdirp = require("mkdirp");
// 定義入口url
const homeUrl = "https://www.baidu.com";
// 定義set存儲已經訪問過的路徑,避免重復訪問
const set = new Set([homeUrl]);
function grab(url) {
  // 校驗url規范性
  if (!url) return;
  // 去空格
  url = url.trim();
  // 自動補全url路徑
  if (url.endsWith("/")) {
    url += "index.html";
  }
  const chunks = [];
  // url可能存在一些符號或者中文,可以通過encodeURI編碼
  request(encodeURI(url))
    .on("error", (e) => {
      // 打印錯誤信息
      console.log(e);
    })
    .on("data", (chunk) => {
      // 接收響應內容
      chunks.push(chunk);
    })
    .on("end", () => {
      // 將相應內容轉換成文本
      const html = Buffer.concat(chunks).toString();
      // 沒有獲取到內容
      if (!html) return;
      // 解析url
      let { host, origin, pathname } = new URL(url);
      pathname = decodeURI(pathname);
      // 通過cheerio解析html
      const $ = cheerio.load(html);
      // 將路徑作為目錄
      const dir = path.dirname(pathname);
      // 創建目錄
      mkdirp.sync(path.join(__dirname, dir));
      // 往文件寫入內容
      fs.writeFile(path.join(__dirname, pathname), html, "utf-8", (err) => {
        // 打印錯誤信息
        if (err) {
          console.log(err);
          return;
        }
        console.log(`[${url}]保存成功`);
      });
      // 獲取到頁面中所有a元素
      const aTags = $("a");
      Array.from(aTags).forEach((aTag) => {
        // 獲取到a標簽中的路徑
        const href = $(aTag).attr("href");
        // 此處可以校驗href的合法或者控制爬去的網站范圍,比如必須都是某個域名下的
        // 排除空標簽
        if (!href) return;
        // 排除錨點連接
        if (href.startsWith("#")) return;
        if (href.startsWith("mailto:")) return;
        // 如果不想要保存圖片可以過濾掉
        // if (/\.(jpg|jpeg|png|gif|bit)$/.test(href)) return;
        // href必須是入口url域名
        let reg = new RegExp(`^https?:\/\/${host}`);
        if (/^https?:\/\//.test(href) && !reg.test(href)) return;
        // 可以根據情況增加更多邏輯
        let newUrl = "";
        if (/^https?:\/\//.test(href)) {
          // 處理絕對路徑
          newUrl = href;
        } else {
          // 處理相對路徑
          newUrl = origin + path.join(dir, href);
        }
        // 判斷是否訪問過
        if (set.has(newUrl)) return;
        if (newUrl.endsWith("/") && set.has(newUrl + "index.html")) return;
        if (newUrl.endsWith("/")) newUrl += "index.html";
        set.add(newUrl);
        grab(newUrl);
      });
    });
}
// 開始抓取
grab(homeUrl);

以上是“node中如何借助第三方開源庫實現網站爬取功能”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

乐业县| 怀来县| 吴江市| 包头市| 泗水县| 堆龙德庆县| 子洲县| 唐山市| 灵川县| 诸城市| 四平市| 衡水市| 搜索| 六盘水市| 济宁市| 东丽区| 乐陵市| 汝城县| 清河县| 龙江县| 淮滨县| 永仁县| 务川| 牙克石市| 德清县| 漳浦县| 桐柏县| 连平县| 儋州市| 平江县| 蓝田县| 武穴市| 吉林市| 九台市| 察雅县| 洛隆县| 禹城市| 三都| 远安县| 邢台县| 礼泉县|