91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

GoldData學習實例-采集官網新聞數據

發布時間:2020-04-04 09:24:43 來源:網絡 閱讀:262 作者:dataman100 欄目:大數據

概述

GoldData學習實例-采集官網新聞數據

在本節中,我們將講述抓取政府官網地方新聞。并將抓取的新聞數據融入到以下兩張數據表news_site和news中。

news_site(新聞來源)

字段 類型 說明
id bigint 主鍵,自動增長
name varchar(128) 來源名稱

news(新聞)

字段 類型 說明
id bigint 主鍵,自動增長
title varchar(128) 標題
site_id bigint 外鍵,指向表news_site的id字段
content text 內容
pub_date datetime 發布時間
date_created datetime 加入時間

我們很容易看到這兩張表存在關聯,那是怎樣將數據寫入關聯呢,我們將再此一一介紹。

定義站點、數據集

GoldData學習實例-采集官網新聞數據

GoldData學習實例-采集官網新聞數據

定義抓取和抽取規則

在這里我們需要填入口地址。入口地址如果有多個,那么要以英文逗號相隔。如下圖所示:

GoldData學習實例-采集官網新聞數據

接下來我們編寫規則時,首先是匹配URL,這里需要填寫正則表達式。旁邊的“?”號,點擊后就會彈出相應的幫助文檔。如下圖所示:

GoldData學習實例-采集官網新聞數據

然后數據集選擇則我們要注意,如果抓取的僅需要的是鏈接,那么是否數據集選擇否,且數據集字段必須要有一個名為href的字段。如下圖所示:

GoldData學習實例-采集官網新聞數據

否則是否數據集應該選擇是,且數據集字段必須要有一個名為sn的字段。sn字段存放的數據一般是唯一值,相當于數據表里的id字段。如下圖所示:

GoldData學習實例-采集官網新聞數據

完整的規則內容顯示如下:

[
  {
    __sample: http://sousuo.gov.cn/column/40520/0.htm
    match0: http\:\/\/sousuo\.gov\.cn\/column\/40520/\d+\.htm
    fields0:
    {
      __model: false
      __node: .news_box a
      href:
      {
        expr: a
        attr: abs:href
        js: ""
        __label: 鏈接
        __showOnList: false
        __type: ""
        down: "0"
        accessPathJs: ""
        uploadConf: ""
      }
    }
  }
  {
    __sample: http://www.gov.cn/xinwen/2019-02/26/content_5368539.htm
    match0: http\:\/\/www\.gov\.cn/xinwen/2019-\d{2}/\d{2}/content_\d+.htm
    fields0:
    {
      __model: true
      __dataset: news
      __node: ".article "
      sn:
      {
        expr: ""
        attr: ""
        js:
          '''
          var xx=md5(baseUri)
          xx
          '''
        __label: 編號
        __showOnList: false
        __type: ""
        down: "0"
        accessPathJs: ""
        uploadConf: ""
      }
      title:
      {
        expr: .article >h2
        attr: ""
        js: ""
        __label: 標題
        __showOnList: true
        __type: ""
        down: "0"
        accessPathJs: ""
        uploadConf: ""
      }
      pubdate:
      {
        expr: .pages-date:matchText
        attr: ""
        js: ""
        __label: 發布時間
        __showOnList: false
        __type: ""
        down: "0"
        accessPathJs: ""
        uploadConf: ""
      }
      source:
      {
        expr: .pages-date > span.font:contains(來源)
        attr: ""
        js:
          '''
          var xx=source.replace("來源:",'');
          xx
          '''
        __label: 來源
        __showOnList: true
        __type: ""
        down: "0"
        accessPathJs: ""
        uploadConf: ""
      }
      content:
      {
        expr: .pages_content
        attr: ""
        js: ""
        __label: 新聞內容
        __showOnList: false
        __type: ""
        down: "0"
        accessPathJs: ""
        uploadConf: ""
      }
    }
  }
]

配制和啟動抓取器

GoldData學習實例-采集官網新聞數據

一個抓取器可以配制抓取多個站點,一個站點也可以配制多個抓取器抓取。

然后點擊“開始”,則會啟動抓取器。

查看和導出數據

GoldData學習實例-采集官網新聞數據

可以按照搜索條件進行導出數據。選擇“導出”按扭后,還將提示導出哪些數據段,最后導出文件。 如果數據少量,將會導出為excel文件,否則下載的打包之后的zip文件。如下圖所示:

GoldData學習實例-采集官網新聞數據

本節內容描述到這里,下一篇將講述如何通過金色數據如何將數據融合到數據表當中去。

(注:本內容是根據培訓視頻整理而成,https://golddata.100shouhou.com/front/docs)

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

兴和县| 巴彦淖尔市| 开鲁县| 垫江县| 扎兰屯市| 塔河县| 鹤壁市| 大方县| 锦屏县| 安西县| 察隅县| 浠水县| 壶关县| 巴中市| 偏关县| 监利县| 宁强县| 北安市| 通许县| 新龙县| 鹤庆县| 文化| 调兵山市| 宜州市| 铜川市| 阆中市| 石景山区| 徐水县| 徐汇区| 神农架林区| 余庆县| 紫阳县| 雷州市| 清河县| 梅河口市| 进贤县| 林西县| 杂多县| 嵩明县| 马山县| 长丰县|