91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么用Scrapy構建一個網絡爬蟲

發布時間:2021-09-15 15:32:58 來源:億速云 閱讀:127 作者:chen 欄目:云計算

這篇文章主要講解了“怎么用Scrapy構建一個網絡爬蟲”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“怎么用Scrapy構建一個網絡爬蟲”吧!

我們來看下Scrapy怎么做到這些功能的。首先準備Scrapy環境,你需要安裝Python(本文使用v2.7)和pip,然后用pip來安裝lxml和scrapy。個人強烈建議使用virtualenv來安裝環境,這樣不同的項目之間不會沖突。詳細步驟這里就不贅述了。對于Mac用戶要注意,當使用pip安裝lxml時,會出現類似于的下面錯誤:

Error: #include “xml/xmlversion.h” not found

解決這個問題,你需要先安裝Xcode的command line tools,具體的方法是在命令行執行下面的命令即可。

$ xcode-select --install

環境安裝好之后,我們來用Scrapy實現一個簡單的爬蟲,抓取本博客網站的文章標題,地址和摘要。

    1

    1

    2

    3

    4

    5

    6

    7

    8

    1. 設置待抓取內容的字段,本例中就是文章的標題,地址和摘要

修改”items.py”文件,在”MyCrawlerItem”類中加上如下代碼:

Python

# -*- coding: utf-8 -*-

import scrapy


class MyCrawlerItem(scrapy.Item):

    title = scrapy.Field()    # 文章標題

    url = scrapy.Field()      # 文章地址

    summary = scrapy.Field()  # 文章摘要

    pass



對于XPath不熟悉的朋友,可以通過Chrome的debug工具獲取元素的XPath。

    1

    1. 將結果保存到數據庫

這里我們采用MongoDB,你需要先安裝Python的MongoDB庫”pymongo”。編輯”my_crawler”目錄下的”pipelines.py”文件,在”MyCrawlerPipeline”類中加上如下代碼:

Python

# -*- coding: utf-8 -*-

import pymongo


from scrapy.conf import settings

from scrapy.exceptions import DropItem


class MyCrawlerPipeline(object):

    def __init__(self):

        # 設置MongoDB連接

        connection = pymongo.Connection(

            settings['MONGO_SERVER'],

            settings['MONGO_PORT']

        )

        db = connection[settings['MONGO_DB']]

        self.collection = db[settings['MONGO_COLLECTION']]


    # 處理每個被抓取的MyCrawlerItem項

    def process_item(self, item, spider):

        valid = True

        for data in item:

            if not data:  # 過濾掉存在空字段的項

                valid = False

                raise DropItem("Missing {0}!".format(data))


        if valid:

            # 也可以用self.collection.insert(dict(item)),使用upsert可以防止重復項

            self.collection.update({'url': item['url']}, dict(item), upsert=True)


        return item

再打開”my_crawler”目錄下的”settings.py”文件,在文件末尾加上pipeline的設置:

Python

ITEM_PIPELINES = {

    'my_crawler.pipelines.MyCrawlerPipeline': 300,    # 設置Pipeline,可以多個,值為執行優先級

}


# MongoDB連接信息

MONGO_SERVER = 'localhost'

MONGO_PORT = 27017

MONGO_DB = 'bjhee'

MONGO_COLLECTION = 'articles'


DOWNLOAD_DELAY=2    # 如果網絡慢,可以適當加些延遲,單位是秒


  1. <td class="crayon-code" ">

  2. $ scrapy crawl my_crawler

    別忘了啟動MongoDB并創建”bjhee”數據庫哦。現在你可以在MongoDB里查詢到記錄了。

    總結下,使用Scrapy來構建一個網絡爬蟲,你需要做的就是:廈門叉車租賃公司

    • “items.py”中定義爬取字段

    • 在”spiders”目錄下創建你的爬蟲,編寫解析函數和規則

    • “pipelines.py”中對爬取后的結果做處理

    • “settings.py”設置必要的參數


感謝各位的閱讀,以上就是“怎么用Scrapy構建一個網絡爬蟲”的內容了,經過本文的學習后,相信大家對怎么用Scrapy構建一個網絡爬蟲這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

东兴市| 乌鲁木齐市| 金川县| 稷山县| 霍林郭勒市| 凉山| 沙坪坝区| 宜昌市| 丁青县| 连云港市| 广元市| 锡林浩特市| 和林格尔县| 广东省| 喀喇沁旗| 延安市| 禄劝| 沧州市| 友谊县| 灌南县| 区。| 聂拉木县| 黑水县| 黄梅县| 阆中市| 海阳市| 农安县| 萨嘎县| 泰顺县| 前郭尔| 肥城市| 南澳县| 长岭县| 永寿县| 台安县| 治县。| 康乐县| 汝阳县| 阿克陶县| 阳东县| 寿阳县|