91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

【Python | 邊學邊敲邊記】第四次:初識爬蟲框架Scrapy

發布時間:2020-08-16 17:45:01 來源:ITPUB博客 閱讀:195 作者:極簡XksA 欄目:編程語言


【Python | 邊學邊敲邊記】第四次:初識爬蟲框架Scrapy

一、前言

本系列上一篇:【Python | 邊學邊敲邊記】第三次:URL去重策略

今天給大家分享的是,Python里的爬蟲框架Scrapy學習,包含python虛擬環境的搭建、虛擬環境的使用、Scrapy安裝方法詳解、Scrapy基本使用、Scrapy項目目錄及內容基本介紹,let's go!

二、Python爬蟲框架Scrapy簡介

推薦查看Scrapy中文幫助文檔:點擊 閱讀原文 靜下心來學習!



 1


# 維基百科看Scrapy


2 '''
3 Scrapy(SKRAY -pee)是一個免費和開源 網絡爬行 框架 Python編寫的。最初設計用于Web抓取,它還可
4 以用于使用API或作為通用Web爬網程序提取數據。它目前由網絡抓取開發和服務公司Scrapinghub Ltd.維護
5
6 Scrapy項目體系結構是圍繞“Spider”構建的,它們是自包含的爬蟲,可以獲得一組指令。遵循其他框架的精
7 神,不重復自己的框架,例如Django,它允許開發人員重用他們的代碼,從而更容易構建和擴展大型爬行項
8 目。Scrapy還提供了一個Web爬行shell,開發人員可以使用它來測試他們對站點行為的假設。
9 (英譯漢有點尷尬!真的想學,還是好好看上面的幫助文檔吧)
10 '''

三、看代碼,邊學邊敲邊記虛擬環境、Scrapy框架

1.新建一個虛擬環境

下面 操作之前你需要準備好:
(1) 你的 python 版本是3.x,最好系統里只有一個python環境,后面所有學習筆記都基于 py3 的。
(2) python 環境里先安裝 virtualenv 模塊,基本方法 pip install virtualenv
(3)選擇好虛擬環境的安裝目錄(我選的是H盤目錄下的 env 文件夾,建議你選的目錄路徑里最好不要有中文)。



1

PS H:\env\> virtualenv spiderenv

2 Using base prefix 'c:\\users\\82055\\appdata\\local\\programs\\python\\python36'
3 New python executable in H:\env\spiderenv\Scripts\python.exe
4 Installing setuptools, pip, wheel...done.
5 注: 如果系統中有兩個python環境(py2和py3),新建基于py3的虛擬環境方法
6 virtualenv -python=你的Python3安裝目錄(精確到python.exe) spiderenv(虛擬環境名稱)

安裝完成后再自己選擇的目錄下會多出一個文件夾(虛擬環境),我這里為 H:\env\spiderenv ,后面所有爬蟲學習過程中需要的模塊、接口都將 pip (安裝)在里面。

2.打開虛擬環境,安裝Scrapy框架

進入到目錄 H:\env\spiderenv\Scripts (我的虛擬環境目錄),按住 shift +鼠標右鍵,打開 powershell 或者 cmd (如果是 powershell 就先輸入 cmd ),再輸入 activate ,進入虛擬環境,你會發現在路徑前面多了一個括號里面是你的虛擬環境名稱,表示你進入了虛擬環境。具體看下面:



1

# 注:打開powershell 的可以參照下面操作

2 PS H:\env\spiderenv\Scripts> cmd
3 Microsoft Windows [版本 10.0.17134.112]
4 (c) 2018 Microsoft Corporation。保留所有權利。
5
6 H:\env\spiderenv\Scripts>activate
7 (spiderenv) H:\spiderenv\Scripts>

安裝 scrapy 模塊(下面操作都是在虛擬環境下):
方法一:直接pip安裝(最簡單,安裝慢,可能出錯)



1

pip install scrapy

方法二:輪子(wheel)安裝(比較簡單,安裝速度還可以,基本不出錯)
點擊這里下載scrapy的 .whl 文件,然后移動到你的虛擬環境目錄下(比如我的就移動到 H:\env\spiderenv\Scripts ),



1

pip install Scrapy-1.5.1-py2.py3-none-any.whl

方法三:豆瓣源安裝(比較簡單,安裝速度快,方便,推薦)



1

pip install -i https://pypi.douban.com/simple/  scrapy

3.快速進入虛擬環境方法

安裝 virtualenvwrapper 模塊,用于管理我們所建的虛擬環境



1

# windows下安裝方法

2  pip install virtualenvwrapper-win
3 # 其他環境下安裝
4  pip install virtualenvwrapper

安裝完成后,打開 控制面板 - > 系統 -> 高級系統設置 - > 環境變量 ->   系統變量 -> 新建 ,在 新建系統環境變量對話框 中輸入如下



1

變量名:WORKON_HOME

2 變量值:你的虛擬環境安裝目錄
3 比如:我的虛擬環境spiderenv安裝在H:\env目錄下,我的變量值就為:H:\env\
4 注:變量值最后一定要以 \ 結尾,不然可能不會產生效果。


【Python | 邊學邊敲邊記】第四次:初識爬蟲框架Scrapy

在上面設置完成后,我們在 cmd 執行下面命令,即可簡單快速進入虛擬環境:


 1

PS C:\Users\82055\Desktop> cmd

2 Microsoft Windows [版本 10.0.17134.112]
3 (c) 2018 Microsoft Corporation。保留所有權利。
4
5 C:\Users\82055\Desktop>workon
6
7 Pass a name to activate one of the following virtualenvs:
8 ==============================================================================
9 spiderenv
10
11 C:\Users\82055\Desktop>workon spiderenv
12 (spiderenv) C:\Users\82055\Desktop>
13 # 注釋:成功進入,退出虛擬環境命令為 : deactivate
4.創建一個基于Scrapy框架的項目


 1

# 進入到自己的項目存放目錄

2 (spiderenv) H:\env>cd H:\spider_project
3
4 # 使用scrapy命令創建一個新工程
5 (spiderenv) H:\spider_project>scrapy startproject spider_bole_blog
6
7 New Scrapy project 'spider_bole_blog', using template directory 'h:\\env\\spiderenv\\
8 lib\\site-packages\\scrapy\\templates\\project', created in:
9     H:\spider_project\spider_bole_blog
10 # 提示創建網站爬蟲命令
11 You can start your first spider with:
12     cd spider_bole_blog
13     scrapy genspider example example.com

創建成功后文件目錄結構:



1

spider_bole_blog/

2     spider_bole_blog/
3             spiders/
4                 __init__.py
5             __init__.py
6             items.py
7             pipelines.py
8             settings.py
9     scrapy.cfg   

目錄功能基本介紹:



1


spider_bole_blog/: 該項目的python模塊。之后我們將在此加入代碼。


2 spider_bole_blog/spiders/: 放置spider代碼的目錄。
3 spider_bole_blog/items.py: 項目中的item文件。
4 spider_bole_blog/pipelines.py: 項目中的pipelines文件。
5 spider_bole_blog/settings.py: 項目的設置文件。
6 scrapy.cfg: 項目的配置文件。

創建一個 jobbole (伯樂在線)的爬蟲項目文件:



1

# 進入項目文件

2 (spiderenv) H:\spider_project>cd spider_bole_blog
3
4 # 執行命令,創建一個基于Srapy的伯樂在線的爬蟲
5 (spiderenv) H:\spider_project\spider_bole_blog>scrapy genspider jobbole blog.jobbole.com
6
7 Created spider 'jobbole' using template 'basic' in module:
8   spider_bole_blog.spiders.jobbole

執行完成后會在項目的 spiders 目錄下多出一個 jobbole.py 文件,文件內容如下:



 1


# -*- coding: utf-8 -*-        


2 # 編碼
3 import  scrapy
4 # 導入scrapy包
5
6 #繼承scrapy.Spider的 JobboleSpider 爬蟲類
7 class   JobboleSpider (scrapy.Spider) :
8
9      # 用于區別Spider。 該名字必須是唯一的,您不可以為不同的Spider設定相同的名字。
10     name =  'jobbole'
11
12      # 允許下載(訪問)域
13     allowed_domains = [ 'blog.jobbole.com' ]
14
15      # 包含了Spider在啟動時進行爬取的url列表。
16      # 因此,第一個被獲取到的頁面將是其中之一。
17      # 后續的URL則從初始的URL獲取到的數據中提取。
18     start_urls = [ 'http://blog.jobbole.com/' ]
19
20      # 是spider的一個方法。
21      # 被調用時,每個初始URL完成下載后生成的 Response 對象將會作為唯一的參數傳遞給該函數。
22      # 該方法負責解析返回數據(response data),提取數據(生成item)以及生成需要進一步處理的URL
23      # 的 Request 對象。
24      def   parse (self, response) :
25          pass

四、后言

????今天講的東西涵蓋面還比較廣,特別是虛擬環境管理這塊, virtualenvwrapper 還有很多命令,很實用,后面會慢慢給大家提及,大家也可以自己百度、谷歌查一下,另外, Scrapy 模塊今天也算正式開始,go on!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

肇州县| 方山县| 邳州市| 静海县| 葫芦岛市| 祁连县| 泸水县| 岳阳市| 土默特左旗| 桐庐县| 保亭| 溧水县| 玉门市| 兴城市| 金堂县| 吉木萨尔县| 邓州市| 师宗县| 敦煌市| 铜川市| 班戈县| 邛崃市| 龙口市| 景德镇市| 夏津县| 万载县| 六安市| 泽州县| 图片| 郁南县| 海伦市| 美姑县| 庆云县| 临西县| 兴山县| 东港市| 新邵县| 奎屯市| 翼城县| 漯河市| 巴马|