python寫爬蟲的案例分析

發布時間：2020-08-03 16:09:30 來源：億速云閱讀：128 作者：清晨欄目：編程語言

這篇文章將為大家詳細講解有關python寫爬蟲的案例分析，小編覺得挺實用的，因此分享給大家做個參考，希望大家閱讀完這篇文章后可以有所收獲。

所謂網絡爬蟲，通俗的講，就是通過向我們需要的URL發出http請求，獲取該URL對應的http報文主體內容，之后提取該報文主體中我們所需要的信息。

下面是一個簡單的爬蟲程序

http基本知識

當我們通過瀏覽器訪問指定的URL時，需要遵守http協議。本節將介紹一些關于http的基礎知識。

http基本流程

我們打開一個網頁的過程，就是一次http請求的過程。這個過程中，我們自己的主機充當著客戶機的作用，而充當客戶端的是瀏覽器。我們輸入的URL對應著網絡中某臺服務器上面的資源，服務器接收到客戶端發出的http請求之后，會給客戶端一個響應，響應的內容就是請求的URL對應的內容，當客戶端接收到服務器的響應時，我們就可以在瀏覽器上看見請求的信息了。

推薦學習《python教程》

我們可以通過python的requests模塊很方便的發起http請求。requests模塊是第三方模塊，安裝完成之后直接import就能使用。下面介紹一些簡單的用法

發起請求

import requests
# 請求的首部信息
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) 
    Chrome/65.0.3325.146 Safari/537.36'
}
# 例子的url
url = 'https://voice.hupu.com/nba' # 虎撲nba新聞
# 利用requests對象的get方法，對指定的url發起請求
# 該方法會返回一個Response對象
res = requests.get(url, headers=headers)
# 通過Response對象的text方法獲取網頁的文本信息
print(res.text)

上面的代碼中，我們向虎撲的服務器發送了一個get請求，獲取虎撲首頁的nba新聞。headers參數指的是http請求的首部信息，我們請求的url對應的資源是虎撲nba新聞的首頁。獲取到對應的網頁資源之后，我們需要對其中的信息進行提取。

通過BeautifulSoup提取網頁信息

BeautifulSoup庫提供了很多解析html的方法，可以幫助我們很方便地提取我們需要的內容。我們這里說的BeautifulSoup指的是bs4。當我們成功抓取網頁之后，就可以通過BeautifulSoup對象對網頁內容進行解析。在BeautifulSoup中，我們最常用的方法就是find()方法和find_all()方法，借助于這兩個方法，可以輕松地獲取到我們需要的標簽或者標簽組。關于其他的方法，可以參考bs4的官方文檔：BeautifulSoup

find()方法和find_all()方法的用法如下

find(name , attrs , recursive , string , **kwargs )
# find_all()方法將返回文檔中符合條件的所有tag，
find_all(name , attrs , recursive , string , **kwargs )

from bs4 import BeautifulSoup
# BeautifulSoup對象接收html文檔字符串
# lxml是html解析器
soup = Beautiful(res.text, 'lxml')
# 下面的方法找出了所有class為hello的span標簽
# 并將所有的結果都放入一個list返回
tags = soup.find_all('span', {'class': 'hello'})

關于python寫爬蟲的案例分析就分享到這里了，希望以上內容可以對大家有一定的幫助，可以學到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

python寫爬蟲的案例分析

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

python寫爬蟲的案例分析

猜你喜歡

最新資訊

相關推薦

相關標簽