91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python 通過requests實現騰訊新聞抓取爬蟲的方法

發布時間:2020-09-09 08:46:36 來源:腳本之家 閱讀:210 作者:無緣浪子黨 欄目:開發技術

最近也是學習了一些爬蟲方面的知識。以我自己的理解,通常我們用瀏覽器查看網頁時,是通過瀏覽器向服務器發送請求,然后服務器響應以后返回一些代碼數據,再經過瀏覽器解析后呈現出來。而爬蟲則是通過程序向服務器發送請求,并且將服務器返回的信息,通過一些處理后,就能得到我們想要的數據了。

以下是前段時間我用python寫的一個爬取TX新聞標題及其網址的一個簡單爬蟲:

首先需要用到python中requests(方便全面的http請求庫)和 BeautifulSoup(html解析庫)。

通過pip來安裝這兩個庫,命令分別是:pip install requests 和 pip install bs4 (如下圖)

Python 通過requests實現騰訊新聞抓取爬蟲的方法

先放上完整的代碼

# coding:utf-8
import requests
from bs4 import BeautifulSoup
 
url = "http://news.qq.com/"
# 請求騰訊新聞的URL,獲取其text文本
wbdata = requests.get(url).text
# 對獲取到的文本進行解析
soup = BeautifulSoup(wbdata,'lxml')
# 從解析文件中通過select選擇器定位指定的元素,返回一個列表
news_titles = soup.select("div.text > em.f14 > a.linkto")
 
# 對返回的列表進行遍歷
for n in news_titles:
  title = n.get_text()
  link = n.get("href")
  data = {
    '標題':title,
    '鏈接':link
  }
  print(data)

首先引入上述兩個庫

import requests
from bs4 import BeautifulSoup

然后get請求騰訊新聞網url,返回的字符串實質上就是我們手動打開這個網站,然后查看網頁源代碼所看到的html代碼。

wbdata = requests.get(url).text

我們需要的僅僅是某些特定標簽里的內容:

Python 通過requests實現騰訊新聞抓取爬蟲的方法

Python 通過requests實現騰訊新聞抓取爬蟲的方法

可以看出,每條新聞鏈接、標題都在<div class="text">標簽的<em class="f14 124">標簽下

之后我們將剛剛請求得到的html代碼進行處理,這時候就需要用到BeautifulSoap庫了

soup = BeautifulSoup(wbdata,'lxml')

這一行的意思是對獲取的信息進行解析處理,也可以將lxml庫換成html.parser庫,效果是相同的

news_titles = soup.select("div.text > em.f14 > a.linkto")

這一行是利用剛剛經過解析獲取的soup對象,選擇我們需要的標簽,返回值是一個列表。列表中存放了我們需要的所有標簽內容。也可以使用BeautifulSoup中的find()方法或findall()方法來對標簽進行選擇。

最后用 for in 對列表進行遍歷,分別取出標簽中的內容(新聞標題)和標簽中href的值(新聞網址),存放在data字典中

for n in news_titles:
  title = n.get_text()
  link = n.get("href")
  data = {
    '標題':title,
    '鏈接':link
  }

data存放的就是所有的新聞標題和鏈接了,下圖是部分結果

Python 通過requests實現騰訊新聞抓取爬蟲的方法

這樣一個爬蟲就完成了,當然這只是一個最簡單的爬蟲。深入爬蟲的話還有許多模擬瀏覽器行為、安全問題、效率優化、多線程等等需要考慮,不得不說爬蟲是一個很深的坑。

python中爬蟲可以通過各種庫或者框架來完成,requests只是比較常用的一種而已。其他語言中也會有許多爬蟲方面的庫,例如php可以使用curl庫。爬蟲的原理都是一樣的,只是用不同語言、不同庫來實現的方法不一樣。

以上這篇Python 通過requests實現騰訊新聞抓取爬蟲的方法就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持億速云。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

龙川县| 高州市| 桦川县| 和顺县| 威远县| 曲麻莱县| 阿拉尔市| 西贡区| 华阴市| 县级市| 孝义市| 绿春县| 得荣县| 高密市| 松江区| 嘉义市| 驻马店市| 巴彦淖尔市| 威信县| 明光市| 富顺县| 交城县| 芦溪县| 玉田县| 克东县| 泌阳县| 仁化县| 韶关市| 比如县| 金沙县| 张掖市| 康定县| 博乐市| 延寿县| 侯马市| 甘德县| 喜德县| 仙桃市| 张家口市| 南京市| 江孜县|