91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python中如何實現數據抓取

發布時間:2021-02-20 10:07:56 來源:億速云 閱讀:273 作者:小新 欄目:編程語言

這篇文章給大家分享的是有關python中如何實現數據抓取的內容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。

三種數據抓取的方法

  1. 正則表達式(re庫)

  2. BeautifulSoup(bs4)

  3. lxml

*利用之前構建的下載網頁函數,獲取目標網頁的html,我們以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/為例,獲取html。

python中如何實現數據抓取

from get_html import download

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'page_content = download(url)

*假設我們需要爬取該網頁中的國家名稱和概況,我們依次使用這三種數據抓取的方法實現數據抓取。
1.正則表達式

from get_html import downloadimport re

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'page_content = download(url)country = re.findall('class="h3dabiaoti">(.*?)</h3>', page_content) #注意返回的是listsurvey_data = re.findall('<tr><td bgcolor="#FFFFFF" id="wzneirong">(.*?)</td></tr>', page_content)survey_info_list = re.findall('<p>  (.*?)</p>', survey_data[0])survey_info = ''.join(survey_info_list)print(country[0],survey_info)

2.BeautifulSoup(bs4)

from get_html import downloadfrom bs4 import BeautifulSoup

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'html = download(url)#創建 beautifulsoup 對象soup = BeautifulSoup(html,"html.parser")#搜索country = soup.find(attrs={'class':'h3dabiaoti'}).text
survey_info = soup.find(attrs={'id':'wzneirong'}).textprint(country,survey_info)

3.lxml

from get_html import downloadfrom lxml import etree #解析樹url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'page_content = download(url)selector = etree.HTML(page_content)#可進行xpath解析country_select = selector.xpath('//*[@id="main_content"]/h3') #返回列表for country in country_select:
    print(country.text)survey_select = selector.xpath('//*[@id="wzneirong"]/p')for survey_content in survey_select:
    print(survey_content.text,end='')

運行結果:
python中如何實現數據抓取
最后,引用《用python寫網絡爬蟲》中對三種方法的性能對比,如下圖:
python中如何實現數據抓取
僅供參考。

感謝各位的閱讀!關于“python中如何實現數據抓取”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,讓大家可以學到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

肥乡县| 阜康市| 陇南市| 广德县| 根河市| 清苑县| 天峻县| 吉首市| 福州市| 外汇| 陕西省| 南城县| 和龙市| 海晏县| 齐河县| 错那县| 鄂托克旗| 灵武市| 怀柔区| 溧水县| 封丘县| 中山市| 额敏县| 教育| 和顺县| 卢湾区| 弋阳县| 昆山市| 朝阳区| 黄龙县| 夹江县| 南城县| 镇远县| 齐齐哈尔市| 林甸县| 金昌市| 卢龙县| 株洲市| 临江市| 应城市| 儋州市|