91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

詳解如何使用Python網頁解析器

發布時間:2020-07-20 15:57:57 來源:億速云 閱讀:164 作者:小豬 欄目:開發技術

小編這次要給大家分享的是詳解如何使用Python網頁解析器,文章內容豐富,感興趣的小伙伴可以來了解一下,希望大家閱讀完這篇文章之后能夠有所收獲。

python 網頁解析器

  1、常見的python網頁解析工具有:re正則匹配、python自帶的html.parser模塊、第三方庫BeautifulSoup(重點學習)以及lxm庫。

詳解如何使用Python網頁解析器

  2、常見網頁解析器分類

  (1)模糊匹配 :re正則表達式即為字符串式的模糊匹配模式;

  (2)結構化解析: BeatufiulSoup、html.parser與lxml,他們都以DOM樹結構為標準,進行標簽結構信息的提取。

  3.DOM樹解釋:即文檔對象模型(Document Object Model),其樹形標簽結構,請見下圖。

  所謂結構化解析,就是網頁解析器它會將下載的整個HTML文檔當成一個Doucment對象,然后在利用其上下結構的標簽形式,對這個對象進行上下級的標簽進行遍歷和信息提取操作。

# 引入相關的包,urllib與bs4,是獲取和解析網頁最常用的庫
from urllib.request import urlopen
from bs4 import BeautifulSoup

# 打開鏈接
html=urlopen("https://www.datalearner.com/website_navi")

# 通過urlopen獲得網頁對象,將其放入BeautifulSoup中,bsObj存放的目標網頁的html文檔

bsObj=BeautifulSoup(html.read())
print(bsObj)

# soup = BeautifulSoup(open(url,'r',encoding = 'utf-8'))

import requests
from bs4 import BeautifulSoup

headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.110 Safari/537.36','referer':"www.mmjpg.com" }
all_url = 'http://www.mmjpg.com/'
  #'User-Agent':請求方式
  #'referer':從哪個鏈接跳轉進來的

start_html = requests.get(all_url, headers=headers)
  #all_url:起始的地址,也就是訪問的第一個頁面
  #headers:請求頭,告訴服務器是誰來了。
  #requests.get:一個方法能獲取all_url的頁面內容并且返回內容。

Soup = BeautifulSoup(start_html.text, 'lxml')
  #BeautifulSoup:解析頁面
  #lxml:解析器
  #start_html.text:頁面的內容

看完這篇關于詳解如何使用Python網頁解析器的文章,如果覺得文章內容寫得不錯的話,可以把它分享出去給更多人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

贺州市| 合肥市| 无锡市| 开远市| 余庆县| 郓城县| 崇文区| 清远市| 和田市| 五莲县| 黑水县| 乌海市| 星子县| 北海市| 高雄市| 海安县| 佛山市| 吉隆县| 会宁县| 罗田县| 兴山县| 三门峡市| 临高县| 平定县| 环江| 墨脱县| 湘乡市| 诏安县| 萍乡市| 扎赉特旗| 耿马| 仁化县| 宿迁市| 临洮县| 集贤县| 新源县| 濉溪县| 延安市| 锡林郭勒盟| 鹤峰县| 广宗县|