91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

小白,BeautifulSoup初步整理,后續添加

發布時間:2020-06-28 04:18:55 來源:網絡 閱讀:796 作者:2407586063 欄目:編程語言

form bs4 import BeautifulSoup
要導入bs4模塊
注意BeautifulSoup大小寫
soup = BeautifulSoup('html','html.parser')
第一個參數html為要解析的html文檔,html是字符串

解析到soup中后才可以開始使用

soup中用的比較多的方法為find_all()
用法有:
soup.find_all('a')//找出所有的a標簽中的內容,返回的是一個數組,數組中的每個元素又是BeautifulSoup對象
find_all()中還可以加屬性查詢,如:soup.findall('a',class=''),如果有多個,可以soup.findall('a',class=['c1','c2']),class_中的內容為樣式,只要查找的內容中有其中一個樣式就行
如:
s = '''<a href='xxx' class='c1'>aaaaaaa</a>
<a href='xxx' class='c2'></a>
<a href='xxx' class='c1 c3'></a>
<a href='xxx' class='c1 c2'></a>'''
這里面的都可以找出來
還有一種寫法:
soup.find_all('a',attrs={'class':re.compile('')}),使用正則表達式,

拿到查找內容后,如果要解析標簽中的內容
find_all()要循環取
假設拿到其中一個,以a標簽為例
拿到的a1 = '<a href='xxx' class='c1'>'
拿鏈接:href = a1['href']
拿標簽中的內容:content = a1.string

BeautifulSoup中還有find方法,用法與find_all()一樣,只是該方法只取第一個符合條件的

注:如果標簽不是成對的,如:<span><img src='xxxx' ></span>
此時,你用find('img')是拿不到img標簽的,你需要取到他的上級成對標簽span
然后在解析span標簽中的內容,如
span = soup.find('span'),假設拿到的是'<span><img src='xxxx' ></span>'
此時你需要解析他的子標簽,使用children屬性
span.children
此時返回的結果是list_itrator對象,要么使用for循環去取,沒試過,要么使用next(list_itrator)取,可以拿到第一個子標簽<img>
然后拿到src的值:src = next(list_itrator)['src']
當然如果標簽是成對的,直接使用find('img')
注:
使用BeautifulSoup,以后所有返回帶有標簽內容的對象都是BeautifulSoup對象(個人理解)
如果要分析的內容太多,可以將需要的字符串內容截取到合適的地方,因為BeautifulSoup解析實在是太耗時間了,雖然方便

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

乐都县| 乌拉特后旗| 扎赉特旗| 大英县| 玉林市| 泉州市| 饶河县| 金沙县| 枞阳县| 内江市| 涿州市| 闽侯县| 温宿县| 抚宁县| 淮阳县| 四川省| 沾益县| 永靖县| 尼勒克县| 克什克腾旗| 郎溪县| 恩平市| 阳江市| 丰都县| 上高县| 绍兴县| 松桃| 班玛县| 醴陵市| 新密市| 长治县| 紫云| 诸城市| 平度市| 平凉市| 孝昌县| 克东县| 紫金县| 临夏县| 霍林郭勒市| 绥阳县|