91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python 爬蟲之數據解析模塊bs4基礎

發布時間:2020-08-02 16:58:49 來源:網絡 閱讀:447 作者:insist_way 欄目:編程語言

介紹:

最近在學Python爬蟲,在這里對數據解析模塊bs4做個學習筆記。


用途:

bs4用于解析xml文檔,而html只是xml的一種


bs4 官方文檔地址:

https://www.crummy.com/software/BeautifulSoup/bs4/doc/


學習筆記:


from bs4 import BeautifulSoup


html_doc = """

<html><head><title>The Dormouse's story</title></head>

<body>

<p class="title"><b>The Dormouse's story</b></p>


<p class="story">Once upon a time there were three little sisters; and their names were

<a class=... ... ... ... ... ... "sister" id="link1">Elsie</a>,

<a class="sister" id="link2">Lacie</a> and

<a class="sister" id="link3">Tillie</a>;

and they lived at the bottom of a well.</p>


<p class="story">...</p>

"""


soup = BeautifulSoup(html_doc,'html.parser')? ? #創建一個BeautifulSoup對象,添加html文件解析器,在不同平臺可能不同,在Linux上就不需要

print(soup.prettify())? ? #美化輸出

print(soup.get_text())? ??#將html_doc變量中保存的全部內容輸出(Linux系統會以\n隔開)

print('')


print(type(soup.title))

print(dir(soup.title))


print(soup.title)? ? #獲取html標題

????<title>The Dormouse's story</title>

print(soup.title.text)? ? #獲取html標題內容

????"The Dormouse's story"


print(soup.a)? ? ? ?#獲取a標簽(第一個)

????<a class="sister" id="link1">Elsie</a>

print(soup.a.attrs)? ?#獲取第一個a標簽的所有屬性,組成一個字典

????{'href': 'http://example.com/elsie', 'class': ['sister'], 'id': 'link1'}

print(soup.a.attrs['href'])? ? #獲取第一個a標簽的href屬性

????'http://example.com/elsie'

print(soup.a.has_attr('class'))? ? ?#判斷class屬性是否存在

????True


print(soup.p)? ? #獲取p標簽(第一個)

????<p class="title"><b>The Dormouse's story</b></p>

print(soup.p.children)? ? #獲取第一個p標簽下的所有子節點

????<list_iterator object at 0x7fe8185261d0>

print(list(soup.p.children))

????[<b>The Dormouse's story</b>]

print(list(soup.p.children)[0])

????<b>The Dormouse's story</b>

print(list(soup.p.children)[0].text)

????"The Dormouse's story"


print(soup.find_all('a'))? ? #獲取所有的a標簽

????[<a class="sister" id="link1">Elsie</a>, <a class="sister" id=a class="sister" id="link3">Tillie</a>]

for a in soup.find_all('a'):? ?#遍歷所有的a標簽

? ? print(a.attrs['href'])


print(soup.find(id='link3'))? ? #獲取id=link3的標簽

????<a class="sister" id="link3">Tillie</a>

print('#'*150)


#支持CSS選擇器

#查找類名為story的節點

print(soup.select('.story'))

print('')

print(soup.select('.story a'))

print('')

#查找id=link1的節點

print(soup.select('#link1'))

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

罗源县| 宣武区| 江油市| 江源县| 罗山县| 鸡泽县| 论坛| 木兰县| 平山县| 微博| 阳春市| 灵石县| 灵寿县| 潍坊市| 安阳县| 秀山| 济宁市| 祁连县| 绍兴县| 湘乡市| 时尚| 河曲县| 邓州市| 弥渡县| 会泽县| 邯郸县| 安康市| 江川县| 祥云县| 桐柏县| 罗源县| 大港区| 玉树县| 桦南县| 阳曲县| 肃南| 黄浦区| 翼城县| 呼图壁县| 东莞市| 和平区|