您好,登錄后才能下訂單哦!
這篇文章給大家分享的是有關python中bs4解析和xpath解析的示例分析的內容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。
1.實例化一個BeautifulSoup對象,并且將頁面源碼數據加載到該對象中
2.通過調用BeautifulSoup對象中相關的屬性或者方法進行標簽定位和數據提取
from bs4 import BeautifulSoup
BeautifulSoup(參數一,參數二)
參數一為文件描述符,參數二為解析器,一般為’lxml’
一對象的實例化:
1.將本地的html文檔中的數據加載到該對象中
fp = open( './test.html','r',encoding='utf-8') soup=BeautifulSoup(fp,'lxml')
2.將互聯網上獲取的頁面源碼加載到該對象中
page_text =response.text soup=BeatifulSoup(page_text,'lxml')
soup指初始化的BeautifulSoup對象
1.soup.tagName:返回的是文檔中第一次出現的tagName對應的標簽
2.soup.find():
(1).find( ‘tagName’):等同于soup.tagName
(2).屬性定位:soup.find(‘div’,class_/id/或者其他屬性=‘song’)
定位到< div class=“song”>/< div id=“song”>的標簽下
class如果沒有加_則代表關鍵字
3.soup.find_all(‘tagName’):返回符合要求的所有標簽(列表)
soup對象: <div class="tang"> <ul> <li><a href="http://www.baidu.com" rel="external nofollow" title= "ging">清明時節雨紛紛,路上行人欲斷魂,借問酒家何處有,牧童遙指杏花村</a></1i> <li><a href="http://www.163.com" rel="external nofollow" title="qin">秦時明月漢時關,萬里長征人未還,但使龍城飛將在,不教胡馬度陰山</a></1i> <li><a href=" http://ww.126.com" rel="external nofollow" alt="qi ">歧王宅里尋常見,崔九堂前幾度聞,正是江南好風景,落花時節又逢君</a></li> <li><a href="http: //www.sina.com" rel="external nofollow" class="du">杜甫</a></li> <li><a href="http://www.dudu.com" rel="external nofollow" class="du">杜牧</a></li> <li><b>杜小月</b></li> <li><i>度蜜月</i></li> <li><a href="http://ww.hana.com”id=" rel="external nofollow" feng">鳳凰臺上鳳凰游,鳳去臺空江自流,吳宮花草埋幽徑,晉代衣冠成古丘</a></li> </ul> </div>
4.select:
- select(‘某種選擇器(id,class,標簽…選擇器)’),返回的是一個列表。
標簽什么都不加,class前面加. id前面加#
層級選擇器:
>表示的是一個層級;空格表示的多個層級
soup.select( '.tang > ul > li > a') soup.select( '.tang >ul a') 結果為:[<a href="http://www.baidu.com" title= "ging">清明時節雨紛紛,路上行人欲斷魂,借問酒家何處有,牧童遙指杏花村</a>, <a href="http://www.163.com" title="qin">秦時明月漢時關,萬里長征人未還,但使龍城飛將在,不教胡馬度陰山</a>, <a href=" http://ww.126.com"alt="qi ">歧王宅里尋常見,崔九堂前幾度聞,正是江南好風景,落花時節又逢君</a>, <a href="http: //www.sina.com" class="du">杜甫</a>, <a href="http://www.dudu.com" class="du">杜牧</a>, <a href="http://ww.hana.com”id="feng">鳳凰臺上鳳凰游,鳳去臺空江自流,吳宮花草埋幽徑,晉代衣冠成古丘</a>]
5.獲取標簽之間的文本數據:
-soup.a.text/string/get_text()
-text/get_text():可以獲取某一個標簽中所有的文本內容
-string:只可以獲取該標簽下面直系的文本內容
6.獲取標簽中屬性值:
soup.a[‘屬性值’]
print(soup.select( '.tang > ul > li > a') [0]['href']) 結果: www.baidu.com
最常用且最便捷高效的一種解析方式。通用性。
1.實例化一個etree的對象,且需要將被解析的頁面源碼數據加載到該對象中。
2調用etree對象中的xpath方法結合著xpath表達式實現標簽的定位和內容的捕獲。
from lxml import etree
-1.將本地的html文檔中的源碼數據加載到etree對象中:
etree.parse(filePath)
-2.可以將從互聯網上獲取的源碼數據加載到該對象中
etree.HTML( 'page_text')
xpath表達式:(返回一個列表)
-/:表示的是從根節點開始定位。表示的是一個層級。
-//:表示的是多個層級。可以表示從任意位置開始定位。
-屬性定位://div[@class=‘song’] tag[@attrname=‘attrvalue’]
-索引定位://div[@class=‘song’]/p[3]
索引從1開始的
取文本:
/text()獲取的是標簽中直系的文本內容
//text(標簽中非直系的文本內容(所有的文本內容)
取屬性:
/@attrName
eg:/img/@src
./表示定位到當前位置(局部解析)
多個xpath之間用|分割:
tree.xpath(’//div[@class=‘song’]/p[3] | //div[@class=‘song’]’)
感謝各位的閱讀!關于“python中bs4解析和xpath解析的示例分析”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,讓大家可以學到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。