from lxml import etree
html = etree.HTML(html_text)
# 選擇所有的a標簽
links = html.xpath('//a')
# 選擇class為title的div標簽下的所有p標簽
paragraphs = html.xpath('//div[@class="title"]/p')
# 選擇第一個li標簽下的所有span標簽
spans = html.xpath('//li[1]//span')
for link in links:
print(link.text)
for paragraph in paragraphs:
print(paragraph.text)
for span in spans:
print(span.get('class'))
# 選擇class為title的div標簽下的所有超鏈接,并且鏈接內容以http開頭的
links = html.xpath('//div[@class="title"]/a[starts-with(@href, "http")]')
通過以上技巧,可以靈活地使用xpath選擇器解析網頁內容,從而進行數據抓取和分析。