BeautifulSoup默認情況下只能解析HTML4標記語言中的標簽,對于HTML5中新增的標簽,需要使用額外的解析器來處理。
一種常用的解決方法是使用lxml解析器。lxml是一個功能強大且快速的XML和HTML處理工具,可以處理HTML5標簽。首先需要安裝lxml庫:
pip install lxml
然后在BeautifulSoup的初始化過程中使用lxml解析器:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
這樣就可以使用BeautifulSoup解析HTML5中的新標簽了。