urllib和BeautifulSoup爬取維基百科的詞條簡單實例

發布時間：2020-08-19 15:41:58 來源：腳本之家閱讀：308 作者：powerpoint_2016 欄目：開發技術

本文實例主要實現的是使用urllib和BeautifulSoup爬取維基百科的詞條，具體如下。

簡潔代碼：

#引入開發包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
#請求URL并把結果用UTF-8編碼
resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")
#使用BeautifulSoup去解析
soup=BeautifulSoup(resp,"html.parser")
#print(soup)
#獲取所有以/wiki/開頭的a標簽的href屬性
listUrl=soup.findAll("a",href=re.compile("^/wiki/"))
#輸出所有詞條對應的名稱和URL
for link in listUrl:
  if not re.search("\.(jpg|JPG)$",link["href"]):
    print(link.get_text(),"<----->","https://zh.wikipedia.org"+link["href"])

運行結果：

urllib和BeautifulSoup爬取維基百科的詞條簡單實例

總結

總的來說，Python是簡潔而又強大的，調用幾個庫，就能實現其他語言一大堆代碼才能實現的功能。

以上就是本文關于urllib和BeautifulSoup爬取維基百科的詞條簡單實例的全部內容，希望對大家有所幫助。感興趣的朋友可以繼續參閱本站其他相關專題，如有不足之處，歡迎留言指出。感謝朋友們對本站的支持！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

urllib和BeautifulSoup爬取維基百科的詞條簡單實例

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

urllib和BeautifulSoup爬取維基百科的詞條簡單實例

猜你喜歡

最新資訊

相關推薦

相關標簽