Python爬蟲框架NewSpaper如何使用

發布時間：2022-08-29 16:40:54 來源：億速云閱讀：187 作者：iii 欄目：開發技術

今天小編給大家分享一下Python爬蟲框架NewSpaper如何使用的相關知識點，內容詳細，邏輯清晰，相信大部分人都還太了解這方面的知識，所以分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后有所收獲，下面我們一起來了解一下吧。

newspaper

安裝非常簡單

pip install newspaper3k -i pypi.tuna.tsinghua.edu.cn/simple

Python爬蟲框架NewSpaper如何使用

newspaper框架的使用

對于這款框架，使用起來難度是非常低的。簡單對照這一頁文檔即可應用起來

例如：單條新聞內容獲取

第一種應用方式，直接獲取網頁內容

from newspaper import Article
url = "https://36kr.com/p/857678806293124"
article = Article(url) # 創建文章對象
article.download()        # 加載網頁
article.parse()           # 解析網頁
print(article.html) # 打印html文檔

當然還有一些其他屬性，不過該框架都是基于關鍵字識別的，有一些BUG存在，有時識別不準

# print(article.html) # 打印html文檔
print(article.text) # 新聞正文
print("-"*100)
print(article.title) # 新聞標題
print("-"*100)
print(article.authors)  # 新聞作者
print("-"*100)
print(article.summary)   # 新聞摘要
print(article.keywords) # 新聞關鍵詞
# print(article.top_image) # 本文的top_image的URL
# print(article.images) # 本文中的所有圖像url

newspaper文章緩存

默認情況下，newspaper緩存所有待提取的文章，如果文章被爬取過之后就會清除掉它。此功能用于防止重復的文章和提高提取速度。可以使用memoize_articles參數選擇是否緩存。

但當我使用下面這個辦法進行提取的時候，神奇的BUG出現了，怎么也得不到我想要的文章了。唉~看來框架完善之路還是要繼續啊

import newspaper
url = "https://news.sina.com.cn/c/2020-08-29/doc-iivhvpwy3651884.shtml"
# article = Article(url) # 創建文章對象
# article.download()        # 加載網頁
# article.parse()           # 解析網頁
news = newspaper.build(url, language='zh', memoize_articles=False)
article = news.articles[0]
article.download()
article.parse()
print('title=',article.title)

其他功能

在應用的過程中發現確實解析存在很大的問題，不過整體的框架設計思路還是非常棒的。有點高開低走，看到github上的評語其實對newspaper是非常有期待的，使用之后，我建議還是使用requests然后加上bs4自己搞搞更加合理。

除了上面簡單介紹到的功能，它還有一些擴展，例如下面這些

requests和newspaper合體解析網頁正文，也就是用requests爬取，newspaper充當解析器
可以調用Google Trends信息
支持多任務爬取
支持NPL自然語言處理

以上就是“Python爬蟲框架NewSpaper如何使用”這篇文章的所有內容，感謝各位的閱讀！相信大家閱讀完這篇文章都有很大的收獲，小編每天都會為大家更新不同的知識，如果還想學習更多的知識，請關注億速云行業資訊頻道。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Python爬蟲框架NewSpaper如何使用

newspaper

newspaper框架的使用

例如：單條新聞內容獲取

newspaper文章緩存

其他功能

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Python爬蟲框架NewSpaper如何使用

newspaper

newspaper框架的使用

例如：單條新聞內容獲取

newspaper文章緩存

其他功能

猜你喜歡

最新資訊

相關推薦

相關標簽