怎么在python中利用pdfminer3k讀取PDF文檔

發布時間：2021-03-23 17:07:19 來源：億速云閱讀：208 作者：Leah 欄目：開發技術

怎么在python中利用pdfminer3k讀取PDF文檔？很多新手對此不是很清楚，為了幫助大家解決這個難題，下面小編將為大家詳細講解，有這方面需求的人可以來學習下，希望你能有所收獲。

1、安裝 pdfminer3k

通過pip安裝: pip install pdfminer3k

下載安裝：在網頁 https://pypi.org/project/pdfminer3k/1.3.1/#files 進行下載，解壓。然后cmd命令進入到當前文件夾：

可以直接在資源管理器的路徑欄直接輸入cmd進入到當前目錄。然后執行 python setup.py install 等待安裝完成

怎么在python中利用pdfminer3k讀取PDF文檔

2.讀取pdf中的TXT代碼示例：

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法獲取網絡上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#獲取文檔對象
#fp = open("****.pdf", "rb")

#創建一個一個與文檔關聯的解釋器
parser = PDFParser(fp)

#PDF文檔的對象
doc = PDFDocument()

#連接解釋器和文檔對象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文檔,當前文檔沒有密碼，設為空字符串
doc.initialize("")

#創建PDF資源管理器
resource = PDFResourceManager()

#參數分析器
laparam = LAParams()

#創建一個聚合器
device = PDFPageAggregator(resource, laparams=laparam)

#創建PDF頁面解釋器
interpreter = PDFPageInterpreter(resource, device)

#使用文檔對象得到頁面的集合
for page in doc.get_pages():
 # 使用頁面解釋器讀取
 interpreter.process_page(page)

 # 使用聚合器來獲得內容
 layout = device.get_result()

 for out in layout:
  if hasattr(out, "get_text"):
   print(out.get_text())

看完上述內容是否對您有幫助呢？如果還想對相關知識有進一步的了解或閱讀更多相關文章，請關注億速云行業資訊頻道，感謝您對億速云的支持。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

怎么在python中利用pdfminer3k讀取PDF文檔

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

怎么在python中利用pdfminer3k讀取PDF文檔

猜你喜歡

最新資訊

相關推薦

相關標簽