91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python基于pdfminer庫提取pdf文字的方法

發布時間:2021-04-25 13:41:18 來源:億速云 閱讀:412 作者:小新 欄目:開發技術

這篇文章主要介紹python基于pdfminer庫提取pdf文字的方法,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

Python的優點有哪些

1、簡單易用,與C/C++、Java、C# 等傳統語言相比,Python對代碼格式的要求沒有那么嚴格;2、Python屬于開源的,所有人都可以看到源代碼,并且可以被移植在許多平臺上使用;3、Python面向對象,能夠支持面向過程編程,也支持面向對象編程;4、Python是一種解釋性語言,Python寫的程序不需要編譯成二進制代碼,可以直接從源代碼運行程序;5、Python功能強大,擁有的模塊眾多,基本能夠實現所有的常見功能。

安裝pdfminer 庫

windows 下安裝pdfminer3k

pip install pdfminer3k

Liunx 下安裝pdfminer

pip install pdfminer

代碼

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBoxHorizontal
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed, PDFResourceManager, PDFPageInterpreter
def pdfParse(path):
"""
pdf文字提取
:param path:文件路徑
:return: 每頁結果列表
"""
fp = open(path, 'rb') # 以二進制讀模式打開
# 用文件對象來創建一個pdf文檔分析器
praser = PDFParser(fp)
# 創建一個PDF文檔
doc = PDFDocument()
# 連接分析器 與文檔對象
praser.set_document(doc)
doc.set_parser(praser)
# 提供初始化密碼
# 如果沒有密碼 就創建一個空的字符串
doc.initialize()
# 檢測文檔是否提供txt轉換,不提供就忽略
if not doc.is_extractable:
 raise PDFTextExtractionNotAllowed
else:
 # 創建PDf 資源管理器 來管理共享資源
 rsrcmgr = PDFResourceManager()
 # 創建一個PDF設備對象
 laparams = LAParams()
 device = PDFPageAggregator(rsrcmgr, laparams=laparams)
 # 創建一個PDF解釋器對象
 interpreter = PDFPageInterpreter(rsrcmgr, device)
 #每頁文字內容
 results = []
 # 循環遍歷列表,每次處理一個page的內容
 for page in doc.get_pages(): # doc.get_pages() 獲取page列表
  interpreter.process_page(page)
  # 接受該頁面的LTPage對象
  layout = device.get_result()
  # 這里layout是一個LTPage對象 里面存放著 這個page解析出的各種對象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要獲取文本就獲得對象的text屬性,
  for x in layout:
   if isinstance(x, LTTextBoxHorizontal):
    results.append(x.get_text())
 return results

該庫是根據 迭代pdf每一頁 進行文字提取, 也可以識別判斷頁碼的功能

另外還有一個pypdf2 庫也可以識別但是感覺不如這個準確

以上是“python基于pdfminer庫提取pdf文字的方法”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

兴安盟| 隆子县| 万安县| 崇左市| 新郑市| 桃源县| 彭阳县| 博野县| 黄山市| 阿合奇县| 河北省| 辉南县| 泗洪县| 乐都县| 无为县| 东乡族自治县| 岑溪市| 礼泉县| 额尔古纳市| 西畴县| 绥中县| 台州市| 安化县| 绵竹市| 叶城县| 昂仁县| 武城县| 福建省| 柳林县| 承德市| 合水县| 新田县| 如皋市| 庄浪县| 柳江县| 宝山区| 读书| 六盘水市| 潢川县| 翼城县| 信丰县|