您好,登錄后才能下訂單哦!
本篇內容介紹了“Python中怎么使用pdfplumber讀取PDF寫入Excel”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!
PDF(Portable Document Format)是一種便攜文檔格式,便于跨操作系統傳播文檔。PDF文檔遵循標準格式,因此存在很多可以操作PDF文檔的工具,Python自然也不例外。
Python操作PDF模塊對比圖如下:
本文主要介紹pdfplumber
專注PDF內容提取,例如文本(位置、字體及顏色等)和形狀(矩形、直線、曲線),還有解析表格的功能。
其他幾個 Python 庫幫助用戶從 PDF 中提取信息。作為一個廣泛的概述,pdfplumber它通過結合以下功能將自己與其他 PDF 處理庫區分開來:
輕松訪問有關每個 PDF 對象的詳細信息
用于提取文本和表格的更高級別、可自定義的方法
緊密集成的可視化調試
其他有用的實用功能,例如通過裁剪框過濾對象
cmd控制臺輸入:
pip install pdfplumber
導包:
import pdfplumber
案例PDF截圖(兩頁未截全):
讀取PDF代碼:pdfplumber.open("路徑/文件名.pdf", password = "test", laparams = { "line_overlap": 0.7 })
參數解讀:
password
:要加載受密碼保護的 PDF,請傳遞password關鍵字參數
laparams
:要將布局分析參數設置為pdfminer.six的布局引擎,請傳遞laparams關鍵字參數
案例代碼:
import pdfplumberwith pdfplumber.open("./1.pdf") as pdf: print(pdf) print(type(pdf))
輸出結果:
<pdfplumber.pdf.PDF object at 0x000001A56C323DC0><class 'pdfplumber.pdf.PDF'>
pdfplumber.PDF
類表示單個 PDF,并具有兩個主要屬性:
屬性 | 說明 |
---|---|
.metadata | 從PDF的Info中獲取元數據鍵 /值對 字典。 通常包括“ CreationDate”,“ ModDate”,“ Producer”等。 |
.pages | 返回一個包含pdfplumber.Page實例的列表,每一個實例代表PDF每一頁的信息 |
1. 讀取PDF文檔信息(.metadata
):
import pdfplumberwith pdfplumber.open("./1.pdf") as pdf: print(pdf.metadata)
運行結果:
{'Author': 'wangwangyuqing', 'Comments': '', 'Company': '', 'CreationDate': "D:20220330113508+03'35'", 'Creator': 'WPS 文字', 'Keywords': '', 'ModDate': "D:20220330113508+03'35'", 'Producer': '', 'SourceModified': "D:20220330113508+03'35'", 'Subject': '', 'Title': '', 'Trapped': 'False'}
2. 輸出總頁數
import pdfplumberwith pdfplumber.open("./1.pdf") as pdf: print(len(pdf.pages))
運行結果:
2
pdfplumber.Page
類是pdfplumber整個的核心,大多數操作都圍繞這個類進行操作,它具有以下幾個屬性:
屬性 | 說明 |
---|---|
.page_number | 順序頁碼,從1第一頁開始,從第二頁開始2,依此類推。 |
.width | 頁面的寬度。 |
.height | 頁面的高度。 |
.objects/.chars/.lines/.rects/.curves/.figures/.images | 這些屬性中的每一個都是一個列表,每個列表包含一個字典,用于嵌入頁面上的每個此類對象。有關詳細信息,請參閱下面的“對象”。 |
常用方法如下:
方法名 | 說明 |
---|---|
.extract_text() | 用來提頁面中的文本,將頁面的所有字符對象整理為的那個字符串 |
.extract_words() | 返回的是所有的單詞及其相關信息 |
.extract_tables() | 提取頁面的表格 |
.to_image() | 用于可視化調試時,返回PageImage類的一個實例 |
.close() | 默認情況下,Page對象緩存其布局和對象信息,以避免重新處理它。但是,在解析大型 PDF 時,這些緩存的屬性可能需要大量內存。您可以使用此方法刷新緩存并釋放內存。 |
1. 讀取第一頁寬度、高度等信息
import pdfplumberwith pdfplumber.open("./1.pdf") as pdf: first_page = pdf.pages[0] # pdfplumber.Page對象的第一頁 # 查看頁碼 print('頁碼:', first_page.page_number) # 查看頁寬 print('頁寬:', first_page.width) # 查看頁高 print('頁高:', first_page.height)
運行結果:
頁碼: 1頁寬: 595.3頁高: 841.9
2. 讀取文本第一頁
import pdfplumberwith pdfplumber.open("./1.pdf") as pdf: first_page = pdf.pages[0] # pdfplumber.Page對象的第一頁 text = first_page.extract_text() print(text)
運行結果:
店鋪名 價格 銷量 地址 小罐茶旗艦店 449 474 安徽 零趣食品旗艦店 6.9 60000 福建 天貓超市 1304 3961 上海 天貓超市 139 25000 上海 天貓超市 930 692 上海 天貓超市 980 495 上海 天貓超市 139 100000 上海 三只松鼠旗艦店 288 25000 安徽 紅小廚旗艦店 698 1767 北京 三只松鼠旗艦店 690 15000 安徽 一統領鮮旗艦店 1098 1580 上海 新大猩食品專營9.8 7000 湖南.......艦店 蟹納旗艦店 498 1905 上海 三只松鼠堅果at茶 188 35000 安徽 嘉禹滬曉旗艦店 598 1517 上海
3. 讀取表格第一頁
import pdfplumberimport xlwtwith pdfplumber.open("1.pdf") as pdf: page_one = pdf.pages[0] # PDF第一頁 table_1 = page_one.extract_table() # 讀取表格數據 # 1. 創建Excel表對象 workbook = xlwt.Workbook(encoding='utf8') # 2. 新建sheet表 worksheet = workbook.add_sheet('Sheet1') # 3. 自定義列名 col1 = table_1[0] # print(col1)# ['店鋪名', '價格', '銷量', '地址'] # 4. 將列屬性元組col寫進sheet表單中第一行 for i in range(0, len(col1)): worksheet.write(0, i, col1[i]) # 5. 將數據寫進sheet表單中 for i in range(0, len(table_1[1:])): data = table_1[1:][i] for j in range(0, len(col1)): worksheet.write(i + 1, j, data[j]) # 6. 保存文件分兩種格式 workbook.save('test.xls')
運行結果:
測試代碼:
import pdfplumberimport xlwtwith pdfplumber.open("1.pdf") as pdf: # 1. 把所有頁的數據存在一個臨時列表中 item = [] for page in pdf.pages: text = page.extract_table() for i in text: item.append(i) # 2. 創建Excel表對象 workbook = xlwt.Workbook(encoding='utf8') # 3. 新建sheet表 worksheet = workbook.add_sheet('Sheet1') # 4. 自定義列名 col1 = item[0] # print(col1)# ['店鋪名', '價格', '銷量', '地址'] # 5. 將列屬性元組col寫進sheet表單中第一行 for i in range(0, len(col1)): worksheet.write(0, i, col1[i]) # 6. 將數據寫進sheet表單中 for i in range(0, len(item[1:])): data = item[1:][i] for j in range(0, len(col1)): worksheet.write(i + 1, j, data[j]) # 7. 保存文件分兩種格式 workbook.save('test.xls')
運行結果(上面得沒截全):
測試代碼:
import pdfplumber import xlwt import os # 一、獲取文件下所有pdf文件路徑 file_dir = r'E:\Python學習\pdf文件' file_list = [] for files in os.walk(file_dir): # print(files) # ('E:\\Python學習\\pdf文件', [], # ['1.pdf', '1的副本.pdf', '1的副本10.pdf', '1的副本11.pdf', '1的副本2.pdf', '1的副本3.pdf', '1的副本4.pdf', '1的副本5.pdf', '1的副本6.pdf', # '1的副本7.pdf', '1的副本8.pdf', '1的副本9.pdf']) for file in files[2]: # 以. 進行分割如果后綴為PDF或pdf就拼接地址存入file_list if file.split(".")[1] == 'pdf' or file.split(".")[1] == 'PDF': file_list.append(file_dir + '\\' + file) # 二、存入Excel # 1. 把所有PDF文件的所有頁的數據存在一個臨時列表中 item = [] for file_path in file_list: with pdfplumber.open(file_path) as pdf: for page in pdf.pages: text = page.extract_table() for i in text: item.append(i) # 2. 創建Excel表對象 workbook = xlwt.Workbook(encoding='utf8') # 3. 新建sheet表 worksheet = workbook.add_sheet('Sheet1') # 4. 自定義列名 col1 = item[0] # print(col1)# ['店鋪名', '價格', '銷量', '地址'] # 5. 將列屬性元組col寫進sheet表單中第一行 for i in range(0, len(col1)): worksheet.write(0, i, col1[i]) # 6. 將數據寫進sheet表單中 for i in range(0, len(item[1:])): data = item[1:][i] for j in range(0, len(col1)): worksheet.write(i + 1, j, data[j]) # 7. 保存文件分兩種格式 workbook.save('test.xls')
運行結果(12個文件,一個文件50行總共600行):
“Python中怎么使用pdfplumber讀取PDF寫入Excel”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。