在Python中,可以使用PyPDF2
庫來提取PDF文件的內容。首先,你需要安裝PyPDF2
庫,可以使用以下命令進行安裝:
pip install PyPDF2
然后,你可以使用以下代碼來提取PDF文件的內容:
import PyPDF2
# 打開PDF文件
with open('example.pdf', 'rb') as file:
# 創建一個PDF讀取器對象
pdf = PyPDF2.PdfFileReader(file)
# 獲取PDF文件的總頁數
num_pages = pdf.numPages
# 循環遍歷每一頁
for page in range(num_pages):
# 獲取當前頁的內容
page_content = pdf.getPage(page).extract_text()
# 打印當前頁的內容
print(page_content)
注意,以上代碼中的example.pdf
是你要提取內容的PDF文件的路徑。代碼中使用PdfFileReader
類來讀取PDF文件,并使用numPages
屬性獲取總頁數。然后,使用getPage()
方法獲取指定頁的內容,并使用extract_text()
方法提取文本內容。最后,可以使用print()
函數打印提取的內容。
希望對你有幫助!