要用Python爬取PDF指定內容,可以使用第三方庫PyPDF2。首先,確保已經安裝了該庫,可以使用pip命令進行安裝:
pip install PyPDF2
然后,可以使用下面的代碼來實現爬取指定內容的功能:
import PyPDF2
def search_pdf(file_path, keyword):
with open(file_path, 'rb') as file:
reader = PyPDF2.PdfFileReader(file)
num_pages = reader.numPages
for page_num in range(num_pages):
page = reader.getPage(page_num)
text = page.extract_text()
if keyword in text:
print(f"Page {page_num + 1}: {text}")
# 示例使用
search_pdf('example.pdf', '指定內容')
上述代碼定義了一個search_pdf
函數,接受兩個參數:file_path
代表PDF文件的路徑,keyword
代表要搜索的關鍵詞。函數會打開PDF文件,逐頁讀取并提取文本內容,然后判斷關鍵詞是否在文本中,如果存在則打印該頁的內容。
你需要將'example.pdf'
替換為你要爬取的PDF文件的路徑,'指定內容'
替換為你要搜索的具體內容。運行代碼后,會輸出包含指定內容的頁碼和內容。