要在Java中提取PDF文檔的文本內容,可以使用Apache PDFBox庫。以下是一個簡單的示例代碼,演示如何使用PDFBox提取文本內容:
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import java.io.File;
import java.io.IOException;
public class PDFReader {
public static void main(String[] args) {
try {
// Load PDF document
PDDocument document = PDDocument.load(new File("example.pdf"));
// Create PDFTextStripper
PDFTextStripper pdfTextStripper = new PDFTextStripper();
// Extract text
String text = pdfTextStripper.getText(document);
// Print extracted text
System.out.println(text);
// Close the document
document.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
在這個示例中,我們加載一個名為example.pdf的PDF文檔,并使用PDFBox的PDFTextStripper類提取文本內容。最后,我們將提取的文本內容打印到控制臺上。
請注意,要運行此示例代碼,您需要將Apache PDFBox庫添加到您的項目中。您可以在Maven中添加以下依賴項來包含PDFBox庫:
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.24</version>
</dependency>
您可以通過以下鏈接下載Apache PDFBox庫:https://pdfbox.apache.org/