要通過Java提取圖片中的文字信息,您可以使用Tesseract OCR(Optical Character Recognition)庫。以下是一個簡單的示例代碼,演示了如何使用Tesseract OCR庫來提取圖片中的文字信息:
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import java.io.File;
public class ImageTextExtractor {
public static void main(String[] args) {
File imageFile = new File("path/to/your/image.jpg");
Tesseract tesseract = new Tesseract();
try {
String extractedText = tesseract.doOCR(imageFile);
System.out.println(extractedText);
} catch (TesseractException e) {
System.err.println(e.getMessage());
}
}
}
在上面的示例代碼中,首先需要將Tesseract OCR庫添加到您的項目中。您可以通過 Maven 或 Gradle 添加以下依賴項:
Maven:
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.5.4</version>
</dependency>
Gradle:
implementation 'net.sourceforge.tess4j:tess4j:4.5.4'
然后,您可以創建一個 Tesseract
對象,并調用 doOCR
方法來提取圖片中的文字信息。請確保將圖片文件的路徑替換為您想要提取文字信息的圖片的路徑。
請注意,Tesseract OCR庫依賴于一個名為 Tesseract 的開源 OCR引擎,因此在使用時需要先安裝 Tesseract OCR引擎。您可以從其官方網站 https://github.com/tesseract-ocr/tesseract 下載并安裝 Tesseract OCR引擎。