Java OCR使用Tess4J进行图片文字识别

2018-03-16 18:36:43
1390次阅读
0个评论

Tesseract-OCR是一个Google支持的开源的OCR图文识别开源项目。支持中文识别,并且开源和提供全套的训练工具,是快速低成本开发的首选。而Tess4J则是Tesseract在Java PC上的应用。

下载Tess4J-3.4.2-src.zip Tess4J源码包

引入jar包

commons-beanutils-1.9.2.jar
commons-io-2.6.jar
commons-logging-1.2.jar
ghost4j-1.0.1.jar
hamcrest-core-1.3.jar
itext-2.1.7.jar
jai-imageio-core-1.3.1.jar
jboss-vfs-3.2.12.Final.jar
jcl-over-slf4j-1.7.25.jar
jna-4.1.0.jar
jul-to-slf4j-1.7.25.jar
junit-4.12.jar
lept4j-1.6.2.jar
log4j-1.2.17.jar
log4j-over-slf4j-1.7.25.jar
logback-classic-1.2.3.jar
logback-core-1.2.3.jar
slf4j-api-1.7.25.jar
tess4j-3.4.2.jar
xmlgraphics-commons-1.5.jar

需要安装Visual C++ Redistributable for Visual Studio 2015

https://www.microsoft.com/zh-CN/download/details.aspx?id=48145



按照官网的示例,编写一个Demo试一下效果


public class OCRDemo {

    public static void main(String[] args) throws TesseractException {
        ITesseract instance = new Tesseract();
        // 识别语种
        instance.setLanguage("chi_sim");
        // 指定识别图片
        File imgDir = new File("c:\\test.png");
        long startTime = System.currentTimeMillis();
        String ocrResult = instance.doOCR(imgDir);
        // 输出识别结果
        System.out.println("OCR Result: \n" + ocrResult + "\n 耗时:" + (System.currentTimeMillis() - startTime) + "ms");
    }
}






收藏00

登录 后评论。没有帐号? 注册 一个。