• 使用Tesseract-OCR对PDF等图片文件进行文字识别


    安装

    Homebrew 来安装 Tesseract

    brew install tesseract

    2. 完成 tessearact 的安装后,还需要安装中文数据包,执行以下两个操作,

    brew info tesseract

    执行这个指令的目的,是找到 Homebrew 把 tesseract 安装在文件夹内,例如,

    /usr/local/Cellar/tesseract/3.05.02/share/tessdata/.

    然后打开 Tesseract 的语言数据包的网页,点击 “chi_sim.traineddata”,电脑自动下载简体中文数据包。

    git clone https://github.com/tesseract-ocr/tessdata_fast.git

    git clone https://github.com/tesseract-ocr/tessdata_best.git  高清版

    GitHub - tesseract-ocr/tessdata_best: Best (most accurate) trained LSTM models.

    最后,把简体中文数据包chi_sim.traineddata,复制安装 tesseract 的文件夹内。

    命令行用法

    我们首先来看tesseract是否正确安装,同时验证版本:

    1. $ tesseract --version
    2. tesseract 4.1.0-rc1-56-g7fbd
    3. leptonica-1.76.0
    4. libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.4.2) : libpng 1.2.54 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.4 : libopenjp2 2.1.2
    5. Found AVX2
    6. Found AVX
    7. Found SSE

    识别的基本用法是”imagename outputbase [options…]”,4.1的版本options只能通过”-l”选择语言,比如:

    tesseract test.png test -l chi_sim
    

    它对test.png进行ocr,然后把识别结果保存在test.txt里。默认输出格式是文本文件,我们也可以让它输出pdf:

    tesseract test.png test -l chi_sim pdf
    

    除此之外,还有隐藏(extrac)的选项,需要样这个命令才会显示这些高级功能:

    1. $ tesseract --help-extra
    2. Usage:
    3. tesseract --help | --help-extra | --help-psm | --help-oem | --version
    4. tesseract --list-langs [--tessdata-dir PATH]
    5. tesseract --print-parameters [options...] [configfile...]
    6. tesseract imagename|imagelist|stdin outputbase|stdout [options...] [configfile...]
    7. OCR options:
    8. --tessdata-dir PATH Specify the location of tessdata path.
    9. --user-words PATH Specify the location of user words file.
    10. --user-patterns PATH Specify the location of user patterns file.
    11. --dpi VALUE Specify DPI for input image.
    12. -l LANG[+LANG] Specify language(s) used for OCR.
    13. -c VAR=VALUE Set value for config variables.
    14. Multiple -c arguments are allowed.
    15. --psm NUM Specify page segmentation mode.
    16. --oem NUM Specify OCR Engine mode.
    17. NOTE: These options must occur before any configfile.
    18. ...省略了psm和oem的详细解释,后面会介绍。

    比如使用psm,很多老的文档都是:

    tesseract test.png test -l chi_sim -psm 1
    

    这在新版本会有问题,必须用–psm才行:

    tesseract test.png test -l chi_sim --psm 1
    

    参数–oem指定使用的算法,0代表老的算法;1代表LSTM算法;2代表两者的结合;3代表系统自己选择。

    参数–psm指定页面切分模式:

    1. Page segmentation modes:
    2. 0 Orientation and script detection (OSD) only.
    3. 1 Automatic page segmentation with OSD.
    4. 2 Automatic page segmentation, but no OSD, or OCR. (not implemented)
    5. 3 Fully automatic page segmentation, but no OSD. (Default)
    6. 4 Assume a single column of text of variable sizes.
    7. 5 Assume a single uniform block of vertically aligned text.
    8. 6 Assume a single uniform block of text.
    9. 7 Treat the image as a single text line.
    10. 8 Treat the image as a single word.
    11. 9 Treat the image as a single word in a circle.
    12. 10 Treat the image as a single character.
    13. 11 Sparse text. Find as much text as possible in no particular order.
    14. 12 Sparse text with OSD.
    15. 13 Raw line. Treat the image as a single text line,
    16. bypassing hacks that are Tesseract-specific.

    默认是3,也就是自动的页面切分,但是不进行方向(Orientation)和文字(script,其实并不等同于文字,比如俄文和乌克兰文都使用相同的script,中文和日文的script也有重合的部分)的检测。如果我们要识别的是单行的文字,我可以指定7。OSD算法参考这里。我们这里已经知道文字是中文,并且方向是horizontal(从左往右再从上往下的写法,古代中国是从上往下从右往左),因此使用默认的3就可以了。

    Java接口

    Java接口使用的是javacpp-presets,这个项目强烈推荐Java程序员关注一下!!!它可以让Java开发者调用很多流行的C++库,包括:OpenCV、FFmpeg、OpenBLAS、CPython、LLVM、CUDA、MXNet、TensorFlow等等。当然也包括我们这里用到的Leptonica和Tesseract。

    依赖
    1. <dependency>
    2. <groupId>org.bytedeco.javacpp-presets</groupId>
    3. <artifactId>tesseract-platform</artifactId>
    4. <version>4.0.0-1.4.4</version>
    5. </dependency>

    我们这里只把C++的基本用法和按行输出用Java实现,其它的例子读者依葫芦画瓢把C++代码变成等价的Java代码就行了。javacpp-presets实现的代码和C++基本长得一样。

    基本例子

    完整代码在这里

    1. BytePointer outText;
    2. TessBaseAPI api = new TessBaseAPI();
    3. // Initialize tesseract-ocr with English, without specifying tessdata path
    4. if (api.Init(null, "eng") != 0) {
    5. System.err.println("Could not initialize tesseract.");
    6. System.exit(1);
    7. }
    8. // Open input image with leptonica library
    9. PIX image = pixRead(args.length > 0 ? args[0] : "testen-1.png");
    10. api.SetImage(image);
    11. // Get OCR result
    12. outText = api.GetUTF8Text();
    13. System.out.println("OCR output:\n" + outText.getString());
    14. // Destroy used object and release memory
    15. api.End();
    16. api.close();
    17. outText.deallocate();
    18. pixDestroy(image);

    上面的代码和C++的基本长得一样,因为C++没有GC,因此需要下面那些销毁对象的操作。如果要识别中文,那么需要修改Init的第二个参数:

    if (api.Init(null, "chi_sim") != 0) {
    

    但是如果直接执行,会出现如下错误:

    1. Error opening data file /home/travis/build/javacpp-presets/tesseract/cppbuild/linux-x86_64/share/tessdata/eng.traineddata
    2. Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
    3. Failed loading language 'eng'
    4. Tesseract couldn't load any languages!
    5. Could not initialize tesseract.

    也就是默认会去”/home/travis/build/…“找模型,这是travis ci的路径,我们的机器当然没有。

    为了解决这个问题有两种办法,第一种是运行程序是设置环境变量:

    1. # 读者需要改成自己的路径
    2. export TESSDATA_PREFIX=/usr/share/tesseract-ocr/4.00/tessdata
    3. java -cp .....

    另外一种方法就是调用init的时候指定路径:

    1. if (api.Init("/usr/share/tesseract-ocr/4.00/tessdata", "eng") != 0) {
    2. System.err.println("Could not initialize tesseract.");
    3. System.exit(1);
    4. }
    按行输出

    完整代码在这里

    1. BOXA boxes = api.GetComponentImages(tesseract.RIL_TEXTLINE, true, (PointerPointer) null, null);
    2. System.out.print(String.format("Found %d textline image components.\n", boxes.n()));
    3. for (int i = 0; i < boxes.n(); i++) {
    4. BOX box = boxes.box(i);
    5. api.SetRectangle(box.x(), box.y(), box.w(), box.h());
    6. BytePointer text = api.GetUTF8Text();
    7. int conf = api.MeanTextConf();
    8. System.out.println(String.format("Box[%d]: x=%d, y=%d, w=%d, h=%d, confidence: %d, text: %s",
    9. i, box.x(), box.y(), box.w(), box.h(), conf, text.getString()));
    10. text.deallocate();
    11. }

    另还有一种方法


           
                net.sourceforge.tess4j
                tess4j
                4.4.1

            
                            
    原文链接:https://blog.csdn.net/qq_39522120/article/details/135503159

  • 相关阅读:
    【面试题-006】java中的垃圾回算法有哪些?
    EPLAN小知识——如何在费斯托(FESTO)官网下载EPLAN部件
    用户级协议和框架:DPDK、SPDK和VPP的业务场景和发展趋势
    冠达管理:紧盯必要性 追问合理性 再融资问询透露监管新动向
    多测师肖sir_高级金牌讲师_python之作业006
    【kali-密码攻击】(5.1.1)密码在线破解:Hydra(图形界面)
    Docker--未完结
    使用selenium调用firefox提示Profile Missing的问题解决
    多线程的学习第二篇
    MindSpore运行模式与PyNative内存调优分析
  • 原文地址:https://blog.csdn.net/s_ongfei/article/details/136500069