• 【tesseract】Linux环境安装tesseract教程


    一、依赖安装:

    1、查看centos版本

    #cat /etc/redhat-release
    CentOS release 6.5 (Final)
    
    • 1
    • 2

    2、检查make,gcc和g++版本

    #gcc --version
    #g++ --version
    gcc的当前版本编译tesseract4.1会出错,需要gcc更高的版本
    
    • 1
    • 2
    • 3

    3、安装make,gcc和g++

    由于我的环境是内网环境,软件下载、安装步骤详见,[离线安装Linux包](https://blog.csdn.net/zhuan_long/article/details/126120770?spm=1001.2014.3001.5502)
    
    • 1

    4、安装依赖包

    所需依赖包有:autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel leptonica(1.67以上)

    • 依赖包如果是.rpm格式,使用以下命令安装
    rpm -ivh 包名
    
    • 1
    • 依赖包如果是压缩包格式,需要先解压
    # 解压
    tar -zxvf 文件名 
    # 进入包文件夹
    cd 文件名
    # 执行以下命令,进行程序编译,安装
    ./autogen.sh
    ./configure
    make
    make install
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    5、将leptonica添加环境变量

    # 修改profile
    vim /etc/profile
    # 添加信息
    export LD_LIBRARY_PATH=/usr/local/lib
    export LIBLEPT_HEADERSDIR=/usr/local/include
    export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
    # 保存
    # 刷新配置
    source /etc/profile
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    6、安装tesseract

    tar -xzvf 4.1.0.tar.gz
    cd tesseract-4.1.0
    ./autogen.sh 
    ./configure
    make
    sudo make install 或make install
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    7、配置 tesseract 环境变量

    vim /etc/profile
    # 添加以下字段:
    PATH=$PATH:/usr/local/tesseract/bin
    export PATH
    export TESSDATA_PREFIX=/root/tessdata
    export PATH=$PATH:$TESSDATA_PREFIX
    # 刷新配置
    source /etc/profile
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    8、安装完毕查看tesseract版本

    # 查看tesseract版本
    tesseract --version
    # 可执行文件路径:
    which tesseract 
    /usr/local/bin/tesseract
    
    # 语言包的路径(目前空空如也):
    /usr/local/share/tessdata
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    9、拷贝tessdata目录

    将软件安装目录下的tessdata目录拷贝到/usr/local/share/tessdata目录

    10、下载tesseract语言包

    下载tesseract语言包,把语言包放到/usr/local/share/tessdata目录下
    我们体验的时候只要下载英文和简体中文语言包即可:eng.traineddata、chi_sim.traineddata、chi_sim_vert.traineddata

    11、初体验tesseract识别

    • 先体验英文识别,eng_test.jpg是我们准备的英文文字图片,eng_result.txt为输出结果:
      #tesseract eng_test.jpg eng_result --psm 7

    • 再体验一下中文识别,chi_sim_test.jpg是我们准备中文文字图片,chi_sim_result.txt为输出结果:
      #tesseract chi_sim_test.jpg chi_sim_result -l chi_sim --psm 7

    • 下面简单介绍一下常用的参数

    -l参数表示要用的语言包,chi_sim表示简体中文语言包,默认为英文;
    --psm参数可以简单理解成图片中的文字的布局方式,默认为:3
    0 = Orientation and script detection (OSD) only.
    1 = Automatic page segmentation with OSD.
    2 = Automatic page segmentation, but no OSD, or OCR.
    3 = Fully automatic page segmentation, but no OSD. (Default)
    4 = Assume a single column of text of variable sizes.
    5 = Assume a single uniform block of vertically aligned text.
    6 = Assume a single uniform block of text.
    7 = Treat the image as a single text line.
    8 = Treat the image as a single word.
    9 = Treat the image as a single word in a circle.
    10 = Treat the image as a single character.
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 注意事项:
      1.如果图片分辨率和gpi不符合要求会返回警告:
      Tesseract Open Source OCR Engine v4.1.0 with Leptonica
      Warning: Invalid resolution 0 dpi. Using 70 instead.
      解决办法:修改图片gpi和分辨率,参照测试图片test_picture3.jpg
  • 相关阅读:
    防止数据冒用的方法
    MySQL高级语句(一)
    CentOS部署kvm虚拟化机器
    现在软件开发app制作还值得做吗
    【毕业设计】基于深度学习卷积神经网络的手势识别算法 - python opencv 机器视觉
    JVM虚拟机(整体架构、类文件结构)我来了~~~
    Python面向对象编程
    微服务架构 | 分布式存储 -算法
    uniapp实现登录组件之外区域置灰并引导登录
    jenkins-安装
  • 原文地址:https://blog.csdn.net/zhuan_long/article/details/126123012