码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • python pytesseract 中文文字批量识别


    用pytesseract 来批量把图片转成文字
    1、安装好 pytesseract 包
     
    
    2、下载安装OCR

    https://download.csdn.net/download/m0_37622302/88348824icon-default.png?t=N7T8https://download.csdn.net/download/m0_37622302/88348824

    Index of /tesseracticon-default.png?t=N7T8https://digi.bib.uni-mannheim.de/tesseract/

    我是win10 64位,所以下载了 tesseract-ocr-w64-setup-v5.3.0.20221214.exe

    安装软件目录在D:\Program Files\ocr\

    下载 chi_sim.traineddata

    放在 D:\Program Files\ocr\tessdata

    3、编辑环境变量

    TESSDATA_PREFIX

    D:\Program Files\ocr\tessdata

    4、测试环境一切就绪

    tesseract -v 测 试一下,成功

    5、pytesseract 编码
    1. import os
    2. import pytesseract
    3. from PIL import Image
    4. def jpg_to_text(input_folder, output_folder):
    5. # 遍历输入文件夹中的所有JPG图片
    6. for filename in os.listdir(input_folder):
    7. if filename.endswith(".png"):
    8. # 构造输入和输出文件的路径
    9. input_path = os.path.join(input_folder, filename)
    10. output_path = os.path.join(output_folder, f"{filename}.txt")
    11. # 打开图片文件并进行文字识别
    12. image = Image.open(input_path)
    13. text = pytesseract.image_to_string(image, 'chi_sim')
    14. # 将识别结果写入输出文件
    15. with open(output_path, "w") as file:
    16. file.write(text)
    17. if __name__ == '__main__':
    18. jpg_to_text("F:/table/cc", "F:/table/aa")

    识别中文一定需要这个参数,不然会出现乱码

    最后就可以见证奇迹了

  • 相关阅读:
    网络安全-ACL应用
    在Application中使用代码自动判断APP是否为release版本
    Go笔记20221124
    Java使用opencv实现人脸识别、人脸比对
    李迟2022年10月工作生活总结
    服务器(Windows系统)自建filebrowser网盘服务器超详细教程
    汇聚荣拼多多电商好不好?
    Android 扩大View可点击区域范围
    WSL 解决code .报‘code‘ not fount无法打开Vscode问题
    数据挖掘算法原理与实践:数据预处理
  • 原文地址:https://blog.csdn.net/m0_37622302/article/details/132942059
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号