需要找一个将扫描型的PDF转换成可搜索可复制的PDF文件的工具,搜到的大部分工具我都试用了,要么转换出来样式不行,要么收费。然后找到了一个下图所示的PDF24 的工具,PDF24提供很多精心裁剪的针对特定问题的工具。所有的PDF工具 - 100%免费 - PDF24 Tools
其中的PDF 文本识别工具可将扫描型的PDF转换成可搜索可复制的PDF文件。PDF24提供在线和离线两种方式。
使用PDF 文本识别工具 ,在线转换文件 通过OCR识别文本 - 简便,在线,免费 - PDF24 Tools
下载离线版本的PDF24 Creator PDF24 Creator - 下载 - 100%免费 - PDF24 Tools
网页版的可以正常使用,推荐使用网页版的。
使用离线版本的PDF24 OCR时出现问题,本文主要记录如何解决下图的问题。
本文使用的是11.4.0的私人版本
在手册中找到关于pdf24-Ocr.exe下的所有语言文件的本地安装方法
所需文件下载地址 :https://download.csdn.net/download/ZMJ_QQ/87361516
1、将trainDataList.txt
放入PDF24安装目录的tesseract文件夹。(官网下载地址https://creator.pdf24.org/tesseract/4.0/traindata/local-list.txt
2、将tessdata-master文件夹下的所有文件复制到 tessdata 文件夹下。
另外手册中说的 osd.traineddata文件就在解压的语言包中,不需要找
请确保您使用与 Tesseract 4.0 兼容的语言文件。语言文件可以从 GitHub 上的 tesseract 项目下载。
贴一个github上的项目地址(方法测过了,文件下载失败。如果后期还是无法下载可以使用上文给出的文件)GitHub - tesseract-ocr/tessdata: Trained models with support for legacy and LSTM OCR engine
3、完成上面两步后再重新打开PDF24 OCR,添加文件后点击开始后即可正常使用,如下图所示
文章可能写的啰嗦,如果后期我的语言文件不生效,可以到官方手册中查找语言文件下载的方法。