OCR开源工具箱MMOCR安装及使用示例(英文识别)

MMOCR是一个基于PyTorch和MMDetection的开源工具箱，专注于文本检测、文本识别以及相应的下游任务，如关键信息提取，是OpenMMLab项目的一部分，源码在https://github.com/open-mmlab/mmocr，最新发布版本为v0.6.1，License为Apache-2.0。它支持在Windows、Linux和Mac上运行。
1.安装：使用conda安装
(1).创建openmmlab虚拟环境：


conda create -n openmmlab python=3.8
conda activate openmmlab

(2).安装PyTorch：这里PyTorch使用1.11.0版本，CUDA使用10.2版本，此CUDA版本对PyTorch各版本都支持

conda install pytorch==1.11.0 torchvision==0.12.0 torchaudio==0.11.0 cudatoolkit=10.2 -c pytorch

(3).安装MMCV：MMCV有两个版本，这里安装带CUDA的mmcv-full
1).mmcv-full: 完整版，包含所有的特性以及丰富的开箱即用的CUDA算子，安装此版本需要较长时间。
2).mmcv：精简版，不包含CUDA算子但包含其余所有特性和功能，类似MMCV 1.0之前的版本。
不要在同一个环境中安装两个版本，否则可能会遇到类似ModuleNotFound的错误。在安装一个版本之前，需要先卸载另一个：


pip uninstall mmcv-full
pip uninstall mmcv

注意：这里mmcv-full使用1.5.3版本。CUDA版本和PyTorch版本与安装PyTorch时保持一致

pip install mmcv-full==1.5.3 -f https://download.openmmlab.com/mmcv/dist/cu102/torch1.11.0/index.html

(4).安装MMDetection：

pip install mmdet==2.25.1

(5).安装tesseract

conda install -c conda-forge tesserocr

(6).安装MMOCR：没有通过源码安装，要求GCC版本为5.4.0及以上版本

pip install mmocr==0.6.1

2.测试：论文：《TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes》

(1).准备测试图像：原始图像来自网络


image_path = "../../data/image/"
image_name = "ocr_english.png"

(2).下载检测模型(checkpoint)：


def download_checkpoint(path, name, url):
	if os.path.isfile(path+name) == False:
		print("checkpoint(model) file does not exist, now download ...")
		subprocess.run(["wget", "-P", path, url])
 
path = "../../data/model/"
checkpoint = "textsnake_r50_fpn_unet_1200e_ctw1500-27f65b64.pth"
url = "https://download.openmmlab.com/mmocr/textdet/textsnake/textsnake_r50_fpn_unet_1200e_ctw1500-27f65b64.pth"
download_checkpoint(path, checkpoint, url)

(3).根据配置文件和checkpoint文件构建模型：


config = "../../src/mmocr/configs/textdet/textsnake/textsnake_r50_fpn_unet_1200e_ctw1500.py"
ocr = MMOCR(det="TextSnake", det_config=config, det_ckpt=path+checkpoint, recog=None, device=device)

(4).进行检测推理：

results = ocr.readtext(image, output="../../data/result_mmocr_text_detection.png", export="../../data/", export_format="json")

(5).下载识别模型(checkpoint)：


checkpoint2 = "seg_r31_1by16_fpnocr_academic-72235b11.pth"
url = "https://download.openmmlab.com/mmocr/textrecog/seg/seg_r31_1by16_fpnocr_academic-72235b11.pth"
download_checkpoint(path, checkpoint2, url)

(6).根据配置文件和checkpoint文件构建模型，包括检测和识别：


config2 = "../../src/mmocr/configs/textrecog/seg/seg_r31_1by16_fpnocr_toy_dataset.py"
ocr2 = MMOCR(det="TextSnake", det_config=config, det_ckpt=path+checkpoint, recog="SEG", recog_config=config2, recog_ckpt=path+checkpoint2, device=device)

(7).进行检测及识别推理：


results2 = ocr2.readtext(image, output="../../data/result_mmocr_text_recognition.png")
print("recognition result:", results2)

执行结果如下图所示：

GitHub： https://github.com/fengbingchun/PyTorch_Test

相关阅读:
史上超全UI/UX设计素材网站大合集！足足26个！
数据结构-红黑树
joi：定义多个自定义错误信息
使用Python对数据的操作转换
laravel 子查询
docker-compose部署Nacos集群
【RocketMQ系列十二】RocketMQ集群核心概念之主从复制&生产者负载均衡策略&消费者负载均衡策略
一种更优雅书写Python代码的方式
【二叉树】链式结构的一些操作实现
达梦数据库整合在springboot的使用教程

原文地址：https://blog.csdn.net/fengbingchun/article/details/126805622