问题描述:在使用UIE-X 模型微调时,进行实体抽取的时候,如何提升OCR的识别(中文)准确率,目前提取关系正常,但OCR识别结果存在错别字和未识别到的部分
OCR那里检测和识别要标注训练调整
OCR效果没有PADDLEHUB上的模型效果好,可以分开,就是使用检测模型检测,将检测到的区域传递给你想要使用的PADDLEHUB模型让其识别,从而达到一个较好的效果
OCR识别部分可以自定义输入的,可用PaddleOCR,也可以用其他OCR服务
参考文档:UIE Taskflow使用指南
使用PaddleOCR的示例:
from paddleocr import PaddleOCR
from paddlenlp import Taskflow
# ocr_version对应模型