• 基于移动设备的OCR识别工作进展(2)


    1 目前的开发工作

    我们分为了模型构建小组和界面设计小组

    1.1 模型构建

    目前的工作:

    1. 将PaddleOCR的demo模型部分移植到我们现在的工程中;
    2. 利用我们自己设计的界面测试模型的功能。

    下一步工作:

    1. 用现在开发的产品进行测试,尽快熟悉模型的代码,为后面改进做准备;(可以结合百度提供的教程进行学习)
    2. 在熟悉代码和模型的时候,要写相关文档。
    3. 是否需要利用MNN或者NCNN来作为框架进行部署?

    2.2 界面设计

    目前的工作:
    设计了一个很简单的界面,主要验证模型的可用性。
    在这里插入图片描述
    下一步工作安排:

    1. 代码规范,不要出现黄色警告;
    2. 按照竞品重新设计界面,有什么问题尽快提出来;
      2.1 从用户使用角度去设计控件,布局等;
      2.2 要考虑怎么输出?
      2.3 还要考虑产品适配问题,手机屏幕不同的尺寸,不同分辨率等。
    3. 模型我们只提供一个,检测+矫正+识别(PP-OCR-MobileV2)
    4. 写文档。

    2 9月份工作日志

    2.1 会议纪要20220913

    界面:黄梁
    1、进展
    1.1 解决了界面显示的一些问题
    2、问题
    2.1 运行模式:还是要删除,需要模型组配合
    2.2 分段显示:
    竞品如果是一段文字,则显示在一起;
    我们的是一行一行显示。

    3、下一步工作
    继续研究竞品,模仿竞品开发界面,并做好和模型端的配合

    模型:彭帅(目标检测:DBNet, 识别:CRNN;CLS)
    1、进展
    两个工作:
    1.1 处理大图像
    1.2 二值化图片
    2、问题
    2.1 如何判断一张图片的质量?
    2.2 质量不好,是什么原因不好?
    不同的原因导致的质量问题,可能会采用不同的模型。
    2.3 图像增强

    质量判断–>图像增强–>目标检测–>矫正–>识别

    3、下一个工作
    3.1 保留目标检测和识别模型不变
    3.2 调研质量判断
    3.3 研究图像增强
    3.4 研究矫正算法
    3.5 力争把这些功能加入现有模型,提升识别能力

    2.2 工作总结20220918

    处理后的图片:
    在这里插入图片描述
    处理后的图片识别效果:
    在这里插入图片描述

    2.3 20220918会议纪要

    界面:
    1、代码还有不规范的地方;
    2、图标目前从网络上下载。

    模型:
    王柯雄:图像超分
    是否在OCR识别有应用?
    彭帅+文诗淮:
    问题:
    (1)图像增强的功能加入代码,报错?
    报错的问题不具体
    在这里插入图片描述

    (2)图像增强后效果不明显,怀疑现在的OCR已经有图像增强的功能:通过阅读代码找到相应的模块。

    2.4 20220921会议纪要

    主要问题:
    文本检测时有较大错误率。
    解决方案:
    1.更换检测模型
    通过调研发现,已公布的检测模型只有一种,但有多种未训练的检测模型。
    2.重新训练检测模型
    paddleocr在8月份更新了两个新的检测模型,分别是FCENet和DB++,但是FCENet无法用c++代码部署且DB++从公布的测试
    数据中看,效果优于FCENet,所以下一步工作,准备收集数据,对DB++进行训练,然后测试其效果。

    2.5 20220926会议纪要

    1. UI部分:
      主要界面、功能模块基本完成;
      后续:
      要将语言转换为英文,进一步结合竞品对界面进行优化。
    2. 模型部分(检测功能):
      1)基于百度的 AI Studio 平台训练了 DB++ 的模型,但测试的效果并不理想;
      2)目前 en_PPOCRv3_slim 模型检测效果最好,但部分图片仍不能完全检测(技术调研发现:不能识别的部分通过手动矫正后成功检测,下一步把研究重点放在图像矫正方面);
      3)竞品和夸克扫描在检测时都会对图片(存在倾斜、阴影等问题)进行矫正;
      4)用夸克扫描对图片进行矫正,然后再用PaddleOCR 模型对矫正后图片的检测,发现效果更好;
      后续:
      了解竞品和夸克扫描在图像增强方面的算法,结合 OpenCV 实现在检测和识别前对图像的处理。

    文:http://t.csdn.cn/Mc5OG
    陈:https://blog.csdn.net/dcrmg/article/details/53677739
    彭:https://blog.csdn.net/sinat_37574187/article/details/120861072?app_version=5.8.0&csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22120861072%22%2C%22source%22%3A%22unlogin%22%7D&utm_source=app
    3. 张老师组织大家一起学习DBNet算法:
    https://blog.csdn.net/search_129_hr/article/details/127050871
    结构:
    1)第一部分:卷积和反卷积的过程(DBNet++ 改进的部分);
    2)第二部分:叠加得到概率图和门限图;
    3)第三部分:结合概率图和门限图得到二值图;
    关键点:
    1)卷积部分的操作(结合代码);
    2)监督信号的算法(可能有优化的空间)
    后续:
    1)结合理论知识,进一步搞懂源代码;
    2)继续学习DBNet++算法。

    2.6 2022/09/28会议纪要

    问题 :
    1)v2版本识别效果和之前的区别不大;
    2)有阴影的图片识别效果不好;
    3)APP 频繁崩溃(手机分配内存不足或图片太大);
    4)APP 选择图片后没有显示出来。
    解决方法 :
    1)把之前的处理阴影的代码加上;
    2)申请大内存:
    AndroidMainifest->Application->添加 adnroid:largeHeap=“true”
    3)修改 UI 部分,显示从相册选择的图片。
    后续任务:
    1)测试 PC 端和竞品对增强后图片识别效果的差距;
    2)抓包看下竞品的运行模式(服务器端负责什么工作):上传了什么,大的图片文件是如何处理的;
    3)解包夸克扫描王(主要看使用了什么模型);
    4)继续进行图像增强相关工作。
    5)把 PC 端运行方式写个文档发给李杨老师那边(√)
    解包网站:
    http://www.javadecompilers.com/apk

  • 相关阅读:
    7月21日第壹简报,星期四,农历六月廿三
    Demo 题记
    linux问题总结2
    【大话设计模式】工厂方法模式
    入门数据库days2
    【C++】《C++ Primer》第七章:类(知识点总结)
    Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
    MyBatis-Plus入门案例
    C++11绑定器bind及function机制
    又到中秋节,通过C语言利用SimpleCG制作电子贺卡
  • 原文地址:https://blog.csdn.net/search_129_hr/article/details/126915101