我们分为了模型构建小组和界面设计小组
目前的工作:
下一步工作:
目前的工作:
设计了一个很简单的界面,主要验证模型的可用性。
下一步工作安排:
界面:黄梁
1、进展
1.1 解决了界面显示的一些问题
2、问题
2.1 运行模式:还是要删除,需要模型组配合
2.2 分段显示:
竞品如果是一段文字,则显示在一起;
我们的是一行一行显示。
3、下一步工作
继续研究竞品,模仿竞品开发界面,并做好和模型端的配合
模型:彭帅(目标检测:DBNet, 识别:CRNN;CLS)
1、进展
两个工作:
1.1 处理大图像
1.2 二值化图片
2、问题
2.1 如何判断一张图片的质量?
2.2 质量不好,是什么原因不好?
不同的原因导致的质量问题,可能会采用不同的模型。
2.3 图像增强
质量判断–>图像增强–>目标检测–>矫正–>识别
3、下一个工作
3.1 保留目标检测和识别模型不变
3.2 调研质量判断
3.3 研究图像增强
3.4 研究矫正算法
3.5 力争把这些功能加入现有模型,提升识别能力
处理后的图片:
处理后的图片识别效果:
界面:
1、代码还有不规范的地方;
2、图标目前从网络上下载。
模型:
王柯雄:图像超分
是否在OCR识别有应用?
彭帅+文诗淮:
问题:
(1)图像增强的功能加入代码,报错?
报错的问题不具体
(2)图像增强后效果不明显,怀疑现在的OCR已经有图像增强的功能:通过阅读代码找到相应的模块。
主要问题:
文本检测时有较大错误率。
解决方案:
1.更换检测模型
通过调研发现,已公布的检测模型只有一种,但有多种未训练的检测模型。
2.重新训练检测模型
paddleocr在8月份更新了两个新的检测模型,分别是FCENet和DB++,但是FCENet无法用c++代码部署且DB++从公布的测试
数据中看,效果优于FCENet,所以下一步工作,准备收集数据,对DB++进行训练,然后测试其效果。
文:http://t.csdn.cn/Mc5OG
陈:https://blog.csdn.net/dcrmg/article/details/53677739
彭:https://blog.csdn.net/sinat_37574187/article/details/120861072?app_version=5.8.0&csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22120861072%22%2C%22source%22%3A%22unlogin%22%7D&utm_source=app
3. 张老师组织大家一起学习DBNet算法:
https://blog.csdn.net/search_129_hr/article/details/127050871
结构:
1)第一部分:卷积和反卷积的过程(DBNet++ 改进的部分);
2)第二部分:叠加得到概率图和门限图;
3)第三部分:结合概率图和门限图得到二值图;
关键点:
1)卷积部分的操作(结合代码);
2)监督信号的算法(可能有优化的空间)
后续:
1)结合理论知识,进一步搞懂源代码;
2)继续学习DBNet++算法。
问题 :
1)v2版本识别效果和之前的区别不大;
2)有阴影的图片识别效果不好;
3)APP 频繁崩溃(手机分配内存不足或图片太大);
4)APP 选择图片后没有显示出来。
解决方法 :
1)把之前的处理阴影的代码加上;
2)申请大内存:
AndroidMainifest->Application->添加 adnroid:largeHeap=“true”
3)修改 UI 部分,显示从相册选择的图片。
后续任务:
1)测试 PC 端和竞品对增强后图片识别效果的差距;
2)抓包看下竞品的运行模式(服务器端负责什么工作):上传了什么,大的图片文件是如何处理的;
3)解包夸克扫描王(主要看使用了什么模型);
4)继续进行图像增强相关工作。
5)把 PC 端运行方式写个文档发给李杨老师那边(√)
解包网站:
http://www.javadecompilers.com/apk