码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 表单识别(三)


    表单识别中存在的问题:

    • 表单背景复杂多样,表格图像会受到背景、光照等因素的影响,表单目标域背景相分离就会显得十分重要,同时,背景与目标相分离也十分困难。
    • 表单上内容复杂:表单尺寸不一、字体多样、语种多样,不仅包括:汉字、字符及其特殊字符,有些表单中甚至有图像或者表格。

    需要考虑的问题:

    • 表单输入类型:扫描文件;拍的图像;

    扫面文件,一般都会对原图进行自动校正,预处理阶段就可以减少很多操作;
    拍摄的照片:会存在图像扭曲,文字弯曲等多种情况;

    • 表单背景:是否有背景,有背景需要进行背景分离;没有背景:直接进行识别;
    • 表单中的结构是否多样;
    • 表单内容类型:语种,汉字,字符,特殊字符,领域专业术语;是否有手写体;

    一般的字符识别相对要简单:英文、数字结构简单,数量少;
    汉字识别较为困难:汉字类型复杂切庞大,目前对于6000多个常用汉字以及能够较好识别。

    • 表单内容中是否有表格:是否需要进行表格结构识别;
    • 表单中是否有图像:是否需要图像目标检测;

    分类:

    • 表格类型表单

    也就是表格识别,包括:OCR与表格识别。按照表格识别来进行处理;OCR主要分为:文本检测与文本识别;

    • 非表格单据识别:

    可以单纯看做OCR,也就是只包括:文本检测与文本识别;

  • 相关阅读:
    C++中的双冒号(::) 使用小结
    java JDBC连接数据库代码大全
    Zabbix
    UNITY AR VPS空间-视觉-特征点定位 SDK
    麻了,一个操作把MySQL主从复制整崩了
    大数据学习(17)-mapreduce task详解
    python网络爬虫笔记15:使用js验证获取网页的请求头信息和请求参数
    猿创征文|工具百宝箱-编辑器-笔记工具-日常小工具-原型设计工具
    esxi 6.7下安装openwrt(iStoreOS)网卡直通
    SpringBoot_15_shiro
  • 原文地址:https://blog.csdn.net/qq_38978225/article/details/126510876
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号