政府机构在数字化转型过程中,每天都会产生和接收大量的文档,包括公文、申请材料、报告等。这些文档通常以非结构化的形式存在,难以直接进行分析和利用。而OCR可以通过文字识别技术,将这些非结构化的数据转化为结构化的信息,从而方便政府机构进行数据治理和决策分析。
当前政务文档在文字识别中的挑战主要有:
因此,选择一种既能大规模支持各种文档识别、识别精度高,又能方便管理、降本增效的识别应用,显得尤为重要。
针对以上的行业需求,飞桨联合旻浦科技提供了一套基于PaddleX(飞桨AI套件)的完整的政务文档处理方案,可利用模型库中PP-OCRv4的高精度识别能力,准确提取各种电子文档材料的核心信息,形成标准化的产品,助力政府政务治理,提升数字化服务能力。同时,旻浦科技也加入星河共创计划,将第一阶段共创成果已上线至PaddleX应用官网,访问下方链接即可了解更多~
项目链接:基于PP-OCRv4的文档场景检测识别 - 飞桨AI Studio星河社区
针对以上问题,旻浦科技基于PaddleX中PP-OCRv4模型的基础能力,将10万份证照类、文本类电子文档材料通过分类、检测、识别、提取,输出结构化信息。飞桨解决基础性、公共性通用能力,旻浦科技专注于业务分析、创新应用能力,双方彼此链接、相互促进,最终赋能政务工作,实现“AI+政务”智能升级。
如下所示,PP-OCRv4整体的框架图保持了与PP-OCRv3相同的pipeline,针对检测模型和识别模型进行了数据、网络结构、训练策略等多个模块的优化。
PP-OCRv4系统框图
PP-OCRv4效果速览:
效果一:精度提高、应用效果显著
效果二:效率提升、上线周期缩短
在智能预审和智能帮办的常规项目及30个高频服务事项中,应用PP-OCRv4后,开发到上线的时间成本缩短1.5个月左右。
效果三:成本降低、综合效益提升
效率提高、人力成本降低,研发团队从原来10人左右算法工程师缩减至4人。
为了让广大开发者和企业更详细了解到PP-OCRv4在政务领域的具体应用以及如何助力业务实现降本增效,旻浦科技数字政府研究院院长姜德峰将于10月26日(周四)19:00为大家带来一期精品课程,以旻浦科技的政务领域为例,详解企业如何利用科技赋能,实现企业数字化转型新思路。
除了可以更便捷地开发AI模型和应用外,星河共创计划为企业提供了企业扶持和商业收益的机会。
1.有意向基于文心大模型(ERNIE Bot SDK、文心一言等)共创应用和插件,可以获取百亿流量、项目奖金等福利。
2.基于文心大模型和PaddleX(飞桨AI套件)共创应用上线至星河社区,可以拟定应用价格,开放给其他用户购买,获得应用收入分成。
通过星河共创计划,成为文心生态伙伴,助力企业快速实现行业痛点解决、大模型业务落地、客户拓展和商业收入。欢迎关注「飞桨PaddlePaddle」了解星河共创计划。 我们期待与您携手,发掘更多经典场景案例!
1.PaddleX中的PP-OCRv4:
基于PP-OCRv4的文档场景检测识别 - 飞桨AI Studio星河社区
2.PaddleX官网:
3.PaddleX官方频道:
4.PaddleX共创方案:
https://ai.baidu.com/ai-doc/AISTUDIO/pll1ysj35
5.PaddleX使用文档:
https://ai.baidu.com/ai-doc/AISTUDIO/Zlisojzjs