• 【工具】OCR方法|不用下载额外的软件,提取扫描中英文PDF的目录文本的最优解!(一)


    需求:
    1)从PDF里快速提取目录;
    2)不想下载任何软件。

    我提取出来的目录文本会用于嵌入到PDF中,向PDF批量添加目录的软件以及软件的使用方法可以看我上一篇文章:PDF批量插入目录

    之后还有一篇文章,会写到用Python做OCR提取,这样能把提取过程扔到服务器后台,用起来更加方便(不用打开GPT也不用打开QQ了这样就)。

    用来测试的目录图片示意:

    在这里插入图片描述

    一、用现有常用软件直接导出目录

    这个方案是用常用的软件生成的,不需要下载其他奇怪的软件。

    1 (推荐指数☆)QQ OCR文字识别

    星星点
    1)即开即用
    2)中文的字形识别特别准确

    扣星星点
    1)没办法放后台运行
    2)数字识别特别差,
    3)格式特别乱,用来做目录提取要调整很久

    识别结果:

    摘要..
    Abstract . . . . .......................................................[II第1章绪论...... . . . .. . .  .        
    1.1︰研究背景...................................11.2国内外研究现状...... ... . . .. . . . . . . ............ .. ..... . ........2
    1.2.1大整数分解的研究现状.... . . ... . . . .. .... . . . . ... . . . . . . . . .. .. 3
    1.2.2一般数域筛法的研究现状..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 31.2.3最新研究进展..
    .... . . . .. . ... . .. .. ... . . . . .. .. . . . . . .. ... 4
    1.3论文的主要内容...............................................41.4论文的结构安排...... .... .... . . . . . . . .. . . ... . . .. . ..... . ... .....5
    i . .  i   . . ... o
    第2章相关理论基础........ . .. ............….…..72.1密码学基础.....................… ............72.1.1 密码学原理..... . . ....................。2.1.2公钥密码体制............i......................92.1.3 RSA 公钥密码体制....
    2.2整数分解基础..... ......... . .... .. .. . ...... ... ......... ...... .9
    2.2.1整数分解难题..... ... . . . . . . . . . . . . . . . . . . . . . . ... . .. ........ 102.2.2 常用的整数分解方法.... . . .... .... .. .. .. . . . ............. . .10
    2.2.3 RSA因式分解挑战数....... . . . . . . . . . . . .. . . . . . . . .... . . .....122.2.4素数的判断...... . . . .......................……...........152.3 一般数域筛法简介.... . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . .. . . . ..... 15.............….l7
    2.3.1多项式选择..... ...... . . . . . . .. . .. . . .. . . . . . . . .... . . . . . .... 172.3.2筛数对.... . .
    . . ... ... . . . . . . . . . . . . . ...... . . . ... . . . . ... . . ..17
    2.3.3 线性方程组求解.......... . .. . . . . . . . . . . . . . . . . .. ... . . . . . . . .182.3.4﹑代数数的平方根求解.... . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . 182.4一般数域筛法的典型应用实例........ . . . . . . . . . . . . . . . . . . . . . . . . .192.4.1―分解RSA-768的多项式选择......... .. . . . . . . . . . . . . . . .. .....192.4.2 分解RSA-768的筛选及过滤..... . . .... . . . . . . . . . . . . .... . . . . .202.4.3 分解RSA-768的方程组求解..... . . . . . . . . . . . . . . . . . . . . . . . .... 212.4.4 分解 RSA-768的平方根求解...
    1K小P·    . ... . . . . . . . . . . . ...... . . .. 21
    2.5本章小结........... ... .. . .. . .. .. . .
    第3章对线性多项式选择方法分析与比较....... . . . . . .. . . . . .. .
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19

    2 (推荐指数0星)GPT4 图像识别

    GPT4我一直用着挺舒服的,直到碰到这个目录识别的需求。
    它胡言乱语,恼火!

    在这里插入图片描述

    3 (推荐指数0星)GPT4 AI PDF插件

    原本想着是不是原生的我prompt引导错了,用插件是不是就有救了,但是插件它!
    压根不支持扫描PDF的识别,game over!

    在这里插入图片描述

    4 (推荐指数☆☆☆☆)QQ+GPT3.5结合

    上面不是说QQ的文字识别贼精准嘛,但是目录的整理工作量很大。
    但是GPT它又恰好是一个聪明的机器人,它平时胡言乱语但是正经工作不含糊。

    所以可以这样:先QQ自动识别,然后一键复制给GPT,说:

    订正这个目录:
    摘要..
    Abstract . . . . .......................................................[II第1章绪论...... . . . .. . .  .        
    1.1︰研究背景...................................11.2国内外研究现状...... ... . . .. . . . . . . ............ .. ..... . ........2
    1.2.1大整数分解的研究现状.... . . ... . . . .. .... . . . . ... . . . . . . . . .. .. 3
    1.2.2一般数域筛法的研究现状..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 31.2.3最新研究进展..
    .... . . . .. . ... . .. .. ... . . . . .. .. . . . . . .. ... 4
    1.3论文的主要内容...............................................41.4论文的结构安排...... .... .... . . . . . . . .. . . ... . . .. . ..... . ... .....5
    i . .  i   . . ... o
    第2章相关理论基础........ . .. ............….…..72.1密码学基础.....................… ............72.1.1 密码学原理..... . . ....................。2.1.2公钥密码体制............i......................92.1.3 RSA 公钥密码体制....
    2.2整数分解基础..... ......... . .... .. .. . ...... ... ......... ...... .9
    2.2.1整数分解难题..... ... . . . . . . . . . . . . . . . . . . . . . . ... . .. ........ 102.2.2 常用的整数分解方法.... . . .... .... .. .. .. . . . ............. . .10
    2.2.3 RSA因式分解挑战数....... . . . . . . . . . . . .. . . . . . . . .... . . .....122.2.4素数的判断...... . . . .......................……...........152.3 一般数域筛法简介.... . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . .. . . . ..... 15.............….l7
    2.3.1多项式选择..... ...... . . . . . . .. . .. . . .. . . . . . . . .... . . . . . .... 172.3.2筛数对.... . .
    . . ... ... . . . . . . . . . . . . . ...... . . . ... . . . . ... . . ..17
    2.3.3 线性方程组求解.......... . .. . . . . . . . . . . . . . . . . .. ... . . . . . . . .182.3.4﹑代数数的平方根求解.... . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . 182.4一般数域筛法的典型应用实例........ . . . . . . . . . . . . . . . . . . . . . . . . .192.4.1―分解RSA-768的多项式选择......... .. . . . . . . . . . . . . . . .. .....192.4.2 分解RSA-768的筛选及过滤..... . . .... . . . . . . . . . . . . .... . . . . .202.4.3 分解RSA-768的方程组求解..... . . . . . . . . . . . . . . . . . . . . . . . .... 212.4.4 分解 RSA-768的平方根求解...
    1K小P·    . ... . . . . . . . . . . . ...... . . .. 21
    2.5本章小结........... ... .. . .. . .. .. . .
    第3章对线性多项式选择方法分析与比较....... . . . . . .. . . . . .. .
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20

    输出的结果GPT3:
    在这里插入图片描述

    又快又好啊!!!
    扣一颗星是因为它没有弥补出部分丢失的页码信息。

    5 (推荐指数☆☆☆☆)QQ+GPT4结合

    同样,我还测试了GPT4的结果。
    GPT4扣一颗星因为它响应比GPT3.5慢。虽然它甚至输出了缩进,但缩进在批量添加目录的软件里本来就可以自动添加,所以不构成优势。

    但是优点是它补全了所有丢失的页码信息!太强了。

    输出的结果GPT4:

    在这里插入图片描述

    总之,最好的方式是QQ识别+GPT3.5。

    扩展阅读:【工具】FreePic2PDF+PdgCntEditor|PDF批量添加书签(Windows)

  • 相关阅读:
    基于微信小程序的美食推荐系统设计与实现(源码+lw+部署文档+讲解等)
    数据结构之队列
    nginx配置新的SSL证书后浏览器仍显示之前的旧SSL证书
    使用VSCode编辑与编译WSL2下源代码
    RocketMQ5.0源码解析-CommitLog图文详解
    WPF 截图控件之移除控件(九)「仿微信」
    【机器学习】数据格式csv/txt/pkl
    可能是01背包问题最全面的解析
    Python 06 之面向对象基础
    jmeter5.4.1源码编译(IDEA)问题解决
  • 原文地址:https://blog.csdn.net/qq_46106285/article/details/134272245