• 深度学习数据集—文本、数字、文字识别大合集


    最近收集了一大波关于文本、数字识别相关的数据集,有数字识别、也有语言文字识别,废话不多说现在分享给大家!!

    1、500张手写拼音数据集

    500张手写拼音数据集,包含对应txt格式标注及图片,,并提供lmdb数据格式转换脚本。

    数据获取地址:https://www.dilitanxianjia.com/2540/

    2、大规模金融领域中文语义解析数据集

    数据集采用金融领域的表格作为数据源,涵盖了基金的产品和属性,选手需要构建模型将用户的自然语言问句转换成结构化查询语句(Structured Query Language, SQL)。AntSQL数据集由蚂蚁财富提供,由阿里云天池平台承办,旨在推动金融领域中文NLP技术和社区的健康发展,促进数字金融领域的交叉学科研究,服务数字经济健康发展的国家战略需求。

    数据获取地址:https://www.dilitanxianjia.com/2492/

    3、中文对联数据集

    中文对联数据集,该对联数据集共包含 70 余万条对联数据,按字切分,并分为训练数据集、测试数据集以及一份词汇表。其中,训练数据集、测试数据集分别分为上联和下联两部分。

    数据获取地址:https://www.dilitanxianjia.com/2462/

    4、符号图像数据集

    符号图像数据集,该数据集共包含1363个图像文件,其中JPEG文件1361个,PNG文件2个。这些图像代表了英语和斯堪的纳维亚字母表中的29个字母,包括字母A-Z以及字母æ, ø和å。该数据集可用于各种机器学习任务,如图像分类和字符识别。

    数据获取地址:https://www.dilitanxianjia.com/2435/5

    5、12万个俄罗斯笑话数据集

    12万个俄罗斯笑话数据集

    数据获取地址:https://www.dilitanxianjia.com/2085/

    6、几何形状分类数据集

    几何形状分类数据集,数据集由3个数据类组成,每个类代表一种几何形状(三角形、正方形和圆形)。每个类由10000张生成的图像组成。

    数据获取地址:https://www.dilitanxianjia.com/2066/

    7、带有数字的页面图片数据集

    带有数字的页面图片数据集,共10张手写阿拉伯数字图片

    数据获取地址:https://www.dilitanxianjia.com/1992/

    8、10000张字符文件识别数据集

    10000张字符文件识别数据集,这些图像还包含字母(A-Z)、数字(0-9)和特殊字符(例如#)

    数据获取地址:https://www.dilitanxianjia.com/1989/

    9、各种字体的数字数据集

    各种字体的数字数据集,不考虑字体规则的情况下识别数字。

    数据获取地址:https://www.dilitanxianjia.com/1716/

    10、手写数字和英文字符,数据集

    手写数字和英文字符,数据集包含5个CSV文件datasetphanum、datasetchars、datasettemnist和datasetmnist,分别包括字母数字、字母、emnist手写字母和数字。datasetfinal是包含上述所有数据集的合并文件。图像的灰度为(28,28),存储在数据集的784列中。最后一列包含标签。

    数据获取地址:https://www.dilitanxianjia.com/1713/

    11、20个不同类别的中文新闻数据集

    复旦大学新闻分类数据集,20个不同类别的中文新闻数据集,train文件夹下的文件是培训文件(共9804段)。答案文件夹下的文件是用于测试的(共9833段)。有20个不同的类别。

    数据获取地址:https://www.dilitanxianjia.com/1710/

    12、甲骨文图片数据集

    甲骨文图片数据集

    数据获取地址:https://www.dilitanxianjia.com/1199/

    13、古波斯语楔形文字字体数据集

    古波斯语楔形文字字体数据集,选择了开源的Tesseract引擎进行字符的分割、学习和分类。由于铭文中存在噪声(石缝),本文采用了一些图像处理技术来消除噪声。该系统的最终输出包括楔形字体的提取,句子的波斯语和英语的抄写,句子的发音和翻译大量提取的波斯语和英语单词,使我们更好地了解他们在那个时代的说话方式。通过验证和结果切片获得的结果表明,该系统能够较好地处理楔形文字的识别,对测试数据的所有字符进行了较好的分类,准确率约为92%。

    数据获取地址:https://www.dilitanxianjia.com/1196/

    14、手写体数字从0到9图像数据集

    手写体数字从0到9图像数据集,此数据集包含200张手写体数字图像。所有的数字都是作者在白纸上手写的,然后用智能手机相机拍摄。拍完照片后,额外的白色区域被裁剪。

    数据获取地址:https://www.dilitanxianjia.com/1192/

    15、俄语手写信件数据集

    俄语手写信件数据集,该数据集包括一个文件夹,共有14190张PNG格式的俄文手写信件图片,便于使用CNN对手写信件进行分类。

    数据获取地址:https://www.dilitanxianjia.com/1188/

    16、发票信息识别数据集

    发票信息识别数据集,数据集由XML文件和图像组成。XML文件包含从发票图像中提取的数据,为了清晰起见,文本和XML文件的名称保持相同。数据集的用户应该提取发票号、发票数据、公司名称(从公司1到公司2的发票)、公司电话号码、地址等实体。

    数据获取地址:https://www.dilitanxianjia.com/1182/

    17、梵文字符数据集

    梵文字符数据集,CSV文件的尺寸为92000 1025。有1024个输入特征的像素值在灰度(0到255)。“字符”列表示与每个图像对应的梵文字符名。

    数据获取地址:https://www.dilitanxianjia.com/1179/

  • 相关阅读:
    Rust学习 | Rustlings通关记录与题解
    8月更新 | Java on Azure Tooling
    记录成功通过CSP接口获取Ukey的X509数字证书过程
    u本位合约爆仓清算解决方案建议
    【minitab实战】--控制图制作
    webpack实战:最新QQ音乐sign参数加密分析
    如何写SpringBootStarter 通过一个例子让你掌握starter
    【村长的算法教程】算法与数据结构基础重点
    ASP.NET LIMS系统全套源码(演示+自主版权+项目使用)
    Leetcode 1486.数组异或操作
  • 原文地址:https://blog.csdn.net/weixin_44906759/article/details/134475396