• 【NLP】自然语言处理的语料库与词库


     🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎

    📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃

    🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝​

    📣系列专栏 - 机器学习【ML】 自然语言处理【NLP】  深度学习【DL】

     🖍foreword

    ✔说明⇢本人讲解主要包括Python、机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等内容。

    如果你对这个系列感兴趣的话,可以关注订阅哟👋

    文章目录 

    语料库

    词库及词法工具


    语料库

    资源名(Name)描述(Description)链接
    人名语料库wainshine/Chinese-Names-Corpus
    Chinese-Word-Vectors各种中文词向量github repo
    中文聊天语料该库搜集了包含豆瓣多轮, PTT八卦语料, 青云语料, 电视剧对白语料, 贴吧论坛回帖语料,微博语料,小黄鸡语料link
    中文谣言数据该数据文件中,每一行为一条json格式的谣言数据github
    中文问答数据集链接 提取码 2dva
    微信公众号语料3G语料,包含部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文github
    中文自然语言处理 语料、数据集github
    任务型对话英文数据集【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全,这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。github
    语音识别语料生成工具从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库github
    LitBankNLP数据集支持自然语言处理和计算人文学科任务的100部带标记英文小说语料github
    中文ULMFiT情感分析 文本分类 语料及模型github
    省市区镇行政区划数据带拼音标注github
    教育行业新闻 自动文摘 语料库github
    中文自然语言处理数据集github
    百度知道问答语料库超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘github
    维基大规模平行文本语料85种语言、1620种语言对、135M对照句github
    古诗词库github repo
    更全的古诗词库
    低内存加载维基百科数据用新版nlp库加载17GB+英文维基语料只占用9MB内存遍历速度2-3 Gbit/sgithub
    对联数据700,000 couplets, 超过70万对对联github
    《配色辞典》数据集github
    42GB的JD客服对话数据(CSDD)github
    70万对联数据link
    用户名黑名单列表github
    依存句法分析语料4万句高质量标注数据Homepage
    人民日报语料处理工具集github
    虚假新闻数据集 fake news corpusgithub
    诗歌质量评价/细粒度情感诗歌语料库github
    中文自然语言处理相关的开放任务数据集以及当前最佳结果github
    中文缩写数据集github
    中文任务基准测评代表性的数据集-基准(预训练)模型-语料库-baseline-工具包-排行榜github
    中文谣言数据库github
    CLUEDatasetSearch中英文NLP数据集搜索所有中文NLP数据集,附常用英文NLP数据集github
    多文档摘要数据集github
    让人人都变得“彬彬有礼”礼貌迁移任务在保留意义的同时将非礼貌语句转换为礼貌语句,提供包含139M + 实例的数据集paper and code
    粤语/英语会话双语语料库github
    中文NLP数据集列表github
    类人名/地名/组织机构名的命名体识别数据集github
    中文语言理解测评基准包括代表性的数据集&基准模型&语料库&排行榜github
    OpenCLaP多领域开源中文预训练语言模型仓库民事文书、刑事文书、百度百科github
    中文全词覆盖BERT及两份阅读理解数据DRCD数据集:由中国台湾台达研究院发布,其形式与SQuAD相同,是基于繁体中文的抽取式阅读理解数据集。
    CMRC 2018数据集:哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题,系统需要从篇章中抽取出片段作为答案,形式与SQuAD相同。
    github
    Dakshina数据集十二种南亚语言的拉丁/本地文字平行数据集合github
    OPUS-100以英文为中心的多语(100种)平行语料github
    中文阅读理解数据集github
    中文自然语言处理向量合集github
    中文语言理解测评基准包括代表性的数据集、基准(预训练)模型、语料库、排行榜github
    NLP数据集/基准任务大列表github
    LitBankNLP数据集支持自然语言处理和计算人文学科任务的100部带标记英文小说语料github
    70万对联数据github
    文言文(古文)-现代文平行语料短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍,已和《资治通鉴》合并github
    COLDDateset,中文冒犯性语言检测数据集涵盖了种族、性别和地区等话题内容,数据待论文发表后放出paper

    词库及词法工具

    资源名(Name)描述(Description)链接
    textfilter中英文敏感词过滤observerss/textfilter
    人名抽取功能中文(现代、古代)名字、日文名字、中文的姓和名、称呼(大姨妈、小姨妈等)、英文->中文名字(李约翰)、成语词典cocoNLP
    中文缩写库全国人大: 全国 人民 代表大会; 中国: 中华人民共和国;女网赛: 女子/n 网球/n 比赛/vngithub
    汉语拆字词典漢字 拆法 (一) 拆法 (二) 拆法 (三) 拆 手 斥 扌 斥 才 斥kfcd/chaizi
    词汇情感值山泉水:0.400704566541
    充沛: 0.37006739587
    rainarch/SentiBridge
    中文词库、停用词、敏感词dongxiexidian/Chinese
    python-pinyin汉字转拼音mozillazg/python-pinyin
    zhtools中文繁简体互转skydark/nstools
    英文模拟中文发音引擎say wo i ni #说:我爱你tinyfool/ChineseWithEnglish
    chinese_dictionary同义词库、反义词库、否定词库guotong1988/chinese_dictionary
    wordninja无空格英文串分割、抽取单词wordninja
    汽车品牌、汽车零件相关词汇data
    THU整理的词库IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库link
    罪名法务名词及分类模型包含856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能github
    分词语料库+代码百度网盘链接 - 提取码 pea6
    基于Bi-LSTM + CRF的中文分词+词性标注keras实现link
    基于Universal Transformer + CRF 的中文分词和词性标注link
    快速神经网络分词包java version
    chinese-xinhua中华新华字典数据库及api,包括常用歇后语、成语、词语和汉字github
    SpaCy 中文模型包含Parser, NER, 语法树等功能。有一些英文package使用spacy的英文模型的,如果要适配中文,可能需要使用spacy中文模型。github
    中文字符数据github
    Synonyms中文近义词工具包github
    HarvestText领域自适应文本挖掘工具(新词发现-情感分析-实体链接等)github
    word2word方便易用的多语言词-词对集62种语言/3,564个多语言对github
    多音字词典数据及代码github
    汉字、词语、成语查询接口github
    103976个英语单词库包(sql版,csv版,Excel版)github
    英文脏话大列表github
    词语拼音数据github
    186种语言的数字叫法库github
    世界各国大规模人名库github
    汉字字符特征提取器 (featurizer)提取汉字的特征(发音特征、字形特征)用做深度学习的特征github
    char_featurizer - 汉字字符特征提取工具github
    中日韩分词库mecab的Python接口库github
    g2pC基于上下文的汉语读音自动标记模块github
    ssc, Sound Shape Code音形码 - 基于“音形码”的中文字符串相似度计算方法version 1
    version 2
    blog/introduction
    基于百科知识库的中文词语多词义/义项获取与特定句子词语语义消歧github
    Tokenizer快速、可定制的文本词条化库github
    Tokenizers注重性能与多功能性的最先进分词器github
    通过同义词替换实现文本“变脸”github
    token2index与PyTorch/Tensorflow兼容的强大轻量词条索引库github
    繁简体转换github
    粤语NLP工具github
    领域词典库涵盖68个领域、共计916万词的专业词典知识库github

  • 相关阅读:
    【笔记版】cgroup大摸底
    C# in a Nutshell 系列(3)C#语言基础
    05704-A-0145 HONEYWELL 将autoML技术应用于预训练的模型
    探索图像分割技术:使用 OpenCV 的分水岭算法
    外包干了2个月,技术退步明显...
    英文论文(sci)解读复现【NO.21】一种基于空间坐标的轻量级目标检测器无人机航空图像的自注意
    高薪程序员&面试题精讲系列130之说说你对微服务的理解?SpringCloud中有哪些常用的组件和注解?
    Vue2 基本语法
    Elasticsearch:InteliJ Elasticsearch plugin 集成
    “蔚来杯“2022牛客暑期多校训练营4
  • 原文地址:https://blog.csdn.net/sikh_0529/article/details/128169459