【NLP】自然语言处理的语料库与词库

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎

📝个人主页－Sonhhxg_柒的博客_CSDN博客 📃

🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝

📣系列专栏 - 机器学习【ML】自然语言处理【NLP】深度学习【DL】

🖍foreword

✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。

如果你对这个系列感兴趣的话，可以关注订阅哟👋

文章目录

语料库

词库及词法工具

语料库

资源名（Name）	描述（Description）	链接
人名语料库		wainshine/Chinese-Names-Corpus
Chinese-Word-Vectors	各种中文词向量	github repo
中文聊天语料	该库搜集了包含豆瓣多轮, PTT八卦语料, 青云语料, 电视剧对白语料, 贴吧论坛回帖语料,微博语料,小黄鸡语料	link
中文谣言数据	该数据文件中，每一行为一条json格式的谣言数据	github
中文问答数据集		链接提取码 2dva
微信公众号语料	3G语料，包含部分网络抓取的微信公众号的文章，已经去除HTML，只包含了纯文本。每行一篇，是JSON格式，name是微信公众号名字，account是微信公众号ID，title是题目，content是正文	github
中文自然语言处理语料、数据集		github
任务型对话英文数据集	【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全，这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外，为了帮助研究者更好的把握领域进展的脉络，我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。	github
语音识别语料生成工具	从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库	github
LitBankNLP数据集	支持自然语言处理和计算人文学科任务的100部带标记英文小说语料	github
中文ULMFiT	情感分析文本分类语料及模型	github
省市区镇行政区划数据带拼音标注		github
教育行业新闻自动文摘语料库		github
中文自然语言处理数据集		github
百度知道问答语料库	超过580万的问题，938万的答案，5800个分类标签。基于该问答语料库，可支持多种应用，如闲聊问答，逻辑挖掘	github
维基大规模平行文本语料	85种语言、1620种语言对、135M对照句	github
古诗词库		github repo 更全的古诗词库
低内存加载维基百科数据	用新版nlp库加载17GB+英文维基语料只占用9MB内存遍历速度2-3 Gbit/s	github
对联数据	700,000 couplets, 超过70万对对联	github
《配色辞典》数据集		github
42GB的JD客服对话数据(CSDD)		github
70万对联数据		link
用户名黑名单列表		github
依存句法分析语料	4万句高质量标注数据	Homepage
人民日报语料处理工具集		github
虚假新闻数据集 fake news corpus		github
诗歌质量评价/细粒度情感诗歌语料库		github
中文自然语言处理相关的开放任务	数据集以及当前最佳结果	github
中文缩写数据集		github
中文任务基准测评	代表性的数据集-基准(预训练)模型-语料库-baseline-工具包-排行榜	github
中文谣言数据库		github
CLUEDatasetSearch	中英文NLP数据集搜索所有中文NLP数据集，附常用英文NLP数据集	github
多文档摘要数据集		github
让人人都变得“彬彬有礼”礼貌迁移任务	在保留意义的同时将非礼貌语句转换为礼貌语句，提供包含139M + 实例的数据集	paper and code
粤语/英语会话双语语料库		github
中文NLP数据集列表		github
类人名/地名/组织机构名的命名体识别数据集		github
中文语言理解测评基准	包括代表性的数据集&基准模型&语料库&排行榜	github
OpenCLaP多领域开源中文预训练语言模型仓库	民事文书、刑事文书、百度百科	github
中文全词覆盖BERT及两份阅读理解数据	DRCD数据集：由中国台湾台达研究院发布，其形式与SQuAD相同，是基于繁体中文的抽取式阅读理解数据集。 CMRC 2018数据集:哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题，系统需要从篇章中抽取出片段作为答案，形式与SQuAD相同。	github
Dakshina数据集	十二种南亚语言的拉丁/本地文字平行数据集合	github
OPUS-100	以英文为中心的多语(100种)平行语料	github
中文阅读理解数据集		github
中文自然语言处理向量合集		github
中文语言理解测评基准	包括代表性的数据集、基准(预训练)模型、语料库、排行榜	github
NLP数据集/基准任务大列表		github
LitBankNLP数据集	支持自然语言处理和计算人文学科任务的100部带标记英文小说语料	github
70万对联数据		github
文言文（古文）-现代文平行语料	短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍，已和《资治通鉴》合并	github
COLDDateset，中文冒犯性语言检测数据集	涵盖了种族、性别和地区等话题内容，数据待论文发表后放出	paper

词库及词法工具

资源名（Name）	描述（Description）	链接
textfilter	中英文敏感词过滤	observerss/textfilter
人名抽取功能	中文（现代、古代）名字、日文名字、中文的姓和名、称呼（大姨妈、小姨妈等）、英文->中文名字（李约翰）、成语词典	cocoNLP
中文缩写库	全国人大: 全国人民代表大会; 中国: 中华人民共和国;女网赛: 女子/n 网球/n 比赛/vn	github
汉语拆字词典	漢字拆法 (一) 拆法 (二) 拆法 (三) 拆手斥扌斥才斥	kfcd/chaizi
词汇情感值	山泉水:0.400704566541 充沛: 0.37006739587	rainarch/SentiBridge
中文词库、停用词、敏感词		dongxiexidian/Chinese
python-pinyin	汉字转拼音	mozillazg/python-pinyin
zhtools	中文繁简体互转	skydark/nstools
英文模拟中文发音引擎	say wo i ni #说：我爱你	tinyfool/ChineseWithEnglish
chinese_dictionary	同义词库、反义词库、否定词库	guotong1988/chinese_dictionary
wordninja	无空格英文串分割、抽取单词	wordninja
汽车品牌、汽车零件相关词汇		data
THU整理的词库	IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库	link
罪名法务名词及分类模型	包含856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能	github
分词语料库+代码		百度网盘链接 - 提取码 pea6
基于Bi-LSTM + CRF的中文分词+词性标注	keras实现	link
基于Universal Transformer + CRF 的中文分词和词性标注		link
快速神经网络分词包	java version
chinese-xinhua	中华新华字典数据库及api，包括常用歇后语、成语、词语和汉字	github
SpaCy 中文模型	包含Parser, NER, 语法树等功能。有一些英文package使用spacy的英文模型的，如果要适配中文，可能需要使用spacy中文模型。	github
中文字符数据		github
Synonyms中文近义词工具包		github
HarvestText	领域自适应文本挖掘工具（新词发现-情感分析-实体链接等）	github
word2word	方便易用的多语言词-词对集62种语言/3,564个多语言对	github
多音字词典数据及代码		github
汉字、词语、成语查询接口		github
103976个英语单词库包	（sql版，csv版，Excel版）	github
英文脏话大列表		github
词语拼音数据		github
186种语言的数字叫法库		github
世界各国大规模人名库		github
汉字字符特征提取器 (featurizer)	提取汉字的特征（发音特征、字形特征）用做深度学习的特征	github
char_featurizer - 汉字字符特征提取工具		github
中日韩分词库mecab的Python接口库		github
g2pC基于上下文的汉语读音自动标记模块		github
ssc, Sound Shape Code	音形码 - 基于“音形码”的中文字符串相似度计算方法	version 1 version 2 blog/introduction
基于百科知识库的中文词语多词义/义项获取与特定句子词语语义消歧		github
Tokenizer快速、可定制的文本词条化库		github
Tokenizers	注重性能与多功能性的最先进分词器	github
通过同义词替换实现文本“变脸”		github
token2index与PyTorch/Tensorflow兼容的强大轻量词条索引库		github
繁简体转换		github
粤语NLP工具		github
领域词典库	涵盖68个领域、共计916万词的专业词典知识库	github

相关阅读:
【笔记版】cgroup大摸底
 C# in a Nutshell 系列（3）C#语言基础
 05704-A-0145 HONEYWELL 将autoML技术应用于预训练的模型
 探索图像分割技术：使用 OpenCV 的分水岭算法
 外包干了2个月，技术退步明显...
英文论文（sci）解读复现【NO.21】一种基于空间坐标的轻量级目标检测器无人机航空图像的自注意
 高薪程序员&面试题精讲系列130之说说你对微服务的理解？SpringCloud中有哪些常用的组件和注解？
Vue2 基本语法
 Elasticsearch：InteliJ Elasticsearch plugin 集成
 “蔚来杯“2022牛客暑期多校训练营4
原文地址：https://blog.csdn.net/sikh_0529/article/details/128169459