码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 大语言模型预训练数据集及清洗框架介绍【简单版】


    目录

    一、常见数据集类型 📚

    二、数据清洗框架对比 🧹

    SlimPajama

    MNBVC

    CC-NET

    三、理想的清洗框架 💯

    四、数据清洗核心流程 🔄

    五、现有数据集反思 🤔

    六 中文预训练数据集 🇨🇳

    1. Wuanjuan 1.0

    2. WuDaoCorpora

    3. CLUECorpus2020

    多语种数据集 🌍

    1. CC100

    2. OSCAR

    3. ROOTS

    4. RedPajama-V2


    今天给大家带来一篇超简单的大语言模型预训练数据集及清洗框架总结,建议收藏!👍

    一、常见数据集类型 📚

    1. 网页数据 🌐
    2. 书籍 📖
    3. 企业年报 📊
    4. 法律文书 ⚖️
    5. 问答 ❓
    6. 新闻 📰
    7. 百科 🔍
    8. 考试题 ✍️
    9. 专利 💡
    10. 评论 💬
    11. 博客 📝
    12. 歌词 🎵
    13. 古诗文 🖋️
    14. 中英平行语料 🇨🇳🇬🇧

    二、数据清洗框架对比 🧹

    SlimPajama

    • 擅长:大规模英文数据去重
    • 优点:支持并行和内存优化,可处理万亿级数据
    • 缺点:仅支持英文

    MNBVC

    • 擅长:中文语料清洗
    • 优点:支持文本提取、去重和质量评分
    • 缺点:仅支持文档级别去重

    CC-NET

    • 擅长:多语种清洗
    • 优点:实现完整清洗链路,包括语种分类、规则过滤等
    • 缺点:安装复杂,缺乏多粒度去重

    三、理想的清洗框架 💯

    1. 支持多语种多格式输入 🌍
    2. 具备大规模并行和可扩展能力 🚀
    3. 支持自定义规则和功能 🛠️
    4. 支持多粒度去重(段落、章节、文档) 🔍
    5. 模块化、可配置、可扩展 🧩
    6. 提供丰富的规则库 📚

    四、数据清洗核心流程 🔄

    1. 预处理:抽取段落,计算哈希值
    2. 去重、分类和打分:
      • 删除重复段落
      • 语种分类(如中文、英文、德文等)
      • 质量打分(分为Head、Middle、Tail三级)
    3. 重组:按语种和质量分类重组,保存为Json文件

    五、现有数据集反思 🤔

    1. 数据规模:中英高质量文本已初步对齐开源模型(约20T Tokens)
    2. 训练语种:从单/双语种向多语种发展
    3. 采样方式:不均匀采样 vs 均匀采样(各有优势)
    4. 去重策略:精确去重+模糊去重结合
    5. 质量评估:缺乏统一标准,常用方法:
      • 质量分类器+阈值筛选
      • 文本困惑度(PPL)指标
      • 多轮人工校验

    六 中文预训练数据集 🇨🇳

    1. Wuanjuan 1.0

    🔍 由上海AI实验室构建
    📊 规模:552 GB中文文本
    🧹 经过细粒度清洗、去重和价值对齐
    ⚠️ 注意:与MNBVC有重叠,使用前需去重

    2. WuDaoCorpora

    🏫 北京智源人工智能研究院出品
    📚 包含文本、对话、图文对
    🏷️ 50+行业数据标签
    🧼 从100TB原始网页数据中清洗而来

    3. CLUECorpus2020

    🌐 从Common Crawl提取
    📏 规模:100 GB
    ✅ 已用于成功训练Bert-base模型
    🚨 仍存在一些质量问题,如繁体字、广告文本等

    多语种数据集 🌍

    1. CC100

    🗣️ 100种语言
    📊 总规模:2.5TB
    🧠 用于训练XLM-R模型

    2. OSCAR

    🌐 基于Common Crawl
    📊 总规模:6.3TB
    🗨️ 151种语言

    3. ROOTS

    🌈 59种语言(46种自然语言+13种编程语言)
    📊 规模:1.6TB
    🤖 用于训练BLOOM模型

    4. RedPajama-V2

    🗣️ 5种主要语言
    📊 规模:30T Tokens(约100TB)
    🧹 采用CC-NET清洗框架

  • 相关阅读:
    JavaSE异常的分析
    lua 判空的坑
    蓝桥杯打卡Day13天
    Oracle LiveLabs实验:Configure network environment for Oracle Database 21c
    Vue 文件是如何被转换并渲染到页面的?
    Vue Jsp页面值绑定出现换行后台值导致syntaxerror 问题处理
    信息学奥赛一本通:1155:回文三位数
    【华为上机考试真题 2022】找终点
    【JS高级】js面向对象三大特性之多态_07
    ssm电商背景下精品茶网站的设计与实现毕业设计-附源码191732
  • 原文地址:https://blog.csdn.net/Viviane_2022/article/details/140054693
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号