码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • ChatGPT实战与私有化大模型落地


    文章目录

    • 大模型现状
      • baseline底座选择
      • 数据构造
      • 迁移方法
      • 评价
      • 思考
    • 领域大模型训练技巧
      • Tokenizer
      • 分布式深度学习
        • 数据并行
        • 管道并行
        • 向量并行
        • 分布式框架——Megatron-LM
        • 分布式深度学习框架——Colossal-AI
        • 分布式深度学习框架——DeepSpeed
        • P-tuning 微调
      • 资源消耗
      • 模型推理加速
        • 模型推理加速方法——FastLLM
        • 模型推理加速方法——VLLm
    • 领域大模型产品形态及落地场景
      • ChatGPT用户视角思考
      • ChatGPT企业视角思考
      • 企业级ChatGPT的建设要素
      • 选择优质的应用场景
      • ChatGPT场景设计-工业制造
      • ChatGPT场景设计-文案编写

    大模型现状

    baseline底座选择

    在这里插入图片描述

    数据构造

    在这里插入图片描述

    • 领域数据
    • 书籍数据
    • 网站数据
    • 新闻内容
    • 指令微调数据

    混合数据(公用数据+领域数据,比例1:5 )避免知识遗忘,导致通用能力下降。

    迁移方法

    在这里插入图片描述

    • 资源不充足的时候,在chat模型基础上训练
    • 资源充足的时候,在Base模型上训练
      千万级别的数据,在chat模型上不要用全量数据进行训练。

    评价

    在这里插入图片描述

    思考

    在这里插入图片描述


    领域大模型训练技巧

    在这里插入图片描述

    • ChatGPTBook:github.com/liucongg/ChatGPTBook

    Tokenizer

    在这里插入图片描述

    分布式深度学习

    在这里插入图片描述

    数据并行

    在这里插入图片描述

    管道并行

    在这里插入图片描述

    向量并行

    在这里插入图片描述
    在这里插入图片描述

    分布式框架——Megatron-LM

    在这里插入图片描述

    分布式深度学习框架——Colossal-AI

    在这里插入图片描述

    分布式深度学习框架——DeepSpeed

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    P-tuning 微调

    在这里插入图片描述

    资源消耗

    在这里插入图片描述
    在这里插入图片描述

    模型推理加速

    模型推理加速方法——FastLLM

    在这里插入图片描述

    模型推理加速方法——VLLm

    在这里插入图片描述


    领域大模型产品形态及落地场景

    在这里插入图片描述

    ChatGPT用户视角思考

    在这里插入图片描述

    ChatGPT企业视角思考

    在这里插入图片描述

    企业级ChatGPT的建设要素

    在这里插入图片描述

    选择优质的应用场景

    在这里插入图片描述

    ChatGPT场景设计-工业制造

    在这里插入图片描述

    ChatGPT场景设计-文案编写

    在这里插入图片描述

  • 相关阅读:
    Java 类和对象
    (73)MIPI DSI LLP介绍(十三)
    vivado流程导航器详细介绍【全网最详细】
    pytorch深度学习实战lesson21
    Multi Query Attention & Group Query Attention
    怎样判断气门油封有问题?
    Event loop事件循环
    Wireshark 4.2.5:发现 QUIC 和 VXLAN 协议的新功能
    工业级成熟航运港口人工智能产品全球前三船公司及港口码头落地,中国上海人工智能独角兽中集飞瞳全球应用最广规模最大最先进港航AI企业
    JWFD开源工作流-随机函数发生器最新进展
  • 原文地址:https://blog.csdn.net/uncle_ll/article/details/132781105
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号