码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 大模型训练框架


    一文搞定分布式训练:dataparallel、distirbuted、deepspeed、accelerate、transformers、horovod - 知乎代码地址:taishan1994/pytorch-distributed-NLP: pytorch分布式训练 (github.com)pytorch-distributed-NLPpytorch单机多卡分布式训练-中文文本分类。一直想尝试来着,苦于没有卡,只好花过年的压岁钱去Autodl上租…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/628022953大模型分布式训练并行技术(一)-概述 - 知乎近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此,我们需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/598714869目前大模型的几个方式包括:

    单卡python直接训练:

    CUDA_VISIBLE_DEVICES=0 python src/train_bash.py

    多卡训练:

    accelerate:

    1. accelerate config # 首先配置分布式环境
    2. accelerate launch src/train_bash.py

    在config中选择MULTI_GPU,DeepSpeed/FullySharedDataParallel/Megatron-LM...

    deepspeed:

    1. deepspeed --num_gpus 8 --master_port=9901 src/train_bash.py \
    2. --deepspeed ds_config.json \
    3. ...

    torchrun:

    torchrun --nproc_per_node={num_gpus} train.py --train_args_file train_args/llama2-13b-ext.yaml

    低版本的pytorch多卡训练(torchrun是其升级版本):

    python -m torch.distributed.launch   --nproc_per_node=2   --nnodes=1 --node_rank=0     --master_addr=localhost   --master_port=22222 	train.py

    数据并行:数据集被分割成几个碎片,每个碎片被分配到一个设备上。每个设备将持有一个完整的模型副本,并在分配的数据集碎片上进行训练,在反向传播之后,模型的梯度将被全部减少,以便在不同设备上的模型参数能够保持同步。DDP

    模型并行:模型被分割并分布在一个设备阵列上,有两种方式:张量并行/流水线并行。

    张量并行:张量是将一个张量沿特定维度分成N块,每个设备只持有整个张量的1/N,需要额外的通信来确保结果的正确性。

    流水线并行:模型按层分割成若干块,每块交给一个设备,在前向传播过程中,每个设备将中间激活传递给下一个阶段;在反向传播中,每个设备将输入张量的梯度传回给前一个流水线阶段。这允许设备同时进行计算,从而增加训练的吞吐量。

    优化器并行:单个GPU的显存无法放下大模型,通常来说,模型训练过程中,GPU上需要进行存储的参数包括了模型本身的参数、优化器状态、激活函数的输出值、梯度以及一些零时的Buffer。其中模型状态参数(优化器状态+梯度+模型参数)占到了一大半以上。优化器相关的并行是一种去除冗余数据的并行,ZeRO,零冗余优化器,针对模型状态的存储优化,ZeRO使用的是分片,即每张卡只存1/N的模型状态量,这样系统只维护一份模型状态,ZeRO有3个级别,1.ZeRO-1,对优化器状态分片;2.ZeRO-2对优化器状态和梯度分片;3.ZeRO-3对优化状态、梯度分片以及模型权重参数分片。

    异构系统并行: 上述方法通常需要大量的GPU来训练一个大型模型,与GPU相比,CPU内存要大得多,在不使用张量时,将其卸载回CPU内存或NVME磁盘。

  • 相关阅读:
    raise EOFError(“No data left in file“) EOFError: No data left in file
    LightDB数据库中的模式
    Python中元组的用法2-1
    正点原子嵌入式linux驱动开发——Linux WIFI驱动
    【大数据采集技术与应用】【第一章】【大数据采集技术与应用概述】
    [Flask]Pycharm+Flask零基础项目搭建入门
    IDEA为什么不能搜索到jar里的代码?
    欧拉计划第86题:长方体路径
    如何进行嵌入式 Windows 开发?
    JS模块化—CJS&AMD&CMD&ES6-前端面试知识点查漏补缺
  • 原文地址:https://blog.csdn.net/u012193416/article/details/134029315
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号