码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Pytorch 分布式训练(DP/DDP)


    概念

    PyTorch是非常流行的深度学习框架,它在主流框架中对于灵活性和易用性的平衡最好。

    分布式训练根据并行策略的不同,可以分为模型并行和数据并行。

    模型并行

    模型并行主要应用于模型相比显存来说更大,一块 GPU 无法加载的场景,通过把模型切割为几个部分,分别加载到不同的 GPU 上,来进行训练

    数据并行

    这个是日常会应用的比较多的情况。即每个 GPU 复制一份模型,将一批样本分为多份分发到各个GPU模型并行计算。因为求导以及加和都是线性的,数据并行在数学上也有效。采用数据并行相当于加大了batch_size,得到更准确的梯度或者加速训练

    常用的 API 有两个:

    torch.nn.DataParallel(DP)
    torch.nn.DistributedDataParallel(DDP)
    DP 相比 DDP 使用起来更友好(代码少),但是 DDP 支持多机多卡,训练速度更快,而且负载相对要均衡一些。所以优先选用 DDP 吧。
     

    参考

    Pytorch 分布式训练(DP/DDP)_pytorch分布式训练_ytusdc的博客-CSDN博客

    PyTorch分布式训练简明教程(2022更新版) - 知乎 

    Pytorch分布式训练 - 知乎 

    Pytorch多机多卡分布式训练 - 知乎

    Pytorch - 多机多卡极简实现(附源码) - 知乎

  • 相关阅读:
    MacOS开发环境搭建
    K8s Ingress Controller部署指南:轻松实现服务外部访问
    XGBoost+LR融合
    crypto:篱笆墙的影子
    Redis6搭建高可用的多主多从集群
    6.1 排列
    【微信小程序】常用组件基本使用(viewscroll-viewswiper、textrich-text、buttonimage)
    Android-Q 对 startActivity() 做了限制,怎么适配?
    ShardingSphere|shardingJDBC - 在使用数据分片功能情况下无法配置读写分离
    Redis事务+秒杀案例
  • 原文地址:https://blog.csdn.net/linzhiji/article/details/132760406
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号