码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【分布式深度学习】--- 环境构建篇之基于物理机-手把手


    一、准备机器

            两台带有gpu的物理机

            机器1:

            

            机器2:

               

    二、准备环境 

           1、conda (我下载的最新版https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2022.05-Linux-x86_64.sh)

             Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror

           2、cuda+cudnn ( 我下载的cuda10.2,因为我的机器上的driver比较老,没有去搞最新的)

           Ubuntu下CUDA和cudnn的安装_冰雪棋书的博客-CSDN博客_ubuntu安装cuda和cudnn

    1. wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run
    2. sudo sh cuda_10.2.89_440.33.01_linux.run

         对于cudnn我是下载的 tar包,而不是deb,因为机器上有多个cuda环境,所以采取手动拷贝的方式

       wget https://developer.nvidia.com/compute/cudnn/secure/8.4.1/local_installers/10.2/cudnn-linux-x86_64-8.4.1.50_cuda10.2-archive.tar.xz

        这里tar.xz解压分两步:1、xz -d xx.tar.xz 2、tar xvf xxx.tar

        然后

    sudo cp ./cudnn-linux-x86_64-8.4.1.50_cuda10.2-archive/include/* /usr/local/cuda-10.2/include/  sudo cp ./cudnn-linux-x86_64-8.4.1.50_cuda10.2-archive/lib/* /usr/local/cuda-10.2/lib64/  

       3、创建conda 虚拟环境,并安装各种配置

           conda -n create pytorch-1.12.0 python=3.9

           conda activate pytorch-1.12.0

           第一步:先替换镜像

    conda config --show channels
     
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud//pytorch/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
    conda config --set show_channel_urls yes

          第二步:继续替换pip镜像

          Linux下,修改 ~/.pip/pip.conf (没有就创建一个)

    [global]

    index-url = https://pypi.tuna.tsinghua.edu.cn/simple

          第三步:安装环境

      conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch

      (这里会安装一系列东西,比较慢)

         第四步:安装分布式深度学习的必要插件

    1、nccl (必须登录nvidia账号)
    官网:https://docs.nvidia.com/deeplearning/nccl/install-guide/#down

    然后进入NVIDIA Collective Communications Library (NCCL) | NVIDIA Developer选择对应的版本:cuda10.2

    安装好了,测试下(需g++和gcc,我用的7.5):

     git clone https://gitee.com/devilmaycry812839668/nccl-tests

     cd nccl-tests

     make

    ./build/all_reduce_perf -b 8 -e 128M -f 2 -g 2(这个2 是你当前机器的gpu个数)

    2、apex(不要直接pip,设定好CUDA_HOME)

    git clone https://github.com/NVIDIA/apex
    cd apex
    pip install -v --disable-pip-version-check --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./

    3、ray

    pip install ray 

    这个是用来初始化集群的插件

    4、openmpi        

    sudo apt install libevent-dev libhwloc-dev libibverbs-dev flex gfortran

    sudo apt-get install openmpi-bin openmpi-common openmpi-doc libopenmpi-dev(直接执行这一行就够了)        

         第五步:设置免密登录

    (116条消息) ssh配置免密登录_wamth的博客-CSDN博客_ssh免密登陆

    三、写一个分布式demo

         请看下一篇文章。。。

  • 相关阅读:
    西宾得到语音下载工具(dedaodown
    项目管理的四大模型,PM必懂的事半功倍模型!
    RabbitMQ入门与进阶实战
    《算法设计与分析(第4版)》笔记——第 1 章 算法入门
    SSM+服装管理系统 毕业设计-附源码080948
    Cesium中自定义材质material
    前端路由与历史
    2022 全球 AI 模型周报
    IO流概述和分类、字节流写数据、字节流写数据加异常处理、字节流读数据、字节流复制文件、字节缓冲流、字节缓冲流复制视频
    基于C语言实现了PASCAL编译器
  • 原文地址:https://blog.csdn.net/github_36923418/article/details/126246021
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号