• DCU集群搭建虚拟环境方法简介


    1.conda安装方法:

    wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh  #下载miniconda安装包
    
    chmod 750 Miniconda3-latest-Linux-x86_64.sh  #添加执行权限
    
    bash ./Miniconda3-latest-Linux-x86_64.sh  #安装下载的minnconda3
    
    • 1
    • 2
    • 3
    • 4
    • 5

    下载安装包
    修改权限并安装
    查看安装的conda版本
    2.集群安装dcu版本的pytorch安装
    格式:
    conda create -n 虚拟环境名 python=3.8

    (1)集群一般会预置适配的安装包,路径为:/public/software/apps/DeepLearning/whl
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    环境搭建方法(以安装dtk2304下面的torch1.13-py38为例):

    conda create -n torch_test_env python=3.8 -y  # torch_test_env为虚拟环境名,可以自定义 ,-y 表示yes,无需在安装过程中再手动输入
    
    conda activate torch_test_env  #激活虚拟环境
    
    pip install /public/software/apps/DeepLearning/whl/dtk-23.04/pytorch/torch-1.13/py38/torch-1.13.1+git55d300e.abi0.dtk2304-cp38-cp38-manylinux2014_x86_64.whl -i https://pypi.mirrors.ustc.edu.cn/simple     #安装集群的torch包,-i 后面表示镜像源,可以加速安装
    
    #其他不涉及加速的包可以正常pip install 安装
    
    注意:选择的torch版本对应的python需要和创建环境时的python相匹配
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    在这里插入图片描述
    验证:

    salloc -p wzhdnormal -N1 -n32 --gres=dcu:4 #申请资源。-p后面表示队列名,可以通过whichpartition查看到。wzhdnormal其中hd表示dcu队列 ,-N 表示节点数,-n 表示核心数,dcu:4表示卡数,一般核:卡=8:1,即若申请两张卡,对应核数为16,salloc -p wzhdnormal -N1 -n16 --gres=dcu:2
    
    ssh 计算节点 #登录计算节点,squeue查看作业运行状态,nodelist下面对应的为计算节点
    conda activate torch_test_env  #重新进入虚拟环境
    module switch compiler/dtk/23.04 #切换为对应的dtk版本
    python
    import torch
    torch.cuda.is_available() #显示true表示安装成功
    
    注意:验证完请务必取消作业,scancel JOBID
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    作业提交参考脚本:

    test.slurm #自定义脚本名

    #!/bin/bash
    #BATCH -J test                         # 作业名
    #SBATCH -p wzhdnormal                  # 队列名  使用whichpartition 查看
    #SBATCH -N 1                            # 节点数量
    #SBATCH --ntasks-per-node=1           # 每节点运行进程数
    #SBATCH -c 8                                   # 每个进程所用cpu核数
    #SBATCH --gres=dcu:1                    # 每个节点申请的dcu数量
    #SBATCH -o %j.out                       # 作业标准输出
    #SBATCH -e %j.out                       # 作业错误输出,这里两种输出放在了一个文件中显示
    
    #加载conda环境
    source ~/miniconda3/etc/profile.d/conda.sh
    conda activate  torch_test_env
    #加载module
    module purge
    module load compiler/devtoolset/7.3.1
    module load mpi/hpcx/gcc-7.3.1
    module load compiler/dtk/23.04
    
    #运行程序
    python -u main.py 
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21

    提交作业:sbatch 脚本名
    查看作业:squeue
    取消作业:scancel 作业号 (作业号:执行squeue,jobid下面的数字)
    实时查看输出:tail -f 输出文件名

  • 相关阅读:
    数据库安全-Redis&Hadoop&Mysql&未授权访问&RCE
    修改了 node_modules 中的依赖,如何共享: `patch-package`
    Selenium切换窗口句柄及调用Chrome浏览器
    微信小程序SDK使用实例
    springboot+html实现简单注册登录
    webpack5 Preload / Prefetch解决按需求加载速度
    Linux使用docker安装elasticsearch-head
    Tortoise SVN 察看本地缓存密码
    springboot 实现kafka多源配置
    《编译原理》复习第1章~第5章
  • 原文地址:https://blog.csdn.net/weixin_45860123/article/details/134251251