DCU集群搭建虚拟环境方法简介

1.conda安装方法：

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh  #下载miniconda安装包

chmod 750 Miniconda3-latest-Linux-x86_64.sh  #添加执行权限

bash ./Miniconda3-latest-Linux-x86_64.sh  #安装下载的minnconda3
1
2
3
4
5

下载安装包
修改权限并安装
查看安装的conda版本
2.集群安装dcu版本的pytorch安装包
格式：
conda create -n 虚拟环境名 python=3.8

(1)集群一般会预置适配的安装包，路径为:/public/software/apps/DeepLearning/whl
在这里插入图片描述

环境搭建方法（以安装dtk2304下面的torch1.13-py38为例）：

conda create -n torch_test_env python=3.8 -y  # torch_test_env为虚拟环境名，可以自定义 ，-y 表示yes，无需在安装过程中再手动输入

conda activate torch_test_env  #激活虚拟环境

pip install /public/software/apps/DeepLearning/whl/dtk-23.04/pytorch/torch-1.13/py38/torch-1.13.1+git55d300e.abi0.dtk2304-cp38-cp38-manylinux2014_x86_64.whl -i https://pypi.mirrors.ustc.edu.cn/simple     #安装集群的torch包，-i 后面表示镜像源，可以加速安装

#其他不涉及加速的包可以正常pip install 安装

注意：选择的torch版本对应的python需要和创建环境时的python相匹配
1
2
3
4
5
6
7
8
9

在这里插入图片描述
验证：

salloc -p wzhdnormal -N1 -n32 --gres=dcu:4 #申请资源。-p后面表示队列名，可以通过whichpartition查看到。wzhdnormal其中hd表示dcu队列 ，-N 表示节点数，-n 表示核心数，dcu:4表示卡数，一般核:卡=8:1，即若申请两张卡，对应核数为16，salloc -p wzhdnormal -N1 -n16 --gres=dcu:2

ssh 计算节点 #登录计算节点，squeue查看作业运行状态，nodelist下面对应的为计算节点
conda activate torch_test_env  #重新进入虚拟环境
module switch compiler/dtk/23.04 #切换为对应的dtk版本
python
import torch
torch.cuda.is_available() #显示true表示安装成功

注意：验证完请务必取消作业，scancel JOBID
1
2
3
4
5
6
7
8
9
10

在这里插入图片描述

作业提交参考脚本：

test.slurm #自定义脚本名

#!/bin/bash
#BATCH -J test                         # 作业名
#SBATCH -p wzhdnormal                  # 队列名  使用whichpartition 查看
#SBATCH -N 1                            # 节点数量
#SBATCH --ntasks-per-node=1           # 每节点运行进程数
#SBATCH -c 8                                   # 每个进程所用cpu核数
#SBATCH --gres=dcu:1                    # 每个节点申请的dcu数量
#SBATCH -o %j.out                       # 作业标准输出
#SBATCH -e %j.out                       # 作业错误输出，这里两种输出放在了一个文件中显示

#加载conda环境
source ~/miniconda3/etc/profile.d/conda.sh
conda activate  torch_test_env
#加载module
module purge
module load compiler/devtoolset/7.3.1
module load mpi/hpcx/gcc-7.3.1
module load compiler/dtk/23.04

#运行程序
python -u main.py 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

提交作业：sbatch 脚本名
查看作业：squeue
取消作业：scancel 作业号（作业号：执行squeue，jobid下面的数字）
实时查看输出：tail -f 输出文件名

相关阅读:
数据库安全-Redis&Hadoop&Mysql&未授权访问&RCE
修改了 node_modules 中的依赖，如何共享： `patch-package`
Selenium切换窗口句柄及调用Chrome浏览器
微信小程序SDK使用实例
springboot+html实现简单注册登录
webpack5 Preload / Prefetch解决按需求加载速度
Linux使用docker安装elasticsearch-head
Tortoise SVN 察看本地缓存密码
springboot 实现kafka多源配置
《编译原理》复习第1章~第5章

原文地址：https://blog.csdn.net/weixin_45860123/article/details/134251251