内部搭建的slurm平台,现在有同事需要运行julia程序,但是发现直接运行无法做到分布式多节点运行,使用-p 参数只是修改本机的进程数量,使用配置文件的话又会绕过slurm的调度机制。查询发现julia有专门的ClusterManagers包来调用各种调度平台,下面记录一下具体内容
Julia版本:1.8.0
slurm版本:21.08.5
工具包:ClusterManagers
针对slurm调度平台,使用addprocs_slurm命令
Pkg.add("ClusterManagers")
addprocs_slurm(n, partition="XXXX", t="00:5:00",exename="/software/julia/julia-1.8.0/bin/julia")
其余调度平台的命令
集群物理机是48核的,然后测试设置n为72核,理想预期是每个机器36核。
有两个节点参与了计算,符合预期
work0-36在node23节点,work36-71在node24节点,符合预期