在跑模型是遇到一个问题:
import torch.distributed as dist
dist.init_process_group(backend="nccl", init_method='tcp://localhost:%d' % tcp_port, rank=local_rank, world_size=num_gpus)
程序卡在这一步一动不动。.
解决办法一:
我看网上有人说把
init_process_group
函数的参数timeout
调大一些,笑出🐖叫。
解决办法二:
在命令行运行程序添加
-m
参数。
python -m torch.distributed.launch test.py