在函数 get_data_loader 中,下面这段代码的作用是在多节点分布式训练时,每个节点的主进程负责读取数据。
- if self.dataset is None:
- with wait_for_the_master():
- assert cache_img is None, \
- "cache_img must be None if you didn't create self.dataset before launch"
- self.dataset = self.get_dataset(cache=False, cache_type=cache_img)
在 PyTorch 的分布式训练中,每个节点的主进程负责数据加载、模型初始化和一些其他的准备工作。这意味着在每个节点的主进程中,都会有一份数据加载的代码。
这样做的好处是:
接下来我们看下函数 wait_for_the_master 的实现
- from contextlib import contextmanager
-
- @contextmanager
- def wait_for_the_master(local_rank: int = None):
- """
- Make all processes waiting for the master to do some task.
- Args:
- local_rank (int): the rank of the current process. Default to None.
- If None, it will use the rank of the current process.
- """
- if local_rank is None:
- local_rank = get_local_rank()
-
- if local_rank > 0:
- dist.barrier()
- yield
- if local_rank == 0:
- if not dist.is_available():
- return
- if not dist.is_initialized():
- return
- else:
- dist.barrier()
@contextmanager是一个装饰器,用于定义上下文管理器(context manager)。上下文管理器可以用于创建一个资源的上下文,然后在进入和退出这个上下文时执行特定的操作,比如资源的获取和释放。
在python中要自定义一个上下文管理器,需要定义一个类,并实现其__enter__()和__exit()__方法。但使用装饰器@contextmanager可以更简洁的实现这点,具体来说,@contextmanager 装饰器可以将一个生成器函数转换成一个上下文管理器。生成器函数中的 yield 语句之前的代码会在进入上下文时执行,而 yield 语句之后的代码会在退出上下文时执行。
这里首先获取每个节点的local_rank,大于0说明不是主进程,dist.barrier() 是 PyTorch 中分布式通信库 torch.distributed 提供的一个同步操作,它的作用是在分布式环境中同步所有参与通信的进程,确保它们在某一点上同时到达了同步点。
在分布式训练中,dist.barrier()的作用通常是用来同步各个进程的执行,以保证它们在某个重要的时刻处于同步状态。当一个进程调用了dist.barrier()后,它会被阻塞,直到所有参与通信的进程也都调用了dist.barrier(),此时所有进程才会解除阻塞,继续执行后续的代码。
具体来说,dist.barrier() 的作用有以下几点:
结合上面两段代码来看,在进入上下文后,每个节点的非主进程会阻塞在yield前的dist.barrier()处,而主进程则会执行self.get_dataset()读取数据,在每个节点的主进程都执行完self.get_dataset()后,会退出上下文,此时非主进程还是停留在yield前的dist.barrier()处,而主进程则会执行yield后的dist.barrier(),当所有进程都调用了dist.barrier()后,所有进程的阻塞被解除,继续执行后续的代码。