• 计算性能的提升之异步计算与并行计算(MXNet)


            熟悉MXNet的异步计算原理,有助于开发更高效的程序,也可以在内存资源有限的情况下主动降低计算性能从而减小内存的开销,根据具体的情况做不同的操作,这是很重要的。

    异步计算

    1. from mxnet import autograd,gluon,nd
    2. from mxnet.gluon import loss as gloss,nn
    3. import os
    4. import subprocess
    5. import time
    6. #d2lzh包中已有,里面是一些魔法函数,with操作将自动开始与结束
    7. class Benchmark():
    8. def __init__(self,prefix=None):
    9. self.prefix=prefix+' ' if prefix else ''
    10. def __enter__(self):
    11. self.start=time.time()
    12. def __exit__(self,*args):
    13. print('%s 耗时:%.4f 秒'%(self.prefix,time.time()-self.start))
    14. with Benchmark('加载到队列'):
    15. x=nd.random.uniform(shape=(4000,4000))
    16. y=nd.dot(x,x).sum()
    17. with Benchmark('计算结果'):
    18. print('点积之和=',y)
    19. '''
    20. 加载到队列 耗时:0.0010 秒
    21. 点积之和=
    22. [1.5990974e+10]
    23. 计算结果 耗时:2.1746 秒
    24. '''

    第一个Benchmark中的nd.dot(x,x).sum()计时与下面比较快很多,这说明这个计算是不需要等它全部计算完再返回。
    第二个Benchmark是打印出y的结果,这个时候就必须等待它全部计算完。
    也就是说前端线程不执行计算,只需放在队列里面,交给后端的C++程序来处理即可,只要数据是保存在NDArray里并使用MXNet提供的运算符,MXNet将默认使用异步计算来获取高性能计算。

    除了print函数之外,wait_to_read,waitall函数也需要等待所有计算完成,也时常拿来做性能测试。
    来看下wait_to_read与waitall函数

    wait_to_read与waitall

    1. with Benchmark():
    2. y=nd.dot(x,x)
    3. y.wait_to_read()
    4. # 耗时:1.6327 秒
    5. with Benchmark():
    6. y=nd.dot(x,x)
    7. z=nd.dot(x,x)
    8. nd.waitall()
    9. # 耗时:3.2405 秒

    我们从名字包含wait也可以知道这两个函数都需要等待计算的全部完成才可以。
    另外对于NDArray转换成其他不支持异步计算的数据结构的操作,也都需要等待计算的全部完成,比如:asnumpy与asscalar函数

    1. with Benchmark():
    2. y=nd.dot(x,x)
    3. y.asnumpy()
    4. # 耗时:1.5788 秒
    5. with Benchmark():
    6. y=nd.dot(x,x)
    7. y.norm().asscalar()
    8. # 耗时:1.7495 秒

    像这些需要等待计算完成的都属于同步函数,在计算耗时方面肯定要多点,那是不是都使用异步不更好吗,也不是,这个需要看情况,因为异步操作,会将这些计算任务在极短时间内丢给后端,这样就会占用更多内存,尤其是深度学习的模型一般都是比较大的,这就需要很大的内存来存放,这也是它的缺点(特点),所以有时内存不够的情况,我们就需要使用同步函数,减小这个内存的占用。
    我们来看下异步计算对内存的影响,异步对内存的影响(其中检测内存的函数只能在Linux或macOX系统上运行),没有Linux环境,可以在windows系统安装linux子系统,安装方法:Windows系统运行Linux(Windows Subsystem for Linux)

    1. def data_iter():
    2. start=time.time()
    3. num_batches,batch_size=100,1024
    4. for i in range(num_batches):
    5. X=nd.random.normal(shape=(batch_size,512))
    6. y=nd.ones((batch_size,))
    7. yield X,y
    8. if (i+1)%50==0:
    9. print('batch %d,耗时:%f秒'%(i+1,time.time()-start))
    10. #定义多层感知机、优化算法和损失函数
    11. net=nn.Sequential()
    12. net.add(nn.Dense(2048,activation='relu'),nn.Dense(512,activation='relu'),nn.Dense(1))
    13. net.initialize()
    14. trainer=gluon.Trainer(net.collect_params(),'sgd',{'learning_rate':0.005})
    15. loss=gloss.L2Loss()
    16. #辅助函数来检测内存的使用情况
    17. def get_mem():
    18. res=subprocess.check_output(['ps','u','-p',str(os.getpid())])
    19. return int(str(res).split()[15])/1e3
    20. for X,y in data_iter():
    21. break
    22. loss(y,net(X)).wait_to_read()
    23. l_sum,mem=0,get_mem()
    24. for X,y in data_iter():
    25. with autograd.record():
    26. l=loss(y,net(X))
    27. l_sum+=l.mean().asscalar()#asscalar同步函数
    28. l.backward()
    29. trainer.step(X.shape[0])
    30. nd.waitall()
    31. print('增加的内存:%f MB'%(get_mem()-mem))
    32. '''
    33. batch 50,耗时:3.952379秒
    34. batch 100,耗时:7.925409秒
    35. 增加的内存:41.824000 MB
    36. '''

    可以看到,耗时比较多,但是内存占用比较小,然后我们去掉同步函数,看下异步对内存的影响

    1. mem=get_mem()
    2. for X,y in data_iter():
    3. with autograd.record():
    4. l=loss(y,net(X))
    5. l.backward()
    6. trainer.step(X.shape[0])
    7. nd.waitall()
    8. print('增加的内存:%f MB'%(mem))
    9. '''
    10. batch 50,耗时:0.101752秒
    11. batch 100,耗时:0.178621秒
    12. 增加的内存:323.216000 MB
    13. '''

    可以看到耗时小,但是内存占用大
    其中进程打印看下:

    b'USER       PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
    tony        36  2.3  2.8 1220736 373352 pts/0  Sl+  10:15   2:51 python\n'
    ["b'USER", 'PID', '%CPU', '%MEM', 'VSZ', 'RSS', 'TTY', 'STAT', 'START', 'TIME', 'COMMAND
    tony', '36', '2.3', '2.8', '1220736', '373352', 'pts/0', 'Sl+', '10:15', '2:51', "python\\n'"]

    并行计算

    MXNet后端会自动构建计算图,通过计算图,系统可以知道所有计算的依赖关系,对没有依赖关系的计算执行并行计算提高性能。
    比如,a=nd.ones((1,2))和b=nd.ones((1,2))这两个计算是没有依赖关系的,所以可以并行计算。
    这里主要介绍CPU和GPU的并行计算

    1. import d2lzh as d2l
    2. import mxnet as mx
    3. from mxnet import nd
    4. def run(x):
    5. return [nd.dot(x,x) for _ in range(10)]
    6. x_cpu=nd.random.uniform(shape=(2000,2000))
    7. x_gpu=nd.random.uniform(shape=(6000,6000),ctx=mx.gpu(0))
    8. run(x_cpu)
    9. run(x_gpu)
    10. nd.waitall()
    11. with d2l.Benchmark('运行在CPU上'):
    12. run(x_cpu)
    13. nd.waitall()
    14. #运行在CPU上 time: 1.9970 sec
    15. with d2l.Benchmark('运行在GPU上'):
    16. run(x_gpu)
    17. nd.waitall()
    18. #运行在GPU上 time: 0.0266 sec
    19. with d2l.Benchmark('CPU和GPU上进行并行计算'):
    20. run(x_gpu)
    21. run(x_gpu)
    22. nd.waitall()
    23. #CPU和GPU上进行并行计算 time: 0.0447 sec

    运行多了,占了很多显存,内存溢出,于是将x_gpu调小了测试,可以看出并行计算的耗时分别比在CPU和GPU上执行的耗时之和小很多

    通信时间

    我们在使用并行计算的时候,经常需要在内存和显存之间进行数据的复制,造成数据的通信,比如说,我们在GPU上计算,然后将计算的结果复制到CPU使用的内存,我们来看下这个GPU的耗时以及GPU到CPU的内存的通信时间。

    1. import d2lzh as d2l
    2. import mxnet as mx
    3. from mxnet import nd
    4. def copy_to_cpu(x):
    5. return [y.copyto(mx.cpu()) for y in x]
    6. with d2l.Benchmark('运行在CPU上'):
    7. y=run(x_cpu)
    8. nd.waitall()
    9. #运行在CPU上 time: 1.9947 sec
    10. with d2l.Benchmark('拷贝到CPU的内存'):
    11. copy_to_cpu(y)
    12. nd.waitall()
    13. #拷贝到CPU的内存 time: 0.0995 sec

    看下并行的耗时

    1. with d2l.Benchmark('运行和复制并行计算'):
    2.     y=run(x_cpu)
    3.     copy_to_cpu(y)
    4.     nd.waitall()
    5. #运行和复制并行计算 time: 2.0218 sec

    可以看出并行计算的耗时小于两者的耗时之和。这里的并行与前面的同时使用CPU和GPU有点区别,因为这里存在了依赖关系,也就是说y[i]必须先在GPU上计算好才能复制到CPU使用的内存上,所幸的是,在计算y[i]的时候,系统可以复制y[i-1],从而减小计算和通信的总的运行时间。

  • 相关阅读:
    Nginx 平滑升级方案 1.21.0升级至1.23.2
    java计算机毕业设计ssm兴趣班和延时班管理系统(源码+系统+mysql数据库+Lw文档)
    梓航DIY无限建站-3.5.8(企业官网 应用首页 PC建站 14套模板切换,自由组合页面,无限多开)
    三相智能电表逆相序的原因及解决方法
    万字修行!消息中间件架构体系:Kafka研究,从入门到深入
    原型链图解帮助理解
    Splunk 输出取 / 分割符 之间的部分
    十大热门骨传导蓝牙耳机排行榜,精选最佳的五款骨传导蓝牙耳机
    Redis 三种集群方案
    数据仓库面试题
  • 原文地址:https://blog.csdn.net/weixin_41896770/article/details/127430920