问题描述:
tep几次后,报内存不足的问题,降低batch size训练次数增多,但还是内存不足,应该是我代码的问题。也根据相关帖子检查了,还是没有搞定,我上传了训练的部分日志(在附件log.txt中),麻烦大佬们帮忙看一下问题。
解答:
你好,训练过程中,可以打开另一个窗口 通过命令查看下,是否显卡已经用满了,例如通过命令`nvidia-smi` 可以查看当前用了多少显存,如果已经用满了,建议参考上面的帖子,排查下为何用了这么多的显存, 并尝试参考里面的方法进行优化下:
- 如何处理GPU训练显存不足[memory isn't enough][alloc failed][out of memory]_MindSpore_昇腾_华为云论坛