问题描述:
【操作步骤&问题现象】
1、定义class LossCallBack(LossMonitor),其中定义了step_end函数,输出epoch、cur_step_num、loss等信息。并将其传入model.train();
2、使用如下命令运行:mpirun --allow-run-as-root -n 2 python train.py --config_path config_hlg/hlg_mobile_imagenet2012_configtandalone.yml --device_num 2
3、只在每个epoch结束时输出,每个step结束时没有调用输出的语句。我想观测每个step的loss值,请大佬帮忙看看是哪里出了问题?
【截图信息】
LossCallBack定义:
losscallback传入model.train():
终端输出信息如下:
解答:
你好,有几点建议可以试一下:
https://mindspore.cn/docs/programming_guide/zh-CN/r1.5/custom_debugging_info.html?highlight=step_end#id3
样例代码:docs/sample_code/debugging_info/custom_callback.py · MindSpore/docs - Gitee.com