1、单卡训练后,精度很好,但是跑分布式(数据并行)精度就很差,而且卡越多精度越低,使用的优化器为Adam,请问从单卡到多卡,从哪些方便调整可是多卡达到单卡精度
一般情况下可以尝试调大learning rate
或者使用大batch更新优化的优化器例如lamb等
京公网安备 11010502049817号