使用Ascend八卡训练报错，len to make them match

分布式代码：

------------------------------------------------------------------------------------------------------------------------------------------

-------------------------------------------------------------------------------------------------------------------------------------------

启动分布式训练后报错信息如下：

[ERROR] MD(80689,fffea34fd1e0,python):2022-09-28-20:38:48.601.876 [mindspore/ccsrc/minddata/dataset/util/task_manager.cc:217] InterruptMaster] Task is terminated with err msg(more detail in info level log):Exception thrown from PyFunc. The actual amount of data read from generator 350 is different from generator.len 160146, you should adjust generator.len to make them match.

Line of code : 217

File : /home/jenkins/agent-working-dir/workspace/Compile_Ascend_ARM_CentOS/mindspore/mindspore/ccsrc/minddata/dataset/engine/datasetops/source/generator_op.cc

---------------------------------------------------------------------------------------------------------------------------------------------------------------

想问一下这个问题是什么引起的该怎么解决？

****************************************************解答*****************************************************

这个日志是说，某个卡发的数据数量，跟其他卡发的数据数量不同.

可能是

1. 某个卡发的数据数量，跟其他卡发的数据数量不同。在分布式训练里面，ascend是要求多个卡一样的

2. 其他挂了导致某个卡退出，然后发的数量少了

相关阅读:
重磅！Grafana 9 正式发布，更强大、更易用了！
DPDK系列之十八DPDK网络虚拟化
上海亚商投顾：沪指冲高回落医药、芯片股全天领涨
若依前后端分离版开源项目学习
深度学习与CV教程(12) | 目标检测 (两阶段,R-CNN系列)
Unity事件函数的执行顺序
【2021集创赛】Arm杯二等奖-基于Arm核的智慧病房手势识别方案
css：详解BFC块级格式化上下文
会计凭证概述、原始凭证、原始凭证的种类、原始凭证的基本内容、原始凭证的填制要求、原始凭证的审核
JavaBean的Scope属性

原文地址：https://blog.csdn.net/weixin_45666880/article/details/127773664