双目立体匹配_StereoNet网络配置训练过程中遇到的问题

关注码龄粉丝数原力等级 -- 被采纳被点赞采纳率努力学习中1 2024-07-01 12:41 采纳率: 66.7% 浏览 12 首页/ 服务器 / 双目立体匹配_StereoNet网络配置训练过程中遇到的问题 ubuntu计算机视觉深度学习我在配置训练github 上 https://github.com/meteorshowers/X-StereoLab 的stereonet时遇到了一些问题，这个问题我用了很多方法都没有解决，Ubuntu20.04系统torch1.3.0 torchvision0.4.1 cuda10.0 nvidia 驱动是 470 请问这种问题怎么解决呀，或者您曾经使用过这个网络可以交流一下吗 (xstereolab) @Ubuntu:~/X-StereoLab-master$ python3 tools/train_net_disp.py --cfg ./configs/config_disp.py --savemodel ./outputs/MODEL_test -btrain 4 -d 0-2 --multiprocessing-distributed Using GPU:0,1,2 configuration: ./configs/config_disp.py --> ./outputs/MODEL_test/save_config.py ngpus_per_node: 1 Using GPU: 0 for training Log --> ./outputs/MODEL_test/training.log 05-08 12:03:02 Number of model parameters: 399810 Tensorboard --> ./outputs/MODEL_test/tensorboard Traceback (most recent call last): File "tools/train_net_disp.py", line 380, in main() File "tools/train_net_disp.py", line 124, in main mp.spawn(main_worker, nprocs=ngpus_per_node, args=(ngpus_per_node, args, cfg, exp)) File "/home/xx/.local/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 171, in spawn while not spawn_context.join(): File "/home/xx/.local/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 118, in join raise Exception(msg) Exception: -- Process 0 terminated with the following error: Traceback (most recent call last): File "/home/xx/.local/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 19, in _wrap fn(i, *args) File "/home/xx/X-StereoLab-master/tools/train_net_disp.py", line 247, in main_worker losses = train(model, cfg, args, optimizer, **data_batch) File "/home/xx/X-StereoLab-master/tools/train_net_disp.py", line 278, in train get_loss= My_loss(10, 5, 2, 3) File "/media/elonli/049150C23EB4F058/DSGN/disparity/models/loss.py", line 44, in __init__ RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasSgemm( handle, opa, opb, m, n, k, &alpha, a, lda, b, ldb, &beta, c, ldc)` 这是代码中的报错我尝试过更换cuda版本驱动版本 torch torchvision的版本都是报这个相同的错误我的显卡是RTX3050Ti 请问是否是我的显卡不满足要求，还是别的地方存在问题需要改正呢？谢谢您的回复！展开全部收起写回答好问题 0 提建议追加酬金关注问题微信扫一扫点击复制链接分享邀请回答编辑收藏删除结题收藏举报追加酬金 (90%的用户在追加酬金后获得了解决方案) 当前问题酬金 ¥ 0 (可追加 ¥500） ¥ 15¥ 20¥ 50¥ 100¥ 200 支付方式扫码支付二维码出错点击刷新支付金额 15 元提供问题酬金的用户不参与问题酬金结算和分配支付即为同意《付费问题酬金结算规则》结题再想想删除再等等

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-07-01 12:41
关注
引自免费微信小程序：皆我百晓生

首先，你的报错信息显示 CUBLAS_STATUS_EXECUTION_FAILED 错误是在执行 cublasSgemm 函数时发生的，这是一个 CUDA 基础线性代数子程序库中的函数，用于执行矩阵乘法。这个错误通常是由于 CUDA 环境配置问题导致的。

关于你的问题，我有以下几个建议：

CUDA 版本与硬件兼容性：确保你的 CUDA 版本与你的 GPU 型号兼容。尽管你安装了 CUDA 10.0，但 RTX 3050Ti 的驱动可能不完全兼容这个版本的 CUDA。你可以尝试升级到更高版本的 CUDA，如 CUDA 11 或 CUDA 12。
驱动版本：确保你的 NVIDIA 驱动是最新的，或者至少是与你安装的 CUDA 版本兼容的。你可以访问 NVIDIA 官方网站下载和更新驱动。
Torch 和 Torchvision 版本：有时，特定的 PyTorch 和 Torchvision 版本可能与特定的 CUDA 版本不完全兼容。你可以尝试升级 PyTorch 和 Torchvision 到与你的 CUDA 版本兼容的版本。此外，确保你使用的 PyTorch 版本是支持多 GPU 的版本。
代码问题：关于代码中具体的报错，我建议检查 My_loss 类的初始化函数。看起来它在创建时遇到了问题。确保你的损失函数可以正确地在 GPU 上运行，并且正确处理了多 GPU 环境中的计算分配问题。可能需要进行一些调整以适应你的训练环境。
GPU 资源问题：在某些情况下，如果 GPU 资源不足（例如内存不足），也可能导致此类错误。确保你的 GPU 有足够的资源来运行你的网络。如果可能的话，尝试简化网络或减少批量大小以降低资源消耗。
清理 CUDA 环境：有时候，CUDA 环境可能会受到先前安装的版本或其他软件的影响。你可以尝试清理并重新安装 CUDA，确保按照官方指南进行操作。

如果以上建议都不能解决问题，我建议你查看该网络的官方文档或相关论坛，看看是否有其他用户遇到了类似的问题并找到了解决方案。此外，你也可以考虑联系该网络的开发者或维护者以获取更具体的帮助。希望这些建议能帮助你解决问题！
解决无用
评论打赏
分享
举报编辑记录
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

相关阅读:
el-dialog关闭后表单数据缓存没清空【已解决】
[Python进阶] 程序打包之Pyinstaller参数介绍
【源码解析】Spring源码解读-beanFactory和Bean的后置处理器流程
HBase数据存储
二维码智慧门牌管理系统开发解决方案：标准化建设的基础
长连接、短连接
FTP替代产品方案的优异性体现在哪些方面？
@Autowired与@Resource区别
git 学习总结
git拉代码使用SSH克隆，配置代理

原文地址：https://ask.csdn.net/questions/8125787

双目立体匹配_StereoNet网络配置训练过程中遇到的问题

1条回答 默认 最新

1条回答默认最新