• 双目立体匹配_StereoNet网络配置训练过程中遇到的问题


    关注 码龄 粉丝数 原力等级 -- 被采纳 被点赞 采纳率 努力学习中1 2024-07-01 12:41 采纳率: 66.7% 浏览 12 首页/ 服务器 / 双目立体匹配_StereoNet网络配置训练过程中遇到的问题 ubuntu计算机视觉深度学习 我在配置训练github 上 https://github.com/meteorshowers/X-StereoLab 的stereonet时遇到了一些问题,这个问题我用了很多方法都没有解决,Ubuntu20.04系统torch1.3.0 torchvision0.4.1 cuda10.0 nvidia 驱动是 470 请问这种问题怎么解决呀,或者您曾经使用过这个网络可以交流一下吗 (xstereolab) @Ubuntu:~/X-StereoLab-master$ python3 tools/train_net_disp.py --cfg ./configs/config_disp.py --savemodel ./outputs/MODEL_test -btrain 4 -d 0-2 --multiprocessing-distributed Using GPU:0,1,2 configuration: ./configs/config_disp.py --> ./outputs/MODEL_test/save_config.py ngpus_per_node: 1 Using GPU: 0 for training Log --> ./outputs/MODEL_test/training.log 05-08 12:03:02 Number of model parameters: 399810 Tensorboard --> ./outputs/MODEL_test/tensorboard Traceback (most recent call last): File "tools/train_net_disp.py", line 380, in main() File "tools/train_net_disp.py", line 124, in main mp.spawn(main_worker, nprocs=ngpus_per_node, args=(ngpus_per_node, args, cfg, exp)) File "/home/xx/.local/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 171, in spawn while not spawn_context.join(): File "/home/xx/.local/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 118, in join raise Exception(msg) Exception: -- Process 0 terminated with the following error: Traceback (most recent call last): File "/home/xx/.local/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 19, in _wrap fn(i, *args) File "/home/xx/X-StereoLab-master/tools/train_net_disp.py", line 247, in main_worker losses = train(model, cfg, args, optimizer, **data_batch) File "/home/xx/X-StereoLab-master/tools/train_net_disp.py", line 278, in train get_loss= My_loss(10, 5, 2, 3) File "/media/elonli/049150C23EB4F058/DSGN/disparity/models/loss.py", line 44, in __init__ RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasSgemm( handle, opa, opb, m, n, k, &alpha, a, lda, b, ldb, &beta, c, ldc)` 这是代码中的报错 我尝试过更换cuda版本 驱动版本 torch torchvision的版本 都是报这个相同的错误 我的显卡是RTX3050Ti 请问是否是我的显卡不满足要求,还是别的地方存在问题需要改正呢?谢谢您的回复! 展开全部 收起 写回答 好问题 0 提建议 追加酬金 关注问题 微信扫一扫 点击复制链接 分享 邀请回答 编辑 收藏 删除 结题 收藏 举报 追加酬金 (90%的用户在追加酬金后获得了解决方案) 当前问题酬金 ¥ 0 (可追加 ¥500) ¥ 15¥ 20¥ 50¥ 100¥ 200 支付方式 扫码支付 二维码出错 点击刷新 支付金额 15 元 提供问题酬金的用户不参与问题酬金结算和分配 支付即为同意 《付费问题酬金结算规则》 结题 再想想 删除 再等等

    1条回答 默认 最新

    • 专家-赤兔[在线] 全栈领域优质创作者 2024-07-01 12:41
      关注

      引自免费微信小程序:皆我百晓生

      首先,你的报错信息显示 CUBLAS_STATUS_EXECUTION_FAILED 错误是在执行 cublasSgemm 函数时发生的,这是一个 CUDA 基础线性代数子程序库中的函数,用于执行矩阵乘法。这个错误通常是由于 CUDA 环境配置问题导致的。

      关于你的问题,我有以下几个建议:

      1. CUDA 版本与硬件兼容性:确保你的 CUDA 版本与你的 GPU 型号兼容。尽管你安装了 CUDA 10.0,但 RTX 3050Ti 的驱动可能不完全兼容这个版本的 CUDA。你可以尝试升级到更高版本的 CUDA,如 CUDA 11 或 CUDA 12。
      2. 驱动版本:确保你的 NVIDIA 驱动是最新的,或者至少是与你安装的 CUDA 版本兼容的。你可以访问 NVIDIA 官方网站下载和更新驱动。
      3. Torch 和 Torchvision 版本:有时,特定的 PyTorch 和 Torchvision 版本可能与特定的 CUDA 版本不完全兼容。你可以尝试升级 PyTorch 和 Torchvision 到与你的 CUDA 版本兼容的版本。此外,确保你使用的 PyTorch 版本是支持多 GPU 的版本。
      4. 代码问题:关于代码中具体的报错,我建议检查 My_loss 类的初始化函数。看起来它在创建时遇到了问题。确保你的损失函数可以正确地在 GPU 上运行,并且正确处理了多 GPU 环境中的计算分配问题。可能需要进行一些调整以适应你的训练环境。
      5. GPU 资源问题:在某些情况下,如果 GPU 资源不足(例如内存不足),也可能导致此类错误。确保你的 GPU 有足够的资源来运行你的网络。如果可能的话,尝试简化网络或减少批量大小以降低资源消耗。
      6. 清理 CUDA 环境:有时候,CUDA 环境可能会受到先前安装的版本或其他软件的影响。你可以尝试清理并重新安装 CUDA,确保按照官方指南进行操作。

      如果以上建议都不能解决问题,我建议你查看该网络的官方文档或相关论坛,看看是否有其他用户遇到了类似的问题并找到了解决方案。此外,你也可以考虑联系该网络的开发者或维护者以获取更具体的帮助。希望这些建议能帮助你解决问题!

      评论 编辑记录
      编辑
      预览

      报告相同问题?

    • 相关阅读:
      Redis配置与优化
      Vue3的升级及优化总结
      ChatGLM2-6B_ An Open Bilingual Chat LLM _ 开源双语对话语言模型
      「运维有小邓」合规审计报表
      淘宝商品如何避免SKU作弊?
      获取HTML元素的offsetParent属性
      C语言三位数求解(ZZULIOJ1076:三位数求解)
      【python】 int、float、double与16进制字符串的互相转换
      Qt写的同一程序在不同电脑上一个可以进行TCP通信,一个无法进行TCP连接
      springboot项目的文件上传至本地的minio框架
    • 原文地址:https://ask.csdn.net/questions/8125787