• 本地Chatglm2-6b模型训练,deepspeed依赖安装报错。


    关注 码龄 粉丝数 原力等级 -- 被采纳 被点赞 采纳率 流歌. 2024-04-20 23:11 采纳率: 0% 浏览 2 首页/ 人工智能 / 本地Chatglm2-6b模型训练,deepspeed依赖安装报错。 自然语言处理语言模型nlp windows11,PyCharm,cuda12.3,python3.8。pytorch和requirements里的依赖都装好了。 训练完全权重模型需要安装deepspeed,怎么装都报错(用了镜像),哪个版本都不行。 展开全部 收起 写回答 好问题 0 提建议 追加酬金 关注问题 微信扫一扫 点击复制链接 分享 邀请回答 编辑 收藏 删除 结题 收藏 举报 追加酬金 (90%的用户在追加酬金后获得了解决方案) 当前问题酬金 ¥ 0 (可追加 ¥500) ¥ 15¥ 20¥ 50¥ 100¥ 200 支付方式 扫码支付 二维码出错 点击刷新 支付金额 15 元 提供问题酬金的用户不参与问题酬金结算和分配 支付即为同意 《付费问题酬金结算规则》 结题 再想想 删除 再等等

    4条回答 默认 最新

    • 专家-赤兔[在线] 全栈领域优质创作者 2024-04-20 23:11
      关注

      引自免费微信小程序:皆我百晓生

      根据您提供的错误信息,看起来在安装deepspeed时遇到了一些问题,特别是与async_io模块相关的问题。这可能是由于缺少libaio库或者是编译环境配置不正确导致的。

      针对Windows系统,libaio通常是Linux系统的特性,并非默认包含在Windows中。因此,在Windows上安装deepspeed并启用async_io功能可能会遇到困难。为了解决这个问题,您可以尝试以下几个步骤:

      1. 如果您确实想要在Windows上启用async_io,可能需要找到一个适用于Windows的libaio实现,但这个过程可能会非常复杂且不一定成功。对于Windows用户,通常建议禁用async_io功能,可以通过设置环境变量DS_BUILD_ASYNC_IO=0来实现。

      2. 考虑到您已经在尝试不同版本的deepspeed,并且仍然遇到问题,建议您先卸载当前的deepspeed(如果已安装):

      pip uninstall deepspeed
      

      然后,尝试使用特定版本的deepspeed,同时禁用async_io。在命令行中执行以下命令:

      pip install deepspeed==0.12.2 --no-binary deepspeed --install-option="--define=DS_BUILD_ASYNC_IO=0"
      

      这里的--no-binary deepspeed会告诉pip不要使用二进制包,而是从源码构建,这样可以确保我们明确地禁用async_io--install-option参数用于传递额外的选项给setuptools的setup.py脚本。

      1. 如果上述方法仍无法解决您的问题,那么可能需要考虑在Linux环境中进行训练,因为deepspeed在Linux上更容易安装和配置。您可以使用WSL(Windows Subsystem for Linux)在Windows上创建一个轻量级的Linux子系统,或者使用Docker容器来运行训练脚本。

      2. 如果您坚持在Windows上运行,另一个选择是使用Anaconda或Miniconda创建一个新的虚拟环境,并在这个环境中安装所有必要的依赖项,包括可能的第三方库。确保在conda环境中安装deepspeed时使用相同的步骤,即指定特定版本并禁用async_io

      请按照这些步骤操作,看看是否能解决问题。如果您在过程中遇到其他问题,欢迎继续提问。

      评论 编辑记录
    • 码农阿豪 Java领域优质创作者 2024-04-20 23:11
      关注
      让阿豪来帮你解答,本回答参考chatgpt3.5编写提供,如果还有疑问可以评论或留言
      问题描述: 在安装 deepspeed 时报错,无法成功安装,该如何解决? 解决方案:
      1. 检查环境变量是否正确 在安装 deepspeed 前,需要首先确保 CUDA 和 Python 的环境变量配置正确。建议您确认下列内容是否正确:
      2. CUDA_HOME:CUDA SDK 的根目录
      3. PATH:CUDA 和 Python 的路径
      4. PYTHONPATH:Python 所需的依赖项路径 例如:
      export CUDA_HOME=/usr/local/cuda
      export PATH=$PATH:$CUDA_HOME/bin
      export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$CUDA_HOME/lib64
      export PYTHONPATH=$PYTHONPATH:$CUDA_HOME/extras/CUPTI/lib64
      
      1. 尝试使用 anaconda 环境 如果您使用 anaconda 环境,可以尝试以下步骤:
      2. 创建一个新的 conda 环境
      3. 安装相关的依赖项,如 CUDA 和 PyTorch
      4. 通过 pip 安装 deepspeed 例如:
      conda create -n deepspeed_env
      conda activate deepspeed_env
      conda install pytorch torchvision torchaudio cudatoolkit=12.3 -c pytorch -c nvidia
      pip install deepspeed
      
      1. 尝试使用其他版本的 deepspeed 如果使用最新版本的 deepspeed 仍然出现错误,您可以尝试安装早期版本的 deepspeed。在 deepspeed 的 GitHub 页面上,可以找到不同版本的源代码,下载对应版本并按照 README 安装。 例如,安装 deepspeed 的 v0.5.4 版本:
      git clone --recursive https://github.com/microsoft/deepspeed.git
      cd deepspeed
      git checkout tags/v0.5.4
      pip install .
      

      总体而言,如果以上方法仍然无法解决 deepspeed 安装问题,建议您查看 deepspeed 的 GitHub 文档,看看是否有其他用户遇到了类似的问题以及他们是如何解决的。如果出现错误信息,建议您将错误信息贴到 GitHub 上,寻求帮助和解答。

      展开全部

      评论
    • Kwan的解忧杂货铺 Java领域优质创作者 2024-04-20 23:11
      关注

      晚上好🌙🌙🌙
      本答案参考ChatGPT-3.5

      问题描述:

      在本地训练ChatGLM2-6b模型时,安装deepspeed依赖时报错。使用了镜像进行安装,但哪个版本都不行。

      解决方案:

      1. 首先,检查系统和软件依赖安装是否正确,确保和模型训练的要求一致。

      2. 如果已经确定软件依赖安装正确,可以尝试以下解决方案:

      (1)尝试使用清华镜像或其他国内镜像,因为有些镜像可能无法安装特定版本的deepspeed。

      (2)尝试升级pip到最新版本,并重新安装deepspeed。

      (3)如果使用conda环境,请尝试在conda环境中安装deepspeed,避免与其他环境冲突。

      (4)如果以上方法都尝试过后仍然无法解决问题,可以尝试手动安装deepspeed,具体操作步骤可参考官方文档。

      1. 在安装deepspeed时,也可以尝试禁用或启用某些选项,如下:

      (1)禁用async_io:使用 --no-async-io 选项禁用async_io。

      (2)禁用Distributed Data Parallel(DDP):使用 --no-ddp 选项禁用DDP。

      (3)启用CPU优化:使用 --with-cpu 选项启用CPU优化。

      (4)启用GPU优化:使用 --with-cuda 选项启用GPU优化。

      (5)安装C++编译工具和库文件:如果在安装deepspeed时遇到编译错误,可以尝试安装C++编译工具和库文件来解决。

      总之,在安装deepspeed时需要多尝试不同方案,如果仍然无法解决问题,也可以尝试咨询官方技术支持或者在开源社区发布问题。

      评论
    • GISer Liu 2024-04-22 04:09
      关注

      该回答引用自GPT-3.5,由博主GISer Liu编写:

      首先,你已经完成了许多准备工作,包括安装了PyTorch和所需的依赖项。但是,在安装DeepSpeed时遇到了问题。让我们一步步来解决这个问题:

      1. 检查报错信息 : 在解决问题之前,我们需要首先看一下你在安装DeepSpeed时收到的具体错误信息。这些信息通常会提供有关问题的线索,例如缺少的依赖项或不兼容的版本。
      2. 确认环境兼容性 : 确保你的系统环境与DeepSpeed的要求相匹配。查看DeepSpeed的官方文档,确认它是否支持在Windows 11、CUDA 12.3和Python 3.8上运行。如果不支持,你可能需要考虑使用其他环境或工具。
      3. 尝试不同版本 : 有时候,特定版本的软件包可能与其他组件不兼容。尝试安装不同版本的DeepSpeed,可能会有所帮助。你可以尝试使用DeepSpeed的不同发行版或从源代码构建DeepSpeed。
      4. 查看官方文档和社区支持 : 查阅DeepSpeed的官方文档和相关社区支持论坛,看看是否有其他用户在类似的环境下遇到了相同的问题,以及他们是如何解决的。有时候,这些资源会提供宝贵的解决方案或工作流程建议。
      5. 检查依赖项和环境配置 : 确保你的环境配置正确,并且安装了DeepSpeed所需的所有依赖项。有时候,缺少了某个依赖项或者环境配置不正确会导致安装失败。
      6. 尝试使用虚拟环境 : 创建一个虚拟环境,并在其中尝试安装DeepSpeed。这样可以确保DeepSpeed的安装不会与其他已安装的软件包发生冲突。
      7. 尝试其他安装方法 : 如果通过pip安装DeepSpeed失败,可以考虑从源代码构建DeepSpeed。这样可以更好地控制安装过程,并且可以更容易地调试和解决可能出现的问题。
        如果你能提供具体的错误信息,我可以为你提供更加针对性的解决方案。同时,如果你已经尝试过以上方法但仍然无法解决问题,也可以提供更多的细节,我将尽力帮助你解决这个问题。

      如果该回答解决了您的问题,请采纳!如果没有,请私信联系或评论您的疑惑

      评论
    编辑
    预览

    报告相同问题?

  • 相关阅读:
    【数据结构(三)】单向环形链表和约瑟夫问题(3)
    leecode#Excel表列名称#多数元素
    INI 文件 - 文件格式规范
    zotero文献管理工具安装使用
    java计算机毕业设计西安市城市绿地管理系统源程序+mysql+系统+lw文档+远程调试
    GUI自动化 - 操控键盘
    01_kafka_环境搭建安装_topic管理
    [Django-1] 快速建立项目
    uniapp小程序使用web-view组件页面分享后,点击没有home小房子解决办法
    LeetCode每日一题——1678. 设计 Goal 解析器
  • 原文地址:https://ask.csdn.net/questions/8092084