• 昇腾搭建PyTorch环境(训练)


    检查NPU是否正常在位:
    lspci | grep d801
    如果服务器上有 N路NPU,回显N行含“d801”字段,表示NPU正常在位

    一、安装驱动、固件

    1.创建驱动运行用户HwHiAiUser

    groupadd -g 1000 HwHiAiUser 
    useradd -g HwHiAiUser -u 1000 -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash
    
    • 1
    • 2

    2.安装驱动和固件

    在昇腾社区的“固件与驱动”下载页面下载配套产品的固件驱动软件,上传到服务器任意目录

    a.为软件包增加可执行权限。

    chmod +x Ascend-hdk-910-npu-driver_23.0.rc1_linux-x86-64.run
    chmod +x Ascend-hdk-910-npu-firmware_6.3.0.1.241.run
    
    • 1
    • 2

    b.安装驱动。

    ./Ascend-hdk-910-npu-driver_23.0.rc1_linux-x86-64.run --full --install-for-all
    
    • 1

    默认安装路径为“/usr/local/Ascend”

    npu-smi info
    
    • 1

    验证安装成功

    c.安装固件。

    ./Ascend-hdk-910-npu-firmware_6.3.0.1.241.run --full
    
    • 1

    3.驱动固件安装完成后,重启系统。

    reboot
    
    • 1

    二、安装CANN软件依赖

    CANN软件安装过程需要下载相关依赖,确保安装环境连网,并已配置软件源

    apt-get install -y gcc g++ make cmake zlib1g zlib1g-dev openssl libsqlite3-dev libssl-dev libffi-dev unzip pciutils net-tools libblas-dev gfortran libblas3
    
    • 1
    1. 安装Python及其依赖
      1)通过wget命令下载python3.7.5源码包。
    wget https://www.python.org/ftp/python/3.7.5/Python-3.7.5.tgz
    
    • 1

    2)解压缩源码包

    tar -zxvf Python-3.7.5.tgz
    
    • 1

    3)源码编译安装Python。

    ​cd Python-3.7.5
    ./configure --prefix=/usr/local/python3.7.5 --enable-loadable-sqlite-extensions --enable-shared
    make
    make install
    
    • 1
    • 2
    • 3
    • 4

    以–prefix=/usr/local/python3.7.5路径为例进行说明。执行配置、编译和安装命令后,安装包在/usr/local/python3.7.5路径。

    4)设置python3.7.5环境变量。

    #用于设置python3.7.5库文件路径
    export LD_LIBRARY_PATH=/usr/local/python3.7.5/lib:$LD_LIBRARY_PATH
    #如果用户环境存在多个python3版本,则指定使用python3.7.5版本
    export PATH=/usr/local/python3.7.5/bin:$PATH
    
    • 1
    • 2
    • 3
    • 4

    5)检查是否安装成功。

    ​python3 --version
    pip3 --version
    
    • 1
    • 2

    6)安装pip依赖。

    pip3 install attrs numpy decorator sympy cffi pyyaml pathlib2 psutil protobuf scipy requests absl-py
    
    • 1

    三、安装CANN开发套件包

    1. 从昇腾社区“CANN”产品页,根据操作系统架构下载CANN开发套件包。
      将其上传到安装环境任意目录。

    2. 安装CANN开发套件包。

    添加可执行权限

    chmod +x Ascend-cann-toolkit_6.3.RC1_linux-***.run
    
    • 1

    安装

    ./Ascend-cann-toolkit_6.3.RC1_linux-***.run --install --install-for-all
    
    • 1

    四、安装PyTorch

    安装Pytorch前,需要先安装以下依赖。

    pip3 install wheel
    pip3 install typing_extensions
    
    • 1
    • 2

    安装torch

    wget https://repo.huaweicloud.com/kunpeng/archive/Ascend/PyTorch/torch-1.11.0-cp37-cp37m-linux_aarch64.whl
    pip3 install torch-1.11.0-cp37-cp37m-linux_aarch64.whl
    
    • 1
    • 2

    安装torch_npu

    wget https://gitee.com/ascend/pytorch/releases/download/v5.0.rc1-pytorch1.11.0/torch_npu-1.11.0-cp37-cp37m-linux_aarch64.whl
    pip3 install torch_npu-1.11.0-cp37-cp37m-linux_aarch64.whl
    
    • 1
    • 2

    安装对应框架版本的torchvision。

    pip3 install torchvision==0.12.0
    
    • 1

    后面有空再写推理环境搭建

    https://huaweicloud.csdn.net/64704bed762a09416a07f3c8.html

  • 相关阅读:
    桂院校园导航 静态项目 二次开发教程 1.2
    智慧工地云平台源码 人工智能AI+多系统集成+智能预警平台源码
    Docker学习2——Docker高级
    【Unity,C#】控制方向光模拟昼夜变化的脚本
    抽象工厂模式
    Kafka的基础架构
    Windows启动RocketMq报错:Unrecognized VM option ‘UseCMSCompactAtFullCollection‘
    Mac系统补丁管理
    flink1.13.2 text文本数据迁移为orc+snappy数据解决方案
    javascript 数组方法 slice() 的使用说明
  • 原文地址:https://blog.csdn.net/weixin_44659309/article/details/134353900