• 试用阿里云GPU服务器进行深度学习模型训练


    试用阿里云GPU服务器进行深度学习模型训练

    最近在用PyTorch时发现在本地训练模型速度一言难尽,然后发现阿里云可以白嫖gpu服务器,只要没有申请过PAI-DSW资源的新老用户都可以申请5000CU*H的免费额度,三个月内有效。

    阿里云免费试用活动页面

    一、申请试用并创建实例

    image-20240417111235734

    1. 点击试用,完成注册、实名、领取产品,然后前往控制台

    2. 创建工作空间并授权

    3. 授权完成,前往默认工作空间

    4. 创建交互式建模(DSW)实例

      找到交互式建模(DSW)然后点击创建实例

      image-20240417112343422

      image-20240417112725354

      输入实例名称(随便写)

      image-20240417130025758

      接下来选择GPU规格,选 A10 或者 V100 只有这两个是支持资源包抵扣的(资源包在我们申请试用的时候已经自动领取了),其他的不支持,这里注意!我这里选的是 A10显卡,每小时消耗6.991计算时,性能已经够用了。V100显卡的性能更好,相应的资源包抵扣使用时间也会短一些,大家可以根据自己需求选择。

      image-20240417131023677

      然后选择镜像,点击下一步创建实例即可

      image-20240417131110714

    二、部署代码到实例进行训练
    1. 启动并打开实例

      image-20240417131541021

      打开后可以看到导航栏中有三项

      image-20240417132129994

    2. 上传训练模型的py文件

      点击这个按钮上传

      image-20240417132304798

      上传后可以在侧边栏看到

      image-20240417132440553

      也可以打开terminal查看,同样可以看到

      image-20240417132636342

    3. 开始训练

      跟在本地是一样的,依次执行generate.py、loader.py、train.py,我这里选择在terminal用命令执行,大家也可以选择在集成的vscode中执行

      # 在terminal依次输入下列命令执行
      python generate.py # 可能会提示ModuleNotFoundError: No module named 'captcha',这是我们的环境中没有captcha这个包,用pip安装即可,pip install captcha
      python loader.py
      python train.py
      
    4. 下载训练的pth文件到本地

      训练完成后会有一个pth文件,这是PyTorch训练的模型文件,我们可以下载到本地使用

      image-20240417134441844

    三、总结

    以上就是在阿里云人工智能平台PAI使用交互式建模(DSW)训练深度学习模型的过程,欢迎大家在评论区留言一起交流学习,有需要模型训练过程以及代码文件的可以看我上一篇blog

  • 相关阅读:
    二叉树前序、中序、后序遍历
    el-table 对循环产生的空白列赋默认值
    NoSQL之 Redis配置与优化
    make编译出错Relocations in generic ELF (EM: 62)
    concat和apply实现多维数组扁平化、深入理解concat/apply
    stm32入门学习13-时钟RTC
    人脸解锁设备时出现相机报错
    C语言中文网 - Shell脚本 - 6
    AIO开放接口平台免费畅享ChatGPT聊天、联网互动、学术等服务!更有DALL·E 3最强AI绘图功能!
    java IO流进阶操作
  • 原文地址:https://www.cnblogs.com/gggod/p/18140592