码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 模型部署踩坑(持续更新ing)


    文章目录

    • 模型部署踩坑
    • 踩坑1
    • 踩坑2
    • 踩坑3
    • 踩坑4
    • 踩坑5

    模型部署踩坑

    踩坑1

    FLOPs不能衡量模型性能,因为FLOPs只是模型计算大小的单位

    还需要考虑

    • 访存量
    • 跟计算无关的DNN部分(reshape, shortcut, nchw2nhwc等等)
    • DNN以外的部分(前处理、后处理这些)

    踩坑2

    不能够完全依靠TensorRT

    TensorRT可以对模型做适当的优化,但是有上限

    • 计算密度低的1x1 conv, depthwise conv不会重构
    • GPU无法优化的地方会到CPU执行(可以手动修改代码实现部分,让部分cpu执行转到gpu执行)
    • 有些冗长的计算,TensorRT可能不能优化(直接修改代码实现部分)
    • 存在TensorRT尚未支持的算子(可以自己写plugin)
    • TensorRT不一定会分配Tensor Core(因为TensorRT kernel auto tuning会选择最合适的kernel)

    踩坑3

    CUDA Core和Tensor Core的使用

    有的时候TensorRT并不会分配Tensor Core

    • kernel auto tuning自动选择最优解
    • 所以有时会出现类似于INT8的速度比FP16反而慢了
    • 使用Tensor Core需要让tensor size为8或者16的倍数

    踩坑4

    不能忽视 前处理/后处理 的overhead

    • 对于一些轻量的模型,相比于DNN推理部分,前处理/后处理可能会更耗时间
    • 因为有些前处理/后处理的复杂逻辑不适合GPU并行

    解决办法:

    • 可以把前处理/后处理中可并行的地方拿出来让GPU并行(比如RGB2BGR, Normalization, resize,crop, NCHW2NHWC)
    • 可以在cpu上使用一些针对图像处理的优化库
      比如Halide(使用Halide进行blur, resize, crop, DBSCAN, sobel这些会比CPU快)

    踩坑5

    对使用TensorRT得到的推理引擎做benchmark和profiling

    • 使用TensorRT得到推理引擎并实现infer只是优化的第一步

    • 需要使用NVIDIA提供的benchmark tools进行profiling

      分析模型瓶颈在哪里
      分析模型可进一步优化的地方在哪里
      分析模型中多余的memory access在哪里

    可以使用nsys, nvprof, dlprof, Nsight这些工具

  • 相关阅读:
    腾讯被曝要求员工还清90万房贷再离职;苹果因不附带充电器被判赔偿消费者7000元;Git 2.6发布|极客头条
    4.Swin Transformer目标检测——训练数据集
    MFC Windows 程序设计[217]之多样窗口示例展示(附源码)
    【Java并发入门】01 并发编程Bug的源头
    记录:利用 Agora 在 Unity3D MRTK场景中创建实时视频聊天应用
    247个Python练习案例附源码(百看不如一练)
    大数据实训2 - 法律咨询数据分析和服务推荐
    Redis - 高级
    Linux安装JDk教程
    关键词搜索功能升级,启发营销场景多样化
  • 原文地址:https://blog.csdn.net/qq_44824148/article/details/133855872
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号