模型部署踩坑(持续更新ing)

模型部署踩坑

FLOPs不能衡量模型性能，因为FLOPs只是模型计算大小的单位

还需要考虑

不能够完全依靠TensorRT

TensorRT可以对模型做适当的优化，但是有上限

CUDA Core和Tensor Core的使用

有的时候TensorRT并不会分配Tensor Core

不能忽视前处理/后处理的overhead

解决办法：

可以把前处理/后处理中可并行的地方拿出来让GPU并行（比如RGB2BGR, Normalization, resize,crop, NCHW2NHWC）
可以在cpu上使用一些针对图像处理的优化库
比如Halide（使用Halide进行blur, resize, crop, DBSCAN, sobel这些会比CPU快）

对使用TensorRT得到的推理引擎做benchmark和profiling

使用TensorRT得到推理引擎并实现infer只是优化的第一步
需要使用NVIDIA提供的benchmark tools进行profiling

分析模型瓶颈在哪里
分析模型可进一步优化的地方在哪里
分析模型中多余的memory access在哪里

可以使用nsys, nvprof, dlprof, Nsight这些工具

相关阅读:
C++学习——内联函数详解
正则表达式re模块的使用教程『更新中』
LCP 51.烹饪料理
【行为型模式】解释器模式
【大数据实训】基于Hive的北京市天气系统分析报告(二)
利用角色roles上线wordpress项目
文件包含漏洞笔记
HTML 入门
WPF类似于WINFORM的Onpaint
中断 NVIC的概念和原理

原文地址：https://blog.csdn.net/qq_44824148/article/details/133855872