TensorRT简介

一. 什么是TensorRT

一般的深度学习项目，训练时为了加快速度，会使用多 GPU 分布式训练。但在部署推理时，为了降低成本，往往使用单个 GPU 机器甚至嵌入式平台（比如 NVIDIA Jetson）进行部署，部署端也要有与训练时相同的深度学习环境，如 caffe，TensorFlow 等。由于训练的网络模型可能会很大（比如，inception，resnet 等），参数很多，而且部署端的机器性能存在差异，就会导致推理速度慢，延迟高。这对于那些高实时性的应用场合是致命的，比如自动驾驶要求实时目标检测，目标追踪等。所以为了提高部署推理的速度，出现了很多轻量级神经网络，比如 squeezenet，mobilenet，shufflenet 等。基本做法都是基于现有的经典模型提出一种新的模型结构，然后用这些改造过的模型重新训练，再重新部署。

而 TensorRT 则是对训练好的模型进行优化。 TensorRT 就只是推理优化器。当你的网络训练完之后，可以将训练模型文件直接丢进 TensorRT中，而不再需要依赖深度学习框架（Caffe，TensorFlow 等），如下：

在这里插入图片描述

可以认为 TensorRT 是一个只有前向传播的深度学习框架，这个框架可以将 Caffe，TensorFlow 的网络模型解析，然后与 TensorRT 中对应的层进行一一映射，把其他框架的模型统一全部转换到 TensorRT 中，然后在 TensorRT 中可以针对 NVIDIA 自家 GPU 实施优化策略，并进行部署加速。

如果想了解更多关于 TensorRT 的介绍，可参考官网介绍

相关阅读:
如何封装Vue组件并上传到npm
springboot如何接入netty，实现在线统计人数？
【计算机网络笔记】Web应用之HTTP协议（涉及HTTP连接类型和HTTP消息格式）
RPA助力商超订单自动化！
iOS——持久化
面试必考 - 结构体内存对齐，还有人不会？
Java 入门练习（36 - 40）
postgresql简单导出数据与手动本地恢复（小型数据库）
python-模块与包
基于和声优化的BP神经网络（分类应用） - 附代码

原文地址：https://blog.csdn.net/qq_30150579/article/details/133067571