• 使用 TensorRT C++ API 调用GPU加速部署 YOLOv10 实现 500FPS 推理速度——快到飞起!!


    ​ NVIDIA ® TensorRT ™ 是一款用于高性能深度学习推理的 SDK,包含深度学习推理优化器和运行时,可为推理应用程序提供低延迟和高吞吐量。YOLOv10是清华大学研究人员近期提出的一种实时目标检测方法,通过消除NMS、优化模型架构和引入创新模块等策略,在保持高精度的同时显著降低了计算开销,为实时目标检测领域带来了新的突破。

      在本文中,我们将演示如何使用NVIDIA TensorRT C++ API 部署YOLOv10目标检测模型,实现模型推理加速。下面看一下YOLOv10模型在TensorRT上的运行效果吧:

    YOLOv10实现500FPS推理速度,快到离谱!!——使用 TensorRT C++ API 调用GPU加速部署YOLOv10实现快速预测

    1. 前言

      TensorRT是NVIDIA官方推出的一个高性能深度学习推理加速引擎,它能够使深度学习模型在GPU上进行低延迟、高吞吐量的部署。TensorRT是基于CUDA和cuDNN的,专门为NVIDIA的GPU进行了优化。TensorRT支持TensorFlow、PyTorch、Caffe、MxNet等深度学习框架。对于MxNet和PyTorch,需要先将其模型转换为中间模型ONNX格式。总的来说,TensorRT是一个强大的深度学习推理加速引擎,通过优化和部署深度学习模型,能够在各种应用场景中实现快速、高效的推理性能。

    tensor-rt

      YOLOv10是清华大学研究人员近期提出的一种实时目标检测方法,该方法在Ultralytics Python包的基础上进行了多项创新和改进,主要有以下特点

    1. 消除非极大值抑制(NMS):YOLOv10通过引入一致的双重分配策略,在训练时使用一对多的标签分配来提供丰富的监督信号,在推理时使用一对一的匹配,从而消除了对NMS的依赖。这一改进在保持高精度的同时,减少了推理延迟和计算量。
    2. 全面优化的模型架构:YOLOv10从推理效率和准确性的角度出发,全面优化了模型的各个组成部分。这包括采用轻量级分类头、空间通道去耦下采样和等级引导块设计等,以减少计算冗余并提高模型性能。
    3. 引入大核卷积和部分自注意模块:为了提高性能,YOLOv10在不增加大量计算成本的前提下,引入了大核卷积和部分自注意模块。
    4. 多种模型尺寸可选:官方发布了从N到X各种型号的模型,以满足不同应用的需求。这些模型包括超小型版本YOLOv10-N(用于资源极其有限环境)、小型版本YOLOv10-S(兼顾速度和精度)、中型版本YOLOv10-M(通用)、平衡型版本YOLOv10-B(宽度增加,精度更高)、大型版本YOLOv10-L(精度更高,但计算资源增加)以及超大型版本YOLOv10-X(可实现最高的精度和性能)。

      通过广泛的实验验证,YOLOv10在多个模型尺度上实现了卓越的精度-延迟权衡。例如,在COCO数据集上,YOLOv10-S在相似精度下比其他实时目标检测方法更快,同时参数和浮点运算量也大幅减少。综上所述,YOLOv10通过消除NMS、优化模型架构和引入创新模块等策略,在保持高精度的同时显著降低了计算开销,为实时目标检测领域带来了新的突破。

    image-20240604135821296

    2. 项目开发环境

      下面简单介绍一下项目的开发环境,开发者可以根据自己的设备情况进行配置:

    • 系统平台:Windows 11
    • 开发平台:Visual Studio 2022
    • CUDA:11.4
    • CUDNN:8.2.4
    • TensorRT:8.6
    • OpenCV:4.8.0

      此处代码开发平台使用的是C++,因此在项目配置时,需要配置第三方依赖库,分别是CUDA\CUDNN、TensorRT和OpenCV三个依赖库,其配置方式此处不做详述。

    3. 模型获取

    3.1 源码下载

      YOLOv10 模型需要源码进行下载,首先克隆GitHub上的源码,输入以下指令:

    git clone https://github.com/THU-MIG/yolov10.git
    cd yolov10
    

    3.2 配置环境

      接下来安装模型下载以及转换环境,此处使用Anaconda进行程序集管理,输入以下指令创建一个yolov10环境:

    conda create -n yolov10 python=3.9
    conda activate yolov10
    pip install -r requirements.txt
    pip install -e .
    

    3.3 下载模型

      首先导出目标识别模型,此处以官方预训练模型为例,首先下载预训练模型文件,然后调用yolo导出ONBNX格式的模型文件,最后使用 OpenVINO™ 的模型转换命令将模型转为IR格式,依次输入以下指令即可:

    wget https://github.com/jameslahm/yolov10/releases/download/v1.0/yolov10s.pt
    yolo export model=yolov10s.pt format=onnx opset=13 simplify
    

    4. engine模型转换

      首先定义ONNX模型转换Engine格式的代码,如下所示:

    #include "opencv2/opencv.hpp"
    #include 
    #include 
    #include "cuda.h"
    #include "NvInfer.h"
    #include "NvOnnxParser.h"
    
    class Logger : public nvinfer1::ILogger
    {
        void log(Severity severity, const char* msg) noexcept override
        {
            if (severity <= Severity::kWARNING)
                std::cout << msg << std::endl;
        }
    } logger;
    
    void onnxToEngine(const char* onnxFile, int memorySize) {
        // 将路径作为参数传递给函数
        std::string path(onnxFile);
        std::string::size_type iPos = (path.find_last_of('\\') + 1) == 0 ? path.find_last_of('/') + 1 : path.find_last_of('\\') + 1;
        std::string modelPath = path.substr(0, iPos);//获取文件路径
        std::string modelName = path.substr(iPos, path.length() - iPos);//获取带后缀的文件名
        std::string modelName_ = modelName.substr(0, modelName.rfind("."));//获取不带后缀的文件名名
        std::string engineFile = modelPath + modelName_ + ".engine";
        // 构建器,获取cuda内核目录以获取最快的实现
        // 用于创建config、network、engine的其他对象的核心类
        nvinfer1::IBuilder* builder = nvinfer1::createInferBuilder(logger);  // 构建器,获取cuda内核目录以获取最快的实现,用于创建config、network、engine的其他对象的核心类
        const auto explicitBatch = 1U << static_cast<uint32_t>(nvinfer1::NetworkDefinitionCreationFlag::kEXPLICIT_BATCH);  // 定义网络属性
        nvinfer1::INetworkDefinition* network = builder->createNetworkV2(explicitBatch);  // 解析onnx网络文件,tensorRT模型类
        nvonnxparser::IParser* parser = nvonnxparser::createParser(*network, logger);   // 将onnx文件解析,并填充rensorRT网络结构
        
        parser->parseFromFile(onnxFile, 2);  // 解析onnx文件
        for (int i = 0; i < parser->getNbErrors(); ++i) {
            std::cout << "load error: " << parser->getError(i)->desc() << std::endl;
        }
        printf("tensorRT load mask onnx model successfully!!!...\n");
    
        // 创建推理引擎
        nvinfer1::IBuilderConfig* config = builder->createBuilderConfig();  // 创建生成器配置对象。
        config->setMaxWorkspaceSize(1024 * 1024 * memorySize);  // 设置最大工作空间大小。
        config->setFlag(nvinfer1::BuilderFlag::kFP16);  // 设置模型输出精度
        nvinfer1::ICudaEngine* engine = builder->buildEngineWithConfig(*network, *config);  // 创建推理引擎
        // 将推理文件保存到本地
        std::cout << "try to save engine file now~~~" << std::endl;
        std::ofstream filePtr(engineFile, std::ios::binary);
        if (!filePtr) {
            std::cerr << "could not open plan output file" << std::endl;
            return;
        }
        // 将模型转化为文件流数据
        nvinfer1::IHostMemory* modelStream = engine->serialize();
        // 将文件保存到本地
        filePtr.write(reinterpret_cast<const char*>(modelStream->data()), modelStream->size());
        // 销毁创建的对象
        modelStream->destroy();
        engine->destroy();
        network->destroy();
        parser->destroy();
        std::cout << "convert onnx model to TensorRT engine model successfully!" << std::endl;
    }
    

      通过调用TensorRT模型优化器,可以将ONNX模型进行优化,结合本机GPU设备,进行优化加速,并转换成TensorRT模型支持的模型格式,这一步也可以在模型推理时进行,但是模型优化需要较长时间,因此最好先将模型进行转换。定义好代码后,在主函数中调用即可,如下所示:

    onnxToEngine("E:\\Text_Model\\yolov10s.onnx", 50);
    

    5. 定义YOLOv10 Process

    5.1 数据预处理

      数据预处理此处通过OpenCV实现,将输入的图片数据转为模型需要的数据情况,代码如下所示:

    void preProcess(cv::Mat *img, int length, float* factor, std::vector<float>& data) {
    	cv::Mat mat;
        int rh = img->rows;
        int rw = img->cols;
        int rc = img->channels();
    	cv::cvtColor(*img, mat, cv::COLOR_BGR2RGB);
        int maxImageLength = rw > rh ? rw : rh;
        cv::Mat maxImage = cv::Mat::zeros(maxImageLength, maxImageLength,CV_8UC3);
        maxImage = maxImage * 255;
        cv::Rect roi (0, 0, rw, rh);
        mat.copyTo(cv::Mat(maxImage, roi));
    	cv::Mat resizeImg;
        cv::resize(maxImage, resizeImg, cv::Size(length, length), 0.0f, 0.0f, cv::INTER_LINEAR);
    	*factor = (float)((float)maxImageLength / (float)length);
        resizeImg.convertTo(resizeImg, CV_32FC3, 1 / 255.0);
        rh = resizeImg.rows;
        rw = resizeImg.cols;
        rc = resizeImg.channels();
        for (int i = 0; i < rc; ++i) {
            cv::extractChannel(resizeImg, cv::Mat(rh, rw, CV_32FC1, data.data() + i * rh * rw), i);
        }
    }
    

      在调用时也相对简单,将相关变量传入即可,代码如下所示:

    Mat frame = new frame();
    std::vector<float> inputData(640 * 640 * 3);
    float factor = 0;
    preProcess(&frame, 640, &factor, inputData);
    

    5.2 结果后处理

      首先此处定义了一个结果类:

    struct DetResult {
        cv::Rect bbox;
        float conf;
        int lable;
        DetResult(cv::Rect bbox,float conf,int lable):bbox(bbox),conf(conf),lable(lable){}
    };
    

      然后定义模型的结果处理方式,代码如下所示:

    std::vector postProcess(float* result, float factor, int outputLength) {
        std::vector positionBoxes;
        std::vector <int> classIds;
        std::vector <float> confidences;
        // Preprocessing output results
        for (int i = 0; i < outputLength; i++)
        {
            int s = 6 * i;
            if ((float)result[s + 4] > 0.2)
            {
                float cx = result[s + 0];
                float cy = result[s + 1];
                float dx = result[s + 2];
                float dy = result[s + 3];
                int x = (int)((cx)* factor);
                int y = (int)((cy)* factor);
                int width = (int)((dx - cx) * factor);
                int height = (int)((dy - cy) * factor);
                cv::Rect box(x, y, width, height);
                positionBoxes.push_back(box);
                classIds.push_back((int)result[s + 5]);
                confidences.push_back((float)result[s + 4]);
            }
        }
        std::vector re;
        for (int i = 0; i < positionBoxes.size(); i++)
        {
            DetResult det(positionBoxes[i], confidences[i], classIds[i]);
            re.push_back(det);
        }
        return re;
    }
    

      最后为了让结果可视化,定义了结果绘制方法,代码如下所示:

    void drawBbox(cv::Mat& img, std::vector& res) {
        for (size_t j = 0; j < res.size(); j++) {
            cv::rectangle(img, res[j].bbox, cv::Scalar(255, 0, 255), 2);
            cv::putText(img, std::to_string(res[j].lable) + "-" + std::to_string(res[j].conf), 
                cv::Point(res[j].bbox.x, res[j].bbox.y - 1), cv::FONT_HERSHEY_PLAIN, 
                1.2, cv::Scalar(0, 0, 255), 2);
        }
    }
    

      上述方式调用依旧十分容易,使用代码如下所示:

    std::vector<float> output_data(300 * 6);
    std::vector result = postProcess(output_data.data(), factor, 300);
    drawBbox(frame, result);
    

    6. 模型推理实现

    6.1 模型读取与创建推理通道

      首先读取上文中转换的Engine模型,并创建推理通道,用于后文的模型推理,实现代码如下所示:

    std::shared_ptr creatContext(std::string modelPath) {
        // 以二进制方式读取问价
        std::ifstream filePtr(modelPath, std::ios::binary);
        if (!filePtr.good()) {
            std::cerr << "文件无法打开,请确定文件是否可用!" << std::endl;
            return std::shared_ptr();
        }
        size_t size = 0;
        filePtr.seekg(0, filePtr.end);	// 将读指针从文件末尾开始移动0个字节
        size = filePtr.tellg();	// 返回读指针的位置,此时读指针的位置就是文件的字节数
        filePtr.seekg(0, filePtr.beg);	// 将读指针从文件开头开始移动0个字节
        char* modelStream = new char[size];
        filePtr.read(modelStream, size);
        // 关闭文件
        filePtr.close();
        nvinfer1::IRuntime* runtime = nvinfer1::createInferRuntime(logger);
        nvinfer1::ICudaEngine* engine = runtime->deserializeCudaEngine(modelStream, size);
        return std::shared_ptr(engine->createExecutionContext());
    }
    

    6.2 Yolov10 推理代码

      下面结合一个视频推理,编写TensorRT推理YOLOv10的流程,代码如下所示:

    #include "opencv2/opencv.hpp"
    #include 
    #include 
    #include "cuda.h"
    #include "NvInfer.h"
    #include "NvOnnxParser.h"
    class Logger : public nvinfer1::ILogger
    {
        void log(Severity severity, const char* msg) noexcept override
        {
            // suppress info-level messages
            if (severity <= Severity::kWARNING)
                std::cout << msg << std::endl;
        }
    } logger;
    
    void yolov10Infer() {
        const char* videoPath = "E:\\Text_dataset\\car_test.mov";
        const char* enginePath = "E:\\Text_Model\\yolov10s.engine";
    
        std::shared_ptr context = creatContext(enginePath);
        cv::VideoCapture capture(videoPath);
        // 检查摄像头是否成功打开
        if (!capture.isOpened()) {
            std::cerr << "ERROR: 视频无法打开" << std::endl;
            return;
        }
    
        cudaStream_t stream;
        cudaStreamCreate(&stream);
    
        void* inputSrcDevice;
        void* outputSrcDevice;
    
        cudaMalloc(&inputSrcDevice, 3 * 640 * 640 * sizeof(float));
        cudaMalloc(&outputSrcDevice, 1 * 300 * 6 * sizeof(float));
        std::vector<float> output_data(300 * 6);
        std::vector<float> inputData(640 * 640 * 3);
        while (true)
        {
            cv::Mat frame;
            if (!capture.read(frame)) {
                break;
            }
            float factor = 0;
        	preProcess(&frame, 640, &factor, inputData);
            cudaMemcpyAsync(inputSrcDevice, inputData.data(), 3 * 640 * 640 * sizeof(float), 
                cudaMemcpyHostToDevice, stream);
            void* bindings[] = { inputSrcDevice, outputSrcDevice };
        	context->enqueueV2((void**)bindings, stream, nullptr);
            cudaMemcpyAsync(output_data.data(), outputSrcDevice, 300 * 6 * sizeof(float),
                cudaMemcpyDeviceToHost, stream);
            cudaStreamSynchronize(stream);
            std::vector result = postProcess(output_data.data(), factor, 300);
            drawBbox(frame, result); 
        	imshow("读取视频", frame);
            cv::waitKey(10);	//延时30
        }
        cv::destroyAllWindows();
    }
    

      通过上诉代码便可以实现使用NVIDIA TensorRT C++部署YOLOv10实现GPU加速。

    7. 总结

      在本文中,我们将演示如何使用NVIDIA TensorRT C++ API 部署YOLOv10目标检测模型,实现模型推理加速。最后我们对模型推理速度进行了测试,测试结果如下所示:

    PreProcess Inference PostProcess
    Time (ms) 7.59 1.35 6.95

       最后如果各位开发者在使用中有任何问题,欢迎大家与我联系。

    个人账号 - 2

  • 相关阅读:
    【编程题】【Scratch二级】2019.09 绘制雪花图案
    [附源码]计算机毕业设计求职招聘网站Springboot程序
    一个非常明显的现象,正在发生——元宇宙正在被越来越多的人所推崇
    Python组合数据类型——序列类型:列表、元组
    Docker(1)
    Docker与微服务实战——基础篇
    基于SSM的医用物理学实验考核系统设计与实现
    EXCEL day 02 公式和函数
    设计模式之建造者模式
    vue项目使用elementui上传组件 打包后报错t.upload.addEventListener is not a function的解决方案
  • 原文地址:https://www.cnblogs.com/guojin-blogs/p/18258877