• 3D感知(二):单目3D物体检测


    一、单目3D物体检测

    (1)反变换

    1.基本思路

    1.3D图像反变换到3D世界世界坐标,在进行物体检测

    2.病态问题:通过一些额外信息来辅助解决:

    • 几何假设:目标位于地面(Oy已知)

    • 深度估计:目标深度已知(Oz已知)
      请添加图片描述

    2.辅助信息1:目标位于地面

    1.BEV-IPM:2D图像变换为BEV视图

    • 假设路面和车辆坐标系都与世界坐标系平行——路面高度已知
    • 在像素高度值已知的情况下,将图像转换到BEV视图
    • 采用YOLO网络在BEV视图下检测目标的下边框(与路面接触的部分)

    3.辅助信息2:目标深度已知

    1.Pseudo-LiDAR

    • 依据深度图将输入图像转换为3D点云数据
    • 不依赖于特定的方法:可以采用单目、双目、甚至低线数激光雷达
    • 采用点云和图像融合的算法来检测3D物体

    (2)关键点和3D模型

    1.基本思路

    1.待检测的目标其大小和形状相对较固定

    2.将3D模型与2D图像上检测的关键点进行匹配

    2.DeepMANTA

    1.2D图像上的检测输出

    • 2D边框B
    • 2D关键点集合S和可见度V
    • 与3D模型的相似度T

    2.根据T选择相似度最高的3D模型

    3.匹配3D模型和2D输出的关键点,得到3D关键点 S 3 d S^{3d} S3d和边框 B 3 d B^{3d} B3d

    • 每一对( S 3 d S^{3d} S3d S 2 d S^{2d} S2d)可以得到一个匹配度

    (3)2D/3D几何约束

    1.基本思路

    1.2D物体框的表示

    • 四维变量:2D的中心点和大小

    2.3D物体框的表示

    • 9维变量:3D的中心点、大小和朝向
    • 无法直接通过2D物体框求解
    • 大小和朝向与视觉特征相关性强
    • 中心点3D位置很难通过视觉特征预测

    3.两个步骤

    • 采用2D物体框内的图像特征来估计物体大小和朝向
    • 通过2D/3D的几何约束来求解物体3D中心点的位置

    2.Deep3DBox

    1.约束条件:2D物体框的每条边上都至少能找到一个3D物体框的角点

    2.超约束问题:约束数量(4个)大于未知参数(3个)数量

    3.这个超约束问题的求解过程可以建模成一个网络层,进行端到端训练

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BnsuM5OC-1659861177945)(C:/Users/13611/AppData/Roaming/Typora/typora-user-images/image-20220807144642885.png)]

    (4)直接预测3D信息

    1.基本思路

    1.两阶段检测,Anchor-based

    • 根据先验知识生成稠密的3D物体候选
    • 通过2D图像上的特征对所有的候选框进行评分
    • 评分高的候选框作为最终的输出

    2.单阶段检测,Anchor-free

    • 直接从图像回归3D信息
    • 根据先验知识设定物体3D参数的初始值
    • 神经网络只需要回归与实际值的偏差即可

    2.两阶段检测

    1.Mono3D

    • 基于目标先验位置(z坐标位于地面)和大小来生成稠密的3D候选框
    • 3D候选框投影到图像坐标后,通过2D图像上特征进行评分
    • 特征来自于语义分割、实例分割、上下文、形状以及位置先验信息

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mQwgPnvC-1659861177946)(C:/Users/13611/AppData/Roaming/Typora/typora-user-images/image-20220807145126654.png)]

    2.TLNet

    • 稠密的Anchor带来巨大的计算量
    • 采用2D图像上的检测结果来降低Anchor数量
    • 2D检测结果形成的3D视锥可以过滤掉大量背景上的Anchor
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0zsmBWpz-1659861177947)(C:/Users/13611/AppData/Roaming/Typora/typora-user-images/image-20220807152230162.png)]

    1.单阶段检测,Anchor-free

    1.FCOS3D

    • 整体网络结构与2D物体检测非常相似,只是增加了3D回归目标
    • 3D回归目标: 中心点位置;大小和朝向
    • Centerness的定义:
      在这里插入图片描述

    (5)总结

    方法主要思路存在的问题
    图像反变换2D图像反变换到3D世界坐标,在3D坐标下进行物体检测病态问题,需要额外的先验知识或者深度信息
    关键点和3D模型在2D图像上检测目标的关键点,与数据库中的3D模型进行匹配受限于3D模型,不是所有目标都适用;受特征点检测精度影响较大
    2D/3D几何约束2D图像特征来估计目标大小和朝向,2D/3D几何约束求解目标3D中心点需要非常精确的2D物体检测;几何约束求解过程非常耗时
    直接预测3D信息对3D候选进行评分:
    直接由图像回归3D信息
    大量的3D候选影响算法速度;
    需要大量训练数据来学习3D线索

    二、单目深度估计

    • 3D物体检测中经常需要深度估计的辅助
    • 3D场景语义分割需要估计稠密的深度图

    1.基本思路

    1.输入:单张图像

    2.输出:单张图像,每个像素值对应输入图像的场景深度

    3.常用方法

    • 传统方法:利用几何信息,运动信息等线索,通过手工设计的特征来预测像素深度
    • 深度学习:通过训练集数据学习到比手工设计更优越的特征

    分割需要估计稠密的深度图

    1.基本思路

    1.输入:单张图像

    2.输出:单张图像,每个像素值对应输入图像的场景深度

    3.常用方法

    • 传统方法:利用几何信息,运动信息等线索,通过手工设计的特征来预测像素深度
    • 深度学习:通过训练集数据学习到比手工设计更优越的特征

    监督学习算法

  • 相关阅读:
    SqlExceptionHelper 142: ORA-00909: 参数个数无效
    Transformers北大源
    如何在 initial / task 等 begin_end 中等待某一个信号
    如何做好软件系统的需求调研,七种武器让你轻松搞定
    NAT+ACL+mstp小综合
    【C++】动静态库的生成与调用
    kubernetes教程-基本学习环境配置
    【环境搭建-04】CentOS上搭建Vulhub靶场
    亚马逊卖家售后管理做得好,差评投诉不见了!一文分享售后管理技巧
    组件自定义事件
  • 原文地址:https://blog.csdn.net/qq_46067306/article/details/126213136