• BEV(Bird’s-eye-view)三部曲之三:demo和验证


    1. PYVA: Projecting Your View Attentively (CVPR 2021)

    • 数据集:KITTI
    • paper,github,35 FPS
    • 输入:单张摄像头前向图
    • 输出:road layout estimation and vehicle occupancy estimation

    在这里插入图片描述

    目标检测

    在这里插入图片描述

    道路分割

    在这里插入图片描述

    2. FIERY (ICCV 2021)

    github
    主页
    数据集:NuScenes
    输入:6个视角的相机图像+内参+外参
    模型推断输出示意图:
    在这里插入图片描述

    3. HDMapNET( ICRA 2022)

    暂时没有预训练好的模型,但可以可视化其如何如何处理标注

    • papergithub主页知乎
    • 输入:多摄像头or/and 雷达
    • 输出:HD语义地图分割
    • 数据集:NuScenes
      其处理结果如下:
      在这里插入图片描述
      在这里插入图片描述

    4. Lift, Splat, Shoot (ECCV 2020,NVIDIA)

    • papergithub主页, 35 hz on a Titan V
    • 输入:6个摄像头
    • 输出:语义分割,道路和交通参与者
    • 数据集:NuScenes

    模型推断结果的例子:
    在这里插入图片描述
    在这里插入图片描述

    5. 一个比赛:nuScence 3D Camera-Only Detection

    主页

    请添加图片描述

    5.1 BEFormer: 基于Transformer的BEV编码器

    BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

    • papergithub中文blog中文论文,测速V100上,R101-DCN,input size 900X1600,大约2FPS

    • 输入:多视角相机图像

    • 输出:3D目标检测/语义分割

    • 论文汇报的与带LiDAR方法对比:与基于lidar的基线性能相当; 对速度有很好的估计结果.
      请添加图片描述

    • 衡量标准:

      • mAP:根据地平面上的中心距离计算,而非IoU上的3D IoU
      • ATE: 平移
      • ASE: 尺度
      • AOE:方向
      • AVE:速度
      • AAE:属性
        请添加图片描述
    • 一些细节:

      • 主干网络:ResNet-101 / VoVnet99
      • BEV特征的中心默认对应自我车的位置
      • 鸟瞰图询问query Q为一组网格形状的可学习参数,维度为HxWxC,H, W为BEV的高和宽,一一对应到BEV平面中的网格单元区域。大小为200x200,感知范围[-51.2m, 51.2m].
      • 空间交叉注意力机制:
        • 将BEV空间上的每个query向量提升到一个柱状查询向量
        • 采样 N r e f N_{ref} Nref个3D参考点,将其投影到二维视图(需要知道相机投影矩阵),对于一个BEV query,只能命中部分视图。(这里的坐标系为以本车为原点的三维坐标系,根据BEV的坐标和分辨率获取真实的x,y, 通过锚点采样得到z)
        • 将这些命中视图中的二维点作为参考点,围绕参考点从命中视图中抽取特征
        • 对这些采样的特征进行加权求和,作为空间交叉注意力的输出.
      • 时间注意力机制:融合t时刻的BEV query向量和t-1时刻的历史BEV特征
      • BEV特征的应用:拿到的是HxWxC的通用的二维特征
        • 对于3D检测任务,设计DETR的检测head,预测三维检测框和速度,无需NMS
        • 对于地图分割,采用Panopic SegFormer作为地图分割头

    5.2 其它名次的算法

    • MV-FCOS3D++ 基于MMDetection3D,无具体的github代码
    • FCOS3D-MVDet3D 基于MMDetection3D,无具体的github代码
    • DETR4D :无任何描述
    • DMVT*:无任何描述
  • 相关阅读:
    论坛介绍|COSCon'23 Web应用开发(W)
    智能监控技术助力山林生态养鸡:打造智慧安全的养殖新模式
    Redis之string类型的三大编码解读
    【系统软件】源码编译安装ZLIB——Could NOT find ZLIB(missing:ZLIB_LIBRARY ZLIB_INCLUDE_DIR
    【计算机视觉40例】案例23:语义分割
    SRv6----IS-IS扩展
    【Redis延迟队列】redis中的阻塞队列和延迟队列
    巨控GRM230模块在分散式污水行业专用解决方案
    python函数式编程
    XCTF高校网络安全专题挑战赛 | 总决赛倒计时7天
  • 原文地址:https://blog.csdn.net/mathlxj/article/details/127696916