• BEV(Bird’s-eye-view)三部曲之一:综述


    论文名:Delving into the Devils of Bird’s-eye-view Perception: A Review, Evaluation and Recipe
    Github
    论文网址

    零、摘要

    BEV perception 主要的4个问题是:

    • 如何通过从perspective view 到 BEV视角的重构丢失的3D信息
    • 如何获取BEV网格的ground truth 标注
    • 如何公式化合并从不同sources和views获取的特征的pipline
    • 如何在不同场景下传感器参数变化时,训练一个适配的、泛化性好的算法

    一、Introducation

    1.1 Big Picture at a Glance

    本文基于输入的数据,将BEV研究分为:

    • BEV camera:仅视觉 或 以视觉为中心的目标检测/分割算法,多摄像头
    • BEV LiDAR :点云作为输入
    • and BEV fusion:多模态输入,例如camera,LiDAR,GNSS,odomerty,HD-Map,CAN-bus

    1.2 Motivation to BEV Perception Research

    • Significance.
      • 当前在nuScenes数据集上,仅视觉的算法比基于LiDAR的算法NDS指标低20%;在Waymon数据集上,甚至低超过30%。
      • 单个相机的价格低于LiDAR的1/10
    • Space.
    • Readiness.
      • 数据集:KITTI、Waymo、nuScenes、Argoverse
      • 结构:Transformer,ViT, Mased Auto-encoders, CLIP

    二、Background in 3D perception

    2.1 Task Definition and Related Work

    • 基于单目摄像头的3D目标检测:从单张RGB图预估深度时ill-posed problem, 因此表现较差。
    • 基于LiDAR的3D目标检测:效果往往比基于摄像头的要好很多,因为多了深度的先验信息
    • 传感器融合:摄像头、激光雷达、雷达融合

    2.2 Datasets and Metrics

    2.2.1 数据集

    主要的数据集如下:
    在这里插入图片描述

    • KITTI:3D目标检测两个衡量指标:3D目标检测指标 & BEV指标
    • Waymo: 5 LiDARs and 5 views (左,左前,前,右前,右)
    • nuScenes: 6 views, 1 LiDAR, and 5 Radars + HD-Map and CAN-bus data.

    2.2.2 Evaluation Metrics

    • LET-3D-APL:类似于3D-AP,但给纵向位置一定的容许偏差.
    • mAP: 在BEV视角下,根据不同距离阈值
    • NDS:The nuScenes detection score,综合考虑mAP, mATE (Average Translation Error), mASE (Average Scale Error), mAOE (Average Orientation Error), mAVE (Average Velocity Error) and mAAE (Average Attribute Error)给出的分数。

    三、Methodology of BEV perception

    近期主要的文献有如下:
    [Image]

    这些方法的表现如下表
    [Image]

    我们比较关心使用LiDAR和不适用的差距,由标黄的部分可以发现,两者差距还是较大。
    与仅仅使用雷达的算法,例如CenterPoint,仍有部分差距。但已经超过了PointPillars.

    3.1 BEV Camera

    3.1.1 BEV Camera

    • 算法主要分为:
      • 2D特征提取器:backbone;
      • 2D<->3D的转换矩阵:两种视角转换,2d->3d和3d->2d. 使用物理先验或者3D监督。
      • 3D解码器:输入2D/3D的特征,输出3D bbox、BEV视角的地图分割、3D车道线

    3.1.2 View Transformation

    视角转换在仅摄像头的3D感知中非常关键。主要由两种思路:

    • 使用2D特征来估计深度信息(bin-wise distribution to voxel space),将2D特征lift到3D空间
    • 使用3D-2D映射关系将2D特征编码到3D空间,基于Inverse Perspective Mapping (IPM),投影矩阵由相机的内参和外参建模。
      3.2 BEV LiDAR
      在这里插入图片描述

    提取的3D点云特征转换为BEV特征图,再有一个解码器获得输出。3D点云->BEV的两种思路:

    • Pre-BEV特征提取
      原始点云->体素化点云为离散的网格->3D卷积和3D稀疏卷积
    • Post-BEV特征提取
      3D卷积计算量太大,因此转换为BEV grid, 网格中点的height、instensity、density来表示grid特征,常用的PointPillars、PointNet正是类似的思路

    3.3 BEV Fusion

    基于IPM,使用相机的内参&外参,将图像和点云特征在BEV视角内做融合。

    • LiDAR-camera Fusion:以BEVFusion为代表
    • Temporal Fusion:利用时序,将之前的BEV特征等利用起来。

    3.4 Industrial Design of BEV Perception

    在这里插入图片描述

    将PV特征映射到BEV空间的四种方法:

    • Fixed IPM: 假设路面是平的,固定的转换矩阵
    • Adaptive IPM:仍假设路面是平的,使用SDV的外参数
    • Transformer:不需要先验信息,数据驱动,使用一个dense transormer,广泛应用到Tesla,Horizon, HAOMO
    • ViDAR: 与LiDAR类似,使用pixel-level depth来映射
  • 相关阅读:
    工作以来一直在CRUD,Spring源码该怎么阅读?这份价值百万的源码解析让你如有神助!
    webservice初探
    解决YYYY-MM-dd格式化日期获得的年份不正确问题
    挖矿是什么意思?矿工都做了什么?
    电商转化率这么抽象,到底是个啥?
    针对CSP-J/S的每日一练:Day7
    Spring Security—Spring MVC 整合
    计算机学院2022级新生周赛(一)题解
    基于RBAC 的SAAS系统权限设计
    GIS海量数据前端加载优化策略
  • 原文地址:https://blog.csdn.net/mathlxj/article/details/127695482