码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 顶级论文创新点怎么找?中国高校首次获CVPR最佳学生论文奖有感


    几天前,同济大学公布了一条重磅消息:本校学生陈涵晟获得CVPR2022最佳学生论文奖,这也是CVPR自2001年设立最佳学生论文奖以来,获奖论文的第一作者首次来自中国高校。

    图片

    华人在CV领域崛起

    最近几年CV领域的顶会,华人作者与日俱增。以CVPR 2022为例,投稿数最多的是来自中国大陆的作者,占到了44.59%;美国则以20.65%的比例位列第二,还不到第一名的一半。虽然我们业内人士已经习惯了华人在顶会上的一路飙升,但是看到最佳学生论文这样重磅级的奖项被中国大陆学生斩获,还是非常震撼的!

    这篇佳作是干啥的?

    我看了下作者的论文题目:EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation。顿时感觉熟悉而陌生,佩服中带着点惊呆,PnP这么传统的算法竟然还有人一直在默默研究和改进,而且做出了突破性的工作,被世界范围内同行认可。于是,饶有兴致的下载了该论文,想看看能不能学到点什么。

    这篇获奖论文主要研究的是针对单目图像中的物体6自由度位姿估计问题,提出的EPro-PnP是一种端到端的概率PnP算法,它将传统多视图几何和深度学习网络结合,实现了在单幅RGB图像上进行精确的位姿估计,该方法在姿态估计和三维物体检测公开数据集上取得的极佳效果。可广泛应用于机器人和自动驾驶领域。作者还开源了代码:

    https://github.com/tjiiv-cprg/EPro-PnP

    图片

    该方法是一种通用的端到端2D-3D对应解决方案,这个“通用”非常重要,模型的泛化性有多么重要,懂的人都懂。

    关于创新点的启发

    在我们SLAM知识星球交流社区,小伙伴们最焦虑的事情之一就是论文创新点。我之前做了一期关于论文创新点的直播 :今晚19点直播 | 做研究如何寻找创新点? 核心观点如下,还举了一个例子带着大家去找创新点,感兴趣的可以去星球看回放视频。

    1、阅读大领域所有综述论文:survey/review + 关键词
    2、根据已有积累和兴趣选择细分方向
    3、阅读细分方向最近3-5年的综述论文、中文学位论文、英文顶会论文
    4、重视带开源代码的论文、编译运行;特别好的论文尽量复现
    5、自己采集数据、硬件移植、测试;如有能力,参考前人经验自己写一个框架
    6、在实际工程中发现问题。查文献看看别人是怎么解决的;思考自己如何解决
    7、干起来!

    看了这篇EPro-PnP的论文,我再增加几个观点:

    1、重视计算机视觉领域的基础知识。

    据我所知,不少其他专业转行到CV方向的一般都直接去研究深度神经网络了,他们可能对各种经典网络如数家珍,最终变成了调包侠、调参侠。

    图片

    但是却忽略了CV的基础知识的重要性,比如最基础的直方图均衡化、形态学开闭操作、相机成像模型、对极几何、PnP、ICP等。而恰恰有时候,这些基础知识决定了你的上限。

    这里需要说明的是,上图中文字是PS的,更讽刺的是,我们用多视图几何里的单应矩阵可以非常简单的实现上面的P图效果。知道怎么做的可以在留言区评论。

    2、传统多视图几何 和 深度神经网络(DNN)的结合。

    现在DNN方向的研究逐渐从二维转到三维,如果熟悉三维视觉里非常核心的多视图几何知识,绝对能够让你的研究工作如虎添翼。多视图几何方面经过了很多年的研究,具有确定性的理论基础,它可以描述物理世界的结构、形状、体积、深度、姿态、视差、运动、光流等信息,非常有意思,它在三维视觉里必不可少。如果能够将两者结合起来,是非常有希望做出一些突破性的成果的。

    图片

    以上是我个人的瞎扯淡,如果觉得对你有用,记得点个在看~

    独家重磅课程官网:cvlife.net

    1、SLAM社区:一个人啃SLAM,难受到自闭,硬顶还是放弃?

    2、C++实战:为啥SLAM代码都用C++不用Python?

    3、多传感器融合SLAM 激光雷达-视觉-IMU多传感器融合方案!

    4、VIO灭霸:VIO天花板ORB-SLAM3第2期上线!(单/双目/RGBD+鱼眼+IMU+多地图+闭环)

    5、视觉SLAM基础:刚看完《视觉SLAM十四讲》,下一步该硬扛哪个SLAM框架 ?

    6、机器人导航运动规划: 机器人核心技术运动规划:让机器人想去哪就去哪!

    7、详解Cartographer:谷歌开源的激光SLAM算法Cartographer为什么这么牛X?

    8、深度学习三维重建 总共60讲全部上线!详解深度学习三维重建网络

    9、三维视觉基础 详解视觉深度估计算法(单/双目/RGB-D+特征匹配+极线矫正+代码实战)

    10、 VINS:Mono+Fusion SLAM面试官:看你简历上写精通VINS,麻烦现场手推一下预积分!

    11、图像三维重建课程:视觉几何三维重建教程(第2期):稠密重建,曲面重建,点云融合,纹理贴图

    12、系统全面的相机标定课程:单目/鱼眼/双目/阵列 相机标定:原理与实战

  • 相关阅读:
    华南理工大学建筑学院建筑设计及其理论专业考研上岸经验分享
    BCSP-玄子Share-Java框基础_工厂模式/代理模式
    达梦数据库管理用户和创建用户介绍
    如何实现区块构建者角色的去中心化?
    2023年天津美术学院专升本报名考试须知
    Day45:Element-Plus
    设计模式之美——里式替换原则 和 接口隔离原则
    基于JAVA校园酒店管理系统计算机毕业设计源码+系统+mysql数据库+lw文档+部署
    [运维|中间件] Apache APISIX使用笔记
    Python 下载大文件,哪种方式速度更快
  • 原文地址:https://blog.csdn.net/electech6/article/details/125557496
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号