我们生活在三维空间中,如何智能地感知和探索外部环境一直是个热点难题。2D视觉技术借助强大的计算机视觉和深度学习算法取得了超越人类认知的成就,而3D视觉则因为算法建模和环境依赖等问题,一直处于正在研究的前沿。近年来,3D视觉技术快速发展,并开始结合深度学习算法,在智能制造、自动驾驶、AR/VR、SLAM、无人机、三维重建、人脸识别等领域取得了优异的效果。
2D视觉技术主要在二维空间下完成工作,三维信息基本上没有得到任何利用,而三维信息才真正能够反映物体和环境的状态,也更接近人类的感知模式。近年来,学术界和工业界推出了一系列优秀的算法和产品,被广泛应用到各个领域。
学术界:CVPR、ECCV、ICCV三大顶会每年和3D视觉相关主题的文章数量保持在十分之一左右,主要关注3D点云的识别与分割、单目图像深度图的生成、3D物体检测、语义SLAM、三维重建、结构光等。
工业界:3D视觉技术被广泛应用到人脸识别、智能机器人、自动驾驶、AR(增强现实)等领域,国内外相关公司推出了一系列产品。
3D视觉是一个范围较广的概念,涉及到硬件选型、离散数学、非线性优化、最优化理论、矩阵论、多视图几何、空间变换、点云处理、计算机视觉、SLAM、深度学习等相关知识点,对初学者来说,几乎没有一个完整明确的学习路线可以参考,入门较为困难,难以深入,许多人走了很多弯路还是没有取得较好结果。然而,有价值的东西一般都很难,如果能够完全掌握,一定会非常有竞争力。
首先,我们先来看看入门3D视觉需要哪些知识,以及3D视觉的知识体系包含哪些。
基于3D视觉领域缺少完整的知识路线,我和几个朋友共同完成了3D视觉技术学习路线总结,并以思维导图的形式呈现出来,主要包括0~16个小结,其中每个小结代表特定区域的知识点。学习路线的总结,需要较宽的知识面,由于自身有一定的知识盲区,若有缺漏之处还望指出,后续将会不断更新维护该学习路线~
老师的指导:多了解一下几何,SfM,MVS,3D Reconstruction,Visual Localization等,可以集中了解AI在视觉定位和AR中的应用
首先简单的名词解释:
Structure From Motion(SFM) 是从一系列包含视觉运动信息的多幅二维图像序列中估计三维结构的技术。
多视角立体视觉(Multiple View Stereo,MVS)是对立体视觉的推广,能够在多个视角(从外向里)观察和获取景物的图像,并以此完成匹配和深度估计。 某种意义上讲,SLAM/SFM其实和MVS是类似的,只是前者是摄像头运动,后者是多个摄像头视角。
三维重建是指对三维物体建立适合计算机表示和处理的数学模型,是在计算机环境下对其进行处理、操作和分析其性质的基础,也是在计算机中建立表达客观世界的虚拟现实(虚拟现实是在计算机中构造出一个形象逼真的模型。 人与该模型可以进行交互,并产生与真实世界中相同的反馈信息,使人们获得和真实世界中一样的感受。 当人们需要构造当前不存在的环境(合理虚拟现实)、人类不可能达到的环境(夸张虚拟现实)或构造纯粹虚构的环境(虚幻虚拟现实)以取代需要耗资巨大的真实环境时,就可以利用虚拟现实技术。)的关键技术。
视觉定位是指,在大尺度场景下,已知环境地图,给定任意一张图片,计算出该图片对应的位姿。
以下学习路线,没有具体规划,我想随着学习的不断深入,自己或许有更深的感悟,然后随时更新和自我指导学习路线
1、首先我需要了解SFM以及SLAM相关知识以及关于3D视觉的一些基础知识:
计算机视觉之三维重建(深入浅出SfM与SLAM核心算法)——1.摄像机几何_哔哩哔哩_bilibili
2、MVS【多视角立体视觉】?