最开始的2-3篇文章会描述一下背景概念之类的内容,方面后面阅读和理解。
计算机视觉(compute vision, CV)这个词,可能会是一个生活方式,也可能是未来很多行业的发展方向。
这里的计算机早已不是传统意义上的个人PC机了,而是指所有“有计算能力”的机器,通俗点讲,带计算芯片的机器。
利用摄像头拍摄成像,然后把成像数据送给计算芯片完成计算的能力。
生活中有很多应用计算机视觉的场景:手机人脸识别、小区门禁人脸识别、汽车感知成像等等。
很多汽车比如特斯拉,都配置了中控显示屏,上面会实时显示汽车周围的环境和行人,像是一个人从汽车顶上方看到的视角一样,这种图像被称为“鸟瞰图”。
不少汽车都会采用类似的方案来感知周围环境,由此而来的 BEV(Bird's-Eye View) 神经网络,便是计算机视觉在汽车领域自动驾驶或辅助驾驶中典型的应用场景。
目前智驾赛道,大多会采用雷达+视觉的方案。雷达像是人的耳朵,姑且称之为计算机听觉,采用雷达和视觉方案,也会最大限度的确保汽车行车安全。
当然有不少人也在争论,纯视觉方案,也就是抛弃雷达,整车全部使用摄像头,不让汽车雷达听,到底行不行。
我个人感觉这种方案可能还有待 CV 算法的进一步成熟。因为一个典型场景便是:汽车从黑暗的隧道中突然使出,或者逆光而行时,这种大光斑呈现在图像上,是很容易造成计算机误判从而出现危险的。