图像处理涵盖了图像识别、图像分割、图像分类、深度估计等各个子领域/方向,当论文看到一定程度时,总会闪现一些灵感,但是常常就此打住,因为思想的类比难以下手?
举例来说,在NLP领域的transformer到CV领域的Vision transformer就是一种思想的迁移!
那么,其实很多时候,我们总会从不同领域的不同论文中获取一些想法,但是如何将其应用到自己所在的领域呢?这是最近遇到的最大的困惑......介于自身的积累还不足以到突破性进展,就框限在图像领域的各方向之间的思路转换?
以图像分类与图像深度估计为例,尽可能地探讨其思想的异同?如何实现思想的迁移?
仅作经验积累,不保证思考的都对!
简单说就是对图像内容进行分类,如图像上有一只小狗,那么就是归类到狗。结合现实,红豆和绿豆混合在一起,依据颜色分类,这个操作就是图像分类在图像中所干的活。
当然,这也不是说说而已,追根溯源,我们应该要明白,怎么就可以图像分类了,程序怎么就知道将输入的图像进行分类了?
这里大概就是做一些总结以及思考,主要留以思考在图像深度估计的差异性。
总结:
1 数据集:输入的数据需要处理成以下样式!
Q1思考:图像深度估计的数据的格式及要求?
A1回答:结合先前做的图像深度估计的训练,其数据集更多输入的是.mat文件,其本质是matlab文件,可以用matlab打开。举例来说,深度估计常用的NYU Depth Dataset V2数据集(下载路径),其对应的RGB图像、原始深度图像和类标签的样本。
也就是说,图像分类的数据实际就是对应人、车、树的类别,图像深度估计的数据所调用的就是得按需求,个人感觉比图像分类要更细一点,所谓的depths。前者以类别相参照,后者与深度数据像参照。
2 模型搭建:图像分类模型的设计过程
Q2思考:图像深度估计的模型架构定义与图像分类的差异?感觉是重点,也是理所当然吧!
A2回答: 模型这部分,去请教了学者,发现并不是很重点,同一个模型是可以应用于不同的任务,所要关注的还是数据的输入。确实,有些实验在测试时也发现它们是来源于某些基础模型设置的变形,所以,要理解模型,不如去理解模型的每一步操作作用,主要是对输入数据的作用!
也就是说,将图像深度的相关数据,符合图像分类的输入,那么使用图像分类的模型,是不矛盾的,当然,效果就另当别论了......
不管前方的路有多苦,只要走的方向正确,不管多么崎岖不平,都比站在原地更接近幸福。