图像分类任务是计算机视觉中的核心任务,其目标是根据图像信息中所反映的不同特征,把不同类别的图像区分开来。
对于人来说,完成上述的图像分类任务简直轻而易举,我们看到的是图像,但对于机器也就是计算机来说,它看到的是字节数据:
因此,出现同一图像的视角不同(比如旋转一张图片)、光照不同(从不同的角度照射统一物体),物体的尺度大小不同(小孩拿着电脑与姚明拿着电脑),物体被遮挡,物体形变(猫站着、躺着......),图像背景出现杂波(北极狐与背景融为一体),类内形变(都是椅子但却有很多样式),运动模糊(小鸟摆头导致拍摄时出现模糊)......这些情况时,对于机器来说,分类任务是很困难的。
数据驱动的图像分类方法是指通过构建数据集并设计一个分类器,让分类器去学习数据集中的规律,将学习后的分类器用于图像分类。
例如我们将10000张猫和10000张狗的图片收集在一起,并分别为其打上标签(狗的标签可打为1,猫的标 签可打为2),这就是数据集构建。
分类器设计就是设计一个模型,例如逻辑回归模型、ResNet等,分类器学习就是将模型的参数填上(最开始都是随机填)并不断更新(最开始填的肯定不好,所以要让计算机帮我们更新参数)以使得我们设计的模型能以更高的准确率来分类图像,这个参数更新的过程就是学习。
分类器决策就是将学习完毕的模型用于实际的分类任务中,这应该很好理解。