将人类纳入循环,帮助计算机选择有区分的特征。本文介绍了一款名为“Bubbles”的游戏,揭示了人类使用的判别性特征。
玩家的目标是识别严重模糊的图像类别。在游戏中,玩家可以选择暴露圆形区域的细节并受到一定的惩罚。
在适当的设置下,游戏能够生成具有质量保证的、有区分度的气泡。
之后,本文提出了”Bubble Bank“算法,利用人类选择的气泡来提高机器识别性能。
在有限的数据条件下,自动选择具有区分度的特征变得十分困难。大量不相关的特征会导致严重的过拟合。
为了解决特征选择的挑战,一种方法是应用专门的领域知识,但是要求研究者对特定领域有深入了解。
另一个有前途的方向是,通过让人类标记或提出部件和属性。这类方法可以减少特定领域的研究负担,本文称之为“fine-grained crowdsourcing”。
在这里,所谓“细粒度”有两层含义:
这类方法的挑战在于如何设计有效的注释任务。目前的方法要么要求人类标记预定义的部分或属性,要么分配开放式的任务。前者带来了一定的负担,后者很难对质量进行控制。
本文属于开放式的任务,但是具有自动质量控制的属性。
具体地说,我们提出了一个新的网络游戏“气泡”,揭示了鉴别特征。以鸟类种类鉴定为例。在每一轮游戏中,玩家会看到两种鸟类的示例图像。然后她会得到一张新图片,并被要求将这只鸟归类为两个物种中的一个。她在正确的识别上得分,否则就会扣分。不管结果如何,游戏进入下一轮,会有新的图像,可能还会有一对新的鸟类。游戏的关键是,新图像总是非常模糊,所以玩家只能看到鸟的大致轮廓。然而,玩家可以点击显示图像的小圆形区域(“气泡”)来查看完整的细节,但会被扣分。通过适当的奖励设置,游戏可以保证成功的人类玩家所选择的气泡包含有辨别性的特征。
对于气泡的扣分机制能够在一定程度上保证气泡的质量。
基本思想是为每一个气泡生成一个探测器,并将每个图像表示为气泡检测器的响应的集合。
由于每个气泡都是在区分两个类的背景下绘制的,我们首先假设只有两个类别。本文的想法是,因为每个气泡都包含有区分度的特征,它足以在测试图像中检测到这样的模式,自然而然就给每个气泡安排一个探测器。
那么,我们如何来表示每个气泡探测器?由于每个气泡通常是一个很小的区域,它可以由单个描述子或简单描述子的串联来表示。
这个描述子充当一个图像过滤器,与测试图像中进行密集采样的图像块中提取的特征进行卷积,然后将这些图像块得到的特征进行maxpooling,从而获得测试图像是否包含有该bubble。
每个探测器不是与整个图像卷积,而是在一个固定的矩形区域上工作。该区域的中心由原始图像中气泡的相对位置决定。换句话说,本文对预期探测气泡的位置有很强的空间先验。
现在,假设已经收集到了多个气泡。可以形成一个气泡探测器库,并用图像中每个气泡的最大响应的向量表示图像,在此表示之上学习二分类器。
多分类的方法略。
大体来看,就是找玩家找了一些有区分度的区域,之后拿这些区域去测试图像上提特征,再分类。该组的上一篇论文则是随机选取图像块以提取特征。
BoF模型是一种流行的图像分类算法,本质上是将每张图像表示为一个长向量,并用机器学习算法训练分类器。
基于手工的局部特征,他受到低级特征和高级概念之间的语义鸿沟的困扰。图像表示和视觉概念之间的联系仍然比较薄弱。
HPM充分利用GT部分的注释来帮助获得更好的图像对齐和分割(有什么用处、怎么实现的)。并且,通过在局部特征和分割区域上构建中层结构来提供更有描述性的图像表示(什么是中层结构)。
HPM具体可以描述为:
本文采用BoF模型作为Baseline,大致流程如下:
这一部分得到了基本部件;
眼睛由左眼和右眼组成,头由额头、冠、喙、眼睛组成。所谓中级概念指的是眼睛、头,而其组成部分称为基本部件。
分层学习算法描述为:
这一步实现了中层概念的挖掘。
原始的池化无法捕获几何信息。因此采用GPP算法。
对每个区域的每个视觉词汇,都找到他周围的K个邻居,和最大的邻居相加。之后再对重塑的区域向量找到最大的向量作为特征。