Corel5k图像库通常被分成三个部分:4000张图像作为训练集,500张图像作为验证集用来估计模型参数,其余500张作为测试集评价算法性能。使用验证集寻找到最优模型参数后4000张训练集和500张验证集混合起来组成新的训练集。该图像库中的每张图片被标注1~5个标注词,训练集中总共有374个标注词,在测试集中总共使用了263个标注词。
其中有两个表:
即corel5k_test_list.txt测试集和corel5k_train_list.txt训练集,用sublime打开corel5k_test_list.txt,里面有编号如1000/1024,1000代表1000的文件夹,1024代表1024.jpeg图片。
百度知道的好心人给出的答案,感谢解答大佬也感谢提问者
但是很奇怪,我下载下来的数据集里面,训练集确实是4500张(包括了验证集),可是为什么测试集只有499张,不够500张。
而说好的标注词有263个,显示的只有260个
训练集多出来的那些标注词是直接不给的对吗?
GIST是一种图像全局信息特征,能够对场景进行识别与分类。
计算方法如下:
首先在4个尺度和8个方向上设置Gabor滤波器,并对图像做滤波,得到32个滤波后图像。
对滤波后图像分成4*4个区域,计算每个区域内像素均值。
得到484*4=512个区域均值组成的特征向量,即为Gist512特征。