小样本数据集 (Few-shot Learning)

文章目录

CUB-200-2011（2011）
Omniglot（2015）
mini-ImageNet（2016）
tiered-ImageNet（2018）
CIFAR-FS
FC100
Meta-Dataset（2020）

FSL数据集	来源	类别数	图片数	图片尺寸
CUB-200-2011	/	200	11,788	\
Omniglot	/	1623	32,460	105*105
mini-ImageNet	ImageNet	100	60,000	\
tiered-ImageNet	ImageNet	608	779,165	\
CIFAR-FS	CIFAR 100	100	60,000	32*32
FC100	CIFAR 100	100	60,000	32*32

CUB-200-2011（2011）

数据集论文：The Caltech-UCSD Birds-200-2011 Dataset

数据来源：CUB-200-2011 数据集全称 Caltech-UCSD Birds-200-2011，是由加利福尼亚理工学院提供的鸟类数据库，共包含 200 种鸟类，共 11,788 张图像。

适用任务：Few-shot Image Classification & Detection & Segmentation

数据集使用说明：

images：所有图像数据，每个类别对应一个子文件夹，共划分为 200 个子文件夹，每类都有 60 张左右的图片。
image.txt：所有图像的路径
classes.txt：200 个类别名称
image_class_labels.txt：对图像和其对应标签按照数字编号
bounding_boxes.txt：所有图像中目标的 bounding box，共 11788 个条目，用于目标检测任务
train_test_split.txt：训练测试数据划分，第一个序号表示样本序号，后面的0/1表示属于训练/测试样本

下载方式：

链接1：Caltech-UCSD Birds-200-2011 (CUB-200-2011)，其中 Images and annotations (1.1 GB) 包含类别标签和标注框，用于分类和检测任务，Segmentations (37 MB) 分割标签，用于分割任务
链接2：CUB-200-2011 百度云下载

Omniglot（2015）

数据集论文：Omniglot第一次使用在2015年的论文 Human-level concept learning through probabilistic program induction

数据来源：Omniglot数据集来自 50 种不同语言的手写字符，共包含 1623 个类别（即1623种手写字符），每个类别只有 20 个样本，图像大小为 $105 \times 105$ 。因此 Omniglot 数据集是一个类别极多，但每个类别的样本数量很少的小样本手写字符数据集。

比如，1623个类别里包含：日语平假名52个，日语片假名47个，韩语元音和辅音分别有21个和19个，最常见的拉丁字母表26个，等等。每个类别的字符有20个不同的手写体。

适用任务：Few-shot Image Classification

数据使用说明：

官方划分 Omniglot 数据集为 background set 和 evaluation set，分别包含 30 个类别和 20 个类别。其实 background set 对应的就是我们常说的 training set，用于模型的学习，evaluation set 对应我们的 test set，用于测试模型的性能。
官方还提供了 2 个更有难度的任务设置：background small 1 和 background small 2 作为训练集，而测试集不变。small 1 和 small 2 分别仅包含 5 个 background set，用于模拟成年人真实的学习数据量。
每个图像都有笔画数据与其配对，坐标序列为 (x,y,time)，且时间 time 以毫秒为单位，笔画数据存储在 matlab 文件中。笔画以 ‘START’ 为开始，笔画间的断点标记为 ‘BREAK’（即抬笔），原始的笔画数据是未经处理的，在时间和空间上的interval不一致，因此如果需要用到笔画数据，需要进行一定的插值处理来获取统一的数据分布。

因此，对于普通使用，只要使用 background set 和 evaluation set 即可：

图片对应着下载文件中的 images_background.zip 和 images_evaluation.zip
笔画对应着 strokes_background.zip 和 strokes_evaluation.zip

对于更有难度的任务设置，使用 small set 1 或者 small set 2（注意测试数据不变）：

图片对应着下载文件中的 images_background_small1.zip（或 2）和 images_evaluation.zip
笔画对应着 strokes_background_small1.zip（或 2）和 strokes_evaluation.zip

下载方式：

链接1：下载 github 整个项目，数据存放在python目录下
链接2：Omniglot 百度云下载，和 github 一致

解压压缩包后，在 python 文件夹下可以看到所有的数据压缩包，其中：

demo.py 用于展示数据集的部分数据
images_background.zip 训练数据，包含30个文件夹，每个文件夹都对应一个语言；每个语言文件夹下又包含个数不等的character文件夹，对应该语言的不同字符；每个字符文件夹下包含20张图片，对应该字符来自20个不同人的手写体。
images_evaluation.zip 测试数据，同上
strokes_background.zip 训练数据对应的笔画，数据组织同images，每张图片都对应一个txt文件，文件中START和BREAK分别表示开始书写和抬笔，其余的数据格式为 (x, y, time)，表示笔尖坐标位置和时间。
strokes_evaluation.zip 测试数据对应的笔画，同上
images_background_small1.zip images_background 的子集，包含5个类别
images_background_small2.zip images_background 的子集，包含5个类别
strokes_background_small1.zip images_background_small1对应的笔画
strokes_background_small2.zip images_background_small1对应的笔画

运行python/demo.py，可以得到如下的可视化字符，其中不同的颜色代表不同的笔画：
在这里插入图片描述
可视化指定字母表字母代码：

import glob
from PIL import Image

def plot_image(alphabet):
    image_path = f'../omniglot/*/{alphabet}/*/'
    characters = glob.glob(image_path)
    image_files = []
    for character in characters:
        img = glob.glob(f"{character}*.png")[0]
        image_files.append(Image.open(img))

    W, H = 40, 40
    ROW, COL = 4, 13
    target = Image.new("RGB", (W * COL, H *ROW))
    for row in range(ROW):
        for col in range(COL):               
            target.paste(image_files[COL*row+col], (0 + W*col, 0 + H*row))
    target.save(f"{alphabet}_patchs.png", quality=80)

if __name__ == '__main__':
    plot_image("Japanese_(hiragana)")
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

mini-ImageNet（2016）

数据集论文：
[1] Matching networks for one shot learning, NIPS 2016. Vinyals et al.
[2] Optimization as a model for few-shot learning, ICLR 2017. Ravi and Larochelle.

数据来源：从 ImageNet ILSVRC-2012 中抽取了 100 个类别的图像组成，每个类别包含 600 张图像，共 60,000 张图像。miniImageNet 在 2016 年由工作 [1] 提出，作者将 100 个类别随机划分为 64:16:20，分别作为 training、validation 和 testing set，三个 sets 互不重叠。但是工作 [1] 发表时没有提供他们的数据划分文件，因此工作 [2] 按照同样的比例重新划分了数据。因此目前有两种数据划分方式，但大多数工作都使用了工作 [2] 的数据划分。两种数据划分方式可以参考：mini-ImageNet 数据划分方式

适用任务：Few-shot Image Classification

数据集使用说明：

如果是在链接2下载的数据，则仅包含一个 images 文件夹，下面包含了所有的 60,000 张图片，图片命名方式是 “类别+图片序号”，每张图片的前缀 nxxxx 是类别，后面的序号以 0 为填充。
数据划分按照工作[2]的方式，数据标签为 train.csv、val.csv 和 test.csv，分别对应训练、验证和测试的数据名称及其标签，这个数据划分文件是工作[2]提出的，也是大部分工作所使用的。

工作 [1] 提出的数据划分方式：Vinyals et al.
工作 [2] 提出的数据划分方式：Ravi and Larochelle.

下面是部分图片，可以看到 mini-ImageNet 的图片大小并不统一，因此在输入网络前通常需要 resize。

下载方式：

链接1：https://lyy.mpi-inf.mpg.de/mtl/download/，数据按照 train/val/test 划分，分别放在三个文件夹内，每个文件夹下按照类别进行了分类，但是没有.csv索引文件。
链接2：mini-ImageNet 百度云下载，和链接1提供的数据压缩包一致，额外包含了三个 .csv 索引文件作为 train/val/test 的划分。
另外推荐一个工具包：Tools for mini-ImageNet Dataset，可以找到工作[1]和[2]的数据划分文件。

.csv 文件内容如下：第一例为文件名（和图片名称一一对应），第二列为标签（和文件名前缀对应）。
在这里插入图片描述

tiered-ImageNet（2018）

数据集论文：[1] Meta-learning for semi-supervised few-shot classification, ICLR 2018.

数据来源：tieredImageNet 在 2018 年由工作[1] 提出，从 ImageNet ILSVRC-2012 中抽取了 34 个超类别（Categories），每个超类别包含 10~30 个不等的子类别（Classes），共 608 个子类别。每个子类别有数量不等的图像，共 779,165 张图像。与 miniImageNet 不同的是，tieredImageNet 考虑了 ImageNet 的类别层级结构。数据按照超类别进行划分，其中 20 个超类（351个子类）作为 training set，6 个超类（97个子类）作为 validation set，8 个超类（160个子类）作为 test set。

与 mini-Imagenet 相比：

tiered-Imagenet 的规模更大
训练/验证/测试数据的划分考虑了 ImageNet 的层级结构，通过划分 super-category 保证了三个集合的类别没有交叉，因此也更有难度。

	Train	Val	Test	Total
Categories	20	6	8	34
Classes	351	97	160	608
Images	448,695	124,261	206,209	779,165

适用任务：Few-shot Image Classification

数据集使用说明：和 mini-ImageNet 几乎一致，原数据压缩包按照 train、val 和 test 对数据进行了划分，但没有相应的索引文件，建议生成索引文件（按照 mini-ImageNet 的索引文件格式）方便训练。

下载方式：

链接1：https://lyy.mpi-inf.mpg.de/mtl/download/
链接2：tiered-ImageNet 百度云下载，提供了已经生成好的 .csv 索引文件。

.csv 文件内容如下：第一例为文件名（和图片名称一一对应），第二列为标签（和文件名前缀对应）。
在这里插入图片描述

CIFAR-FS

数据来源：CIFAR-FS 全称 CIFAR100 Few-Shot 数据集，来源于 CIFAR-100。CIFAR-FS 共包含 100 个类别，每个类别包含 600 张图像，合计 60,000 张图像。使用中通常划分为训练集（64类），验证集（16类） 和 测试集（20类），图像尺寸统一为 32*32。

适用任务：Few-shot Image Classification

数据集使用说明：压缩包内包含 data 和 split 两个文件夹，分别为数据和数据划分文件 .txt，划分文件按照类别名称进行了划分。

下载方式：CIFAR-FS 百度云下载

FC100

数据来源：FC100 数据集全称是 Few-shot CIFAR100数据集，与 CIFAR-FS 类似，同样来自 CIFAR-100。共包含 100 个类别，每个类别 600 张图像，合计 60,000 张图像。与 CIFAR-FS 不同之处在于，FC100 不是按照类别（Class）进行训练/验证/测试集划分的，而是按照超类（Superclass）进行划分的。FC100 共包含 20 个超类（100 class），其中训练集有 12 个超类（60 class），验证集有 4 个超类（20 class），测试集有 4 个超类（20 class）。

适用任务：Few-shot Image Classification

数据集使用说明：和 CIFAR-FS 数据一致，仅划分 训练/验证/测试集 的方式不同。

下载方式：FC100 百度云下载

Meta-Dataset（2020）

见 Meta-Dataset 数据集介绍及处理

相关阅读:
CUDA~矩阵乘运算
 Harmony系统更改手机IP
Java网络编程——NIO处理写事件(SelectionKey.OP_WRITE)
electron学习笔记
 Android JetPack~LiveData(二) 数据倒灌问题
 ffmpeg图片转YUV格式
 python学习笔记（3）—— 数据结构
 城市消费券，拒绝恶意爬取
 string到QString出现中文乱码
 如何在PPT中去除编辑密码？
原文地址：https://blog.csdn.net/qq_31347869/article/details/125562136