• 【Paddle】图像分类竞赛baseline——以智能硬件语音控制的时频图分类挑战赛为例


    AIstudio链接:https://aistudio.baidu.com/aistudio/projectdetail/4415367

    一. 赛事介绍

    赛事链接:https://challenge.xfyun.cn/topic/info?type=time-frequency-2022&option=tjjg

    本次竞赛是一次典型的图像分类竞赛,通过训练已知的图片及其对应标签,预测得到未知图片的种类。

    官方提供的数据集为以下格式:

    在这里插入图片描述

    • test:存放将要预测的测试集图片;
    • train:存放训练集图片;
    • train.csv:存放训练集图片的路径及其对应的类别;
    • 提交示例:存放测试集图片的路径及其预测得到的类别。

    下面我基于百度飞桨深度学习框架,提供了三种模型训练、预测、生成结果文件的全流程baseline,该baseline亦可用于所有图像分类竞赛,只需要针对性地修改Dataset中图片和标签的读取方式即可。

    二. Baseline

    导入所需库:

    import os
    import cv2
    import time
    import numpy as np
    import pandas as pd
    from PIL import Image
    import paddle
    from paddle.io import Dataset, DataLoader
    from paddle.regularizer import L2Decay
    import paddle.nn as nn
    from paddle.vision import transforms
    from paddle.vision import models
    from paddle.metric import Accuracy
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13

    环境设置:

    device  = paddle.device.get_device()
    #输出cuda说明使用gpu,输出cpu说明使用cpu,最好使用gpu训练
    paddle.device.set_device(device)
    print(device)
    
    • 1
    • 2
    • 3
    • 4

    基础数据读取:

    train_df = pd.read_csv('data/train.csv')
    train_df['path'] = 'data/train/' + train_df['image']
    train_df.sample(frac=1).reset_index(drop=True) #打乱训练集
    
    test_df = pd.read_csv('data/提交示例.csv')
    test_df['path'] = 'data/test/' + test_df['image'] 
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    定义数据集读取方法:

    class XunFeiDataset(Dataset):
        def __init__(self, img_path, label, transforms=None):        
            self.img_path = img_path        
            self.label = label        
            if transforms is not None:           
                self.transforms = transforms        
            else:            
                self.transforms = None        
        def __getitem__(self, index):        
            img = img = Image.open(self.img_path[index]).convert('RGB')  
            img = self.transforms(img)                                    
            
            return img,self.label[index]        
        
        def __len__(self):        
            return len(self.img_path)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16

    2.1 基础API训练

    2.1.1 训练数据的分割、特征工程及封装

    此部分主要包括三个步骤:

    • 分割训练数据,其中1943张用于训练,200张用于验证;
    • 对训练集和验证集做数据预处理,对训练集做特征工程;
    • 生成训练集和验证集的Dataloader,用于训练时批量数据读取。
    #使用torch批量数据读取
    train_loader = DataLoader(    
        XunFeiDataset(train_df['path'].values[:-200], train_df['label'].values[:-200],           
                transforms.Compose([
                    transforms.Resize(256), 
                    transforms.RandomCrop(224),
                    transforms.ToTensor(),
                    transforms.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225))
                ])
            ), batch_size=4, shuffle=True, num_workers=0)
        
    val_loader = DataLoader(    
        XunFeiDataset(train_df['path'].values[-200:], train_df['label'].values[-200:],            
                transforms.Compose([
                    transforms.Resize(224),
                    transforms.ToTensor(),
                    transforms.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225))])
            ), batch_size=2, shuffle=False, num_workers=0) 
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18

    2.1.2 定义模型、损失函数和优化函数

    model = models.resnet18(pretrained=True,num_classes=24)
    criterion = nn.CrossEntropyLoss()
    optimizer = paddle.optimizer.Adam(learning_rate=0.0001, parameters=model.parameters(),weight_decay=0.1)
    
    • 1
    • 2
    • 3

    2.1.3 模型训练

        #----------------模型训练----------------
           
    # 模型训练一个epoch的函数
    def train(train_loader, model, criterion, optimizer):   
        model.train()  
        train_acc = 0.0  
        train_loss = 0.0    
        
        for i, (input, target) in enumerate(train_loader):               
            output = model(input)        
            loss = criterion(output, target)        
            optimizer.clear_grad()        
            loss.backward()        
            optimizer.step()
            if i % 40 == 0:            
                print(loss.item())
            train_acc += (output.argmax(1) == target).sum().item()                             
            train_loss += loss.item()        
        
        return train_loss/len(train_loader),train_acc / len(train_loader.dataset)
        
    # 模型验证一个epoch的函数
    def validate(val_loader, model, criterion):    
        model.eval()
        val_acc = 0.0
        val_loss = 0.0        
        
        with paddle.no_grad():        
            end = time.time()        
            for i, (input, target) in enumerate(val_loader):                        
                output = model(input)            
                val_loss += criterion(output, target).item()
                val_acc += (output.argmax(1) == target).sum().item()                   
            return val_loss/len(val_loader),val_acc / len(val_loader.dataset)            
    
    epochs = 40
    for i  in range(epochs):
        print("------epoch{}----------".format(i))   
        print("-------Loss----------")      
        train_loss,train_acc = train(train_loader, model, criterion, optimizer) 
        print("loss={}".format(train_loss))  
        print("acc:{}".format(train_acc)) 
    
        print("-------Val acc----------") 
        val_loss,val_acc = validate(val_loader, model, criterion)  
        print("loss={}".format(val_loss))  
        print("acc:{}".format(val_acc))     
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47

    训练时输出训练集及验证集的loss和准确率:

    ------epoch1----------
    -------Loss----------
    1.901474952697754
    1.421966552734375
    1.5676559209823608
    1.6595444679260254
    0.4624171853065491
    1.3034279346466064
    0.7691125273704529
    0.9662804007530212
    1.1717147827148438
    0.5677876472473145
    1.6588013172149658
    1.4357925653457642
    1.852024793624878
    loss=1.076483992668091
    acc:0.6711271230056614
    -------Val acc----------
    loss=0.5212626896231086
    acc:0.835
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20

    2.1.4 模型预测及结果输出

    模型预测:

    #----------------模型预测----------------
    test_loader = DataLoader(    
        XunFeiDataset(test_df['path'].values, [0] * test_df.shape[0],            
            transforms.Compose([
                    transforms.Resize((224, 224)),        
                    transforms.ToTensor(),
                    transforms.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225))])
                ), batch_size=2, shuffle=False, num_workers=0)
    
    model.eval()    
    val_acc = 0.0        
    
    test_pred = []    
    with paddle.no_grad():  
        for input, _ in test_loader():
            # print(img[0])                      
            output = model(input)           
            test_pred.append(output.cpu().numpy())                
    
    pred = np.vstack(test_pred)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20

    结果输出:

    #----------------结果输出----------------
    pd.DataFrame(    
        {        
            'image': [x.split('/')[-1] for x in test_df['path'].values],        
            'label': pred.argmax(1)
            }).to_csv('result.csv', index=None)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    运行后生成名为result.csv的文件,提交该文件至平台即可。

    2.2 K折交叉验证

    2.2.1 训练数据的分割、特征工程及封装

    # K折交叉验证
    def get_k_fold_data(k, i, X, y):
        assert k > 1
        fold_size = X.shape[0] // k
        X_train, y_train = None, None
        for j in range(k):
            idx = slice(j * fold_size, (j + 1) * fold_size)
            X_part, y_part = X[idx], y[idx]
            if j == i:
                X_valid, y_valid = X_part, y_part
            elif X_train is None:
                X_train, y_train = X_part, y_part
            else:
                X_train = X_train.append(X_part)
                y_train = y_train.append(y_part)
        train_loader = DataLoader(XunFeiDataset(X_train.values, y_train.values,           
                                        transforms.Compose([
                                            transforms.Resize(224), #256
                                            #transforms.RandomHorizontalFlip(),
                                            #transforms.RandomCrop(224), 
                                            transforms.ToTensor(),
                                            transforms.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225))])
                                ), batch_size=4, shuffle=True, num_workers=0)
        val_loader = DataLoader(XunFeiDataset(X_valid.values, y_valid.values,            
                                    transforms.Compose([
                                        transforms.Resize(224),
                                        transforms.ToTensor(),
                                        transforms.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225))])
                                ), batch_size=2, shuffle=False, num_workers=0) 
        return train_loader, val_loader
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30

    此部分主要包括三个步骤:

    • 将训练数据分成k份,取其中第i份为验证集,其余为训练集;
    • 对训练集和验证集做数据预处理,对训练集做特征工程;
    • 生成训练集和验证集的Dataloader,用于训练时批量数据读取。

    函数get_k_fold_data(k, i, X, y)的输入参数分别表示:

    • k:将训练数据分成k份;
    • i:设置其中第i份为验证集,其余为训练集;
    • x:训练数据的图片地址,为Series数据类型;
    • y:训练数据的标签,为Series数据类型。

    函数的输出为训练集和验证集的Dataloader

    2.2.2 模型训练

    train_loss = []
    val_loss = []       
    #----------------模型训练----------------
           
    # 模型训练一个epoch的函数
    def train(train_loader, model, criterion, optimizer):   
        model.train()  
        train_acc = 0.0  
        train_loss = 0.0    
        
        for i, (input, target) in enumerate(train_loader):               
            output = model(input)        
            loss = criterion(output, target)        
            optimizer.clear_grad()        
            loss.backward()        
            optimizer.step()
            if i % 40 == 0:            
                print(loss.item())
            train_acc += (output.argmax(1) == target).sum().item()                             
            train_loss += loss.item()        
        
        return train_loss/len(train_loader.dataset),train_acc / len(train_loader.dataset)
        
    # 模型验证一个epoch的函数
    def validate(val_loader, model, criterion):    
        model.eval()
        val_acc = 0.0
        val_loss = 0.0        
        
        with paddle.no_grad():        
            end = time.time()        
            for i, (input, target) in enumerate(val_loader):                        
                output = model(input)            
                val_loss += criterion(output, target).item()
                val_acc += (output.argmax(1) == target).sum().item()                   
            return val_loss/len(val_loader.dataset),val_acc / len(val_loader.dataset)    
    
    # 模型预测函数     
    def predict(test_loader, model, criterion):    
        model.eval()    
        val_acc = 0.0        
    
        test_pred = []    
        with paddle.no_grad():        
            end = time.time()        
            for i, (input, target) in enumerate(test_loader):                
                output = model(input)            
                test_pred.append(output.cpu().numpy())                
            return np.vstack(test_pred)
            
    test_loader = DataLoader(    
        XunFeiDataset(test_df['path'].values, [0] * test_df.shape[0],            
            transforms.Compose([
                    transforms.Resize((224, 224)),        
                    transforms.ToTensor(),
                    transforms.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225))])
                ), batch_size=2, shuffle=False, num_workers=0)
    
    result = pd.DataFrame()
    # 模型训练
    k_fold = 5
    for i in range(k_fold):
        train_loss_mean = 0.0
        train_acc_mean = 0.0
        val_loss_mean = 0.0
        val_acc_mean = 0.0
    
        train_loader,val_loader = get_k_fold_data(k_fold, i, train_df['path'], train_df['label'])
        model = models.resnet18(pretrained=True,num_classes=24)
    	criterion = nn.CrossEntropyLoss()
    	optimizer = paddle.optimizer.Adam(learning_rate=0.0001, parameters=model.parameters(),weight_decay=0.1)
    	
        print("---------第{}折开始----------".format(i+1))
        epochs = 50
        for epoch in range(epochs):
            print("------epoch{}----------".format(epoch))   
            print("-------Loss----------")      
            train_loss,train_acc = train(train_loader, model, criterion, optimizer) 
            train_loss_mean += train_loss/epochs
            train_acc_mean += train_acc/epochs
            print("loss={}".format(train_loss))  
            print("acc:{}".format(train_acc)) 
    
            print("-------Val acc----------") 
            val_loss,val_acc = validate(val_loader, model, criterion) 
            val_loss_mean += val_loss/epochs
            val_acc_mean += val_acc/epochs 
            print("loss={}".format(val_loss))  
            print("acc:{}".format(val_acc)) 
        print("第{}折交叉验证train_loss={},train_acc={},val_loss={},val_acc={}".format(i+1,train_loss_mean,train_acc_mean,val_loss_mean,val_acc_mean))
        
    #----------------模型测试----------------
    #1. result为每一折测试集预测得到五组种类组合成的Dataframe
    #2. pred为每一折测试集得到的原始结果相加
        test_pred = predict(test_loader, model, criterion)
        result[str(i)] = test_pred.argmax(1)
        if i==0:
            pred = test_pred
        else:
            pred += test_pred
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55
    • 56
    • 57
    • 58
    • 59
    • 60
    • 61
    • 62
    • 63
    • 64
    • 65
    • 66
    • 67
    • 68
    • 69
    • 70
    • 71
    • 72
    • 73
    • 74
    • 75
    • 76
    • 77
    • 78
    • 79
    • 80
    • 81
    • 82
    • 83
    • 84
    • 85
    • 86
    • 87
    • 88
    • 89
    • 90
    • 91
    • 92
    • 93
    • 94
    • 95
    • 96
    • 97
    • 98
    • 99
    • 100

    训练时输出训练集及验证集的loss和准确率:

    ---------1折开始----------
    ------epoch0----------
    -------Loss----------
    4.114025115966797
    4.572966575622559
    3.054084539413452
    2.3948230743408203
    2.816720962524414
    2.7093520164489746
    2.7494349479675293
    2.8162894248962402
    2.26254940032959
    2.2256574630737305
    1.4336745738983154
    loss=0.6817054544862743
    acc:0.205607476635514
    -------Val acc----------
    loss=1.3423477758992917
    acc:0.34345794392523366
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19

    2.2.3 模型预测及结果输出

    在每一折训练结束之后都对测试集进行了一次预测,我这里提供了两种方式:

    • result:为每一折测试集预测得到k组种类组合成的Dataframe。比如测试集有1020张图片,k为5折,则result为大小为(1020,5),其中每一列为每一折模型预测得到1020张图片对应的种类,最终对每一张图片进行投票,选取预测最多的种类作为该图片的类。
    • pred:为每一折测试集得到的原始结果相加,大小为(1020,24)的Array数组,其中每一行为每一张图片对应24个种类的分数,选取分数最高的作为该图片的类。
    #----------------结果输出----------------
    #保存五次预测投票后的结果
    label = np.array(result.mode(1)[0],dtype=int)
    pd.DataFrame(    
        {        
            'image': [x.split('/')[-1] for x in test_df['path'].values],        
            'label': pred.argmax(1)
            }).to_csv('result.csv', index=None)
            
    #保存五次预测的原始结果(1020*24)求和后每一个样本的最大分数对应的类
    pd.DataFrame(    
        {        
            'image': [x.split('/')[-1] for x in test_df['path'].values],        
            'label': pred.argmax(1)
            }).to_csv('result2.csv', index=None)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15

    这两种预测方式得到的结果大部分是相同的,有可能有小部分图片的结果有所差异。

    2.3 高层API训练

    关于高层API参考:官方文档

    2.3.1 训练数据的分割、特征工程及封装

    train_dataset =  XunFeiDataset(train_df['path'].values[:-200], train_df['label'].values[:-200],           
                transforms.Compose([
                    transforms.Resize(224), #256
                    #transforms.RandomHorizontalFlip(),
                    #transforms.RandomCrop(224), 
                    transforms.ToTensor(),
                    transforms.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225))])
                )
    val_dataset = XunFeiDataset(train_df['path'].values[-200:], train_df['label'].values[-200:],            
                transforms.Compose([
                    transforms.Resize(224),
                    transforms.ToTensor(),
                    transforms.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225))])
                )
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14

    2.3.2 定义模型、损失函数和优化函数

    # 模型定义这个跟前面有点不一样
    model = paddle.Model(models.resnet18(pretrained=True,num_classes=24))
    criterion = nn.CrossEntropyLoss()
    optimizer = paddle.optimizer.Adam(learning_rate=0.0001, parameters=model.parameters(),weight_decay=0.1)
    
    # 进行训练前准备
    model.prepare(optimizer, criterion , Accuracy(topk=(1, 5))) #Accuracy(topk=(1, 5))表示输出预测得到Top1和Top5的准确率
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    2.3.3 模型训练

    # 启动训练,更多输入参考官方文档
    model.fit(train_dataset,
              val_dataset,
              epochs=50,
              batch_size=4,
              save_dir="./output", #模型保存路径
              num_workers=0)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    每一轮训练后的模型参数保存在"./output"文件夹下。

    运行后输出以下内容,

    step  10/486 - loss: 3.3036 - acc_top1: 0.0250 - acc_top5: 0.2000 - 323ms/step
    step  20/486 - loss: 3.6178 - acc_top1: 0.0250 - acc_top5: 0.2125 - 239ms/step
    step  30/486 - loss: 3.7559 - acc_top1: 0.0500 - acc_top5: 0.2667 - 213ms/step
    step  40/486 - loss: 3.0506 - acc_top1: 0.0688 - acc_top5: 0.2562 - 198ms/step
    step  50/486 - loss: 3.1231 - acc_top1: 0.0850 - acc_top5: 0.2900 - 189ms/step
    step  60/486 - loss: 3.6662 - acc_top1: 0.0792 - acc_top5: 0.2750 - 183ms/step
    step  70/486 - loss: 3.2053 - acc_top1: 0.0750 - acc_top5: 0.2750 - 178ms/step
    step  80/486 - loss: 1.9316 - acc_top1: 0.0906 - acc_top5: 0.3125 - 175ms/step
    step  90/486 - loss: 3.4731 - acc_top1: 0.0889 - acc_top5: 0.3222 - 173ms/step
    step 100/486 - loss: 3.4838 - acc_top1: 0.0925 - acc_top5: 0.3300 - 171ms/step
    step 110/486 - loss: 3.5857 - acc_top1: 0.0886 - acc_top5: 0.3318 - 170ms/step
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11

    2.3.4 模型评估

    #模型评估
    model.load("./output/48") #加载模型参数
    model.evaluate(val_dataset, verbose=1)
    
    • 1
    • 2
    • 3

    运行后输出以下内容:

    Eval begin...
    step 200/200 [==============================] - loss: 0.0074 - acc_top1: 0.9400 - acc_top5: 0.9950 - 9ms/step           
    Eval samples: 200
    
    • 1
    • 2
    • 3

    2.3.5 模型预测及结果输出

    # 模型预测
    test_dataset = XunFeiDataset(test_df['path'].values, [0] * test_df.shape[0],            
            transforms.Compose([
                    transforms.Resize((224, 224)),        
                    transforms.ToTensor(),
                    transforms.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225))])
                )
    test_result = model.predict(test_dataset,verbose=1)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    label = []
    for i in range(len(test_result[0])):
        label.append(test_result[0][i].argmax())
    pd.DataFrame(    
        {        
            'image': [x.split('/')[-1] for x in test_df['path'].values],        
            'label': label
            }).to_csv('result.csv', index=None)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    三. 最后

    本文提供了图像分类竞赛的三种baseline,对于不同的数据集仅需要修改Dataset中图片和标签的读取方式即可,大家可以在此基础上通过修改特征工程、模型、学习率等操作提升分数,如果大家有好的分数提高的方法麻烦评论或者私信我一起学习分享,谢谢大家!

  • 相关阅读:
    css知识学习系列(4)-每天10个知识点
    SQL语句
    Redis面试题三(集群)
    VESTA软件下载
    Java学习笔记——并发编程(一)
    Linux内存管理(9):HugePage
    【kafka】 查看节点的消息
    【EhCache: 一款Java的进程内缓存框架】EhCache 是什么、代码实战 Demo
    蓝牙运动耳机排行榜,目前排名最好的运动耳机推荐
    (vue)数组对象去重
  • 原文地址:https://blog.csdn.net/cyj972628089/article/details/126241935