【机器学习合集】人脸表情分类任务Pytorch实现&TensorBoardX的使用 -＞（个人学习记录笔记）

人脸表情分类任务

注意：整个项目来自阿里云天池，下面是开发人员的联系方式，本人仅作为学习记录！！！
该文章原因，学习该项目，完善注释内容，针对新版本的Pytorch进行部分代码调整
本文章采用pytorch2.0.1版本，python3.10版本

这是一个使用pytorch实现的简单的2分类任务
项目结构：
    - net.py: 网络定义脚本
    - train.py：模型训练脚本
    - inference.py：模型推理脚本
    - run_train.sh 训练可执行文件
    - run_inference.sh 推理可执行文件
    
# Copyright 2019 longpeng2008. All Rights Reserved.
# Licensed under the Apache License, Version 2.0 (the "License");
# If you find any problem,please contact us longpeng2008to2012@gmail.com 
1
2
3
4
5
6
7
8
9
10
11

1. 网络结构

# coding:utf8

import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np

# 3层卷积神经网络simpleconv3定义
# 包括3个卷积层，3个BN层，3个ReLU激活层，3个全连接层

class simpleconv3(nn.Module):
    # 初始化函数
    def __init__(self, nclass):
        # 继承父类
        super(simpleconv3, self).__init__()
        # 3通道 输入图片大小为3*48*48，输出特征图大小为12*23*23，卷积核大小为3*3，步长为2
        '''
            输出特征图大小 = [(输入大小 - 卷积核大小) / 步长] + 1
            输入大小是 48x48
            卷积核大小是 3x3
            步长是 2
            将这些值代入公式，您将得到输出特征图的大小：
            输出特征图大小 = [(48 - 3) / 2] + 1 = (45 / 2) + 1 = 22.5 + 1 = 23
        '''
        self.conv1 = nn.Conv2d(3, 12, 3, 2)
        # 批量标准化操作 12个特征通道
        self.bn1 = nn.BatchNorm2d(12)
        # 输入图片大小为12*23*23，输出特征图大小为24*11*11，卷积核大小为3*3，步长为2
        '''
            输出特征图大小 = [(输入大小 - 卷积核大小) / 步长] + 1
            输入大小是 23x23
            卷积核大小是 3x3
            步长是 2
            将这些值代入公式，您将得到输出特征图的大小：
            输出特征图大小 = [(23 - 3) / 2] + 1 = (20 / 2) + 1 = 10 + 1 = 11
        '''
        self.conv2 = nn.Conv2d(12, 24, 3, 2)
        # 批量标准化操作 24个特征通道
        self.bn2 = nn.BatchNorm2d(24)
        # 输入图片大小为24*11*11，输出特征图大小为48*5*5，卷积核大小为3*3，步长为2
        '''
            输出特征图大小 = [(输入大小 - 卷积核大小) / 步长] + 1
            输入大小是 11x11
            卷积核大小是 3x3
            步长是 2
            将这些值代入公式，您将得到输出特征图的大小：
            输出特征图大小 = [(11 - 3) / 2] + 1 = (8 / 2) + 1 = 4 + 1 = 5
        '''
        self.conv3 = nn.Conv2d(24, 48, 3, 2)
        # 批量标准化操作 48个特征通道
        self.bn3 = nn.BatchNorm2d(48)
        # 输入向量长为48*5*5=1200，输出向量长为1200 展平
        self.fc1 = nn.Linear(48 * 5 * 5, 1200)
        # 1200 -> 128
        self.fc2 = nn.Linear(1200, 128)  # 输入向量长为1200，输出向量长为128
        # 128 -> 类别数
        self.fc3 = nn.Linear(128, nclass)  # 输入向量长为128，输出向量长为nclass，等于类别数

    # 前向函数
    def forward(self, x):
        # relu函数，不需要进行实例化，直接进行调用
        # conv，fc层需要调用nn.Module进行实例化
        # 先卷积后标准化再激活
        x = F.relu(self.bn1(self.conv1(x)))
        x = F.relu(self.bn2(self.conv2(x)))
        x = F.relu(self.bn3(self.conv3(x)))
        # 更改形状 改为1维
        x = x.view(-1, 48 * 5 * 5)
        # 全连接再激活
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x


if __name__ == '__main__':
    import torch
    x = torch.randn(1, 3, 48, 48)
    model = simpleconv3(2)
    y = model(x)
    print(model)
    '''
    simpleconv3(
          (conv1): Conv2d(3, 12, kernel_size=(3, 3), stride=(2, 2))
          (bn1): BatchNorm2d(12, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          (conv2): Conv2d(12, 24, kernel_size=(3, 3), stride=(2, 2))
          (bn2): BatchNorm2d(24, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          (conv3): Conv2d(24, 48, kernel_size=(3, 3), stride=(2, 2))
          (bn3): BatchNorm2d(48, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          (fc1): Linear(in_features=1200, out_features=1200, bias=True)
          (fc2): Linear(in_features=1200, out_features=128, bias=True)
          (fc3): Linear(in_features=128, out_features=2, bias=True)
    )
    '''
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94

2. 训练函数

部分代码内容与作者不同

scheduler.step()与optimizer.step()修改前后顺序
RandomSizedCrop改为RandomCrop
transforms.Scale修改为transforms.Resize

# coding:utf8
from __future__ import print_function, division
import os
import torch
import torch.nn as nn
import torch.optim as optim
# 使用tensorboardX进行可视化
from tensorboardX import SummaryWriter
from torch.optim import lr_scheduler
from torchvision import datasets, transforms

from net import simpleconv3

writer = SummaryWriter('logs')  # 创建一个SummaryWriter的示例，默认目录名字为runs

# 训练主函数
def train_model(model, criterion, optimizer, scheduler, num_epochs=25):
    """
    训练模型
    Args:
        model: 模型
        criterion: loss函数
        optimizer: 优化器
        scheduler: 学习率调度器
        num_epochs: 训练轮次
    Returns:
    """
    # 开始训练
    for epoch in range(num_epochs):
        # 打印训练轮次
        print(f'Epoch {epoch+1}/{num_epochs}')
        for phase in ['train', 'val']:
            if phase == 'train':
                # 设置为训练模式
                model.train(True)
            else:
                # 设置为验证模式
                model.train(False)
            # 损失变量
            running_loss = 0.0
            # 精度变量
            running_accs = 0.0
            number_batch = 0
            # 从dataloaders中获得数据
            for data in dataloaders[phase]:
                inputs, labels = data
                if use_gpu:
                    inputs = inputs.cuda()
                    labels = labels.cuda()
                # 清空梯度
                optimizer.zero_grad()
                # 前向运行
                outputs = model(inputs)
                # 使用max()函数对输出值进行操作，得到预测值索引
                _, preds = torch.max(outputs.data, 1)
                # 计算损失
                loss = criterion(outputs, labels)
                if phase == 'train':
                    # 误差反向传播
                    loss.backward()
                    # 参数更新
                    optimizer.step()
                running_loss += loss.data.item()
                running_accs += torch.sum(preds == labels).item()
                number_batch += 1
            # 调整学习率
            scheduler.step()
            # 得到每一个epoch的平均损失与精度
            epoch_loss = running_loss / number_batch
            epoch_acc = running_accs / dataset_sizes[phase]

            # 收集精度和损失用于可视化
            if phase == 'train':
                writer.add_scalar('data/trainloss', epoch_loss, epoch)
                writer.add_scalar('data/trainacc', epoch_acc, epoch)
            else:
                writer.add_scalar('data/valloss', epoch_loss, epoch)
                writer.add_scalar('data/valacc', epoch_acc, epoch)

            print('{} Loss: {:.4f} Acc: {:.4f}'.format(
                phase, epoch_loss, epoch_acc))
    writer.close()
    return model


if __name__ == '__main__':

    # 图像统一缩放大小
    image_size = 60
    # 图像裁剪大小，即训练输入大小
    crop_size = 48
    # 分类类别数
    nclass = 2
    # 创建模型
    model = simpleconv3(nclass)
    # 数据目录
    data_dir = './data'

    # 模型缓存接口
    if not os.path.exists('models'):
        os.mkdir('models')

    # 检查GPU是否可用，如果是使用GPU，否使用CPU
    use_gpu = torch.cuda.is_available()
    if use_gpu:
        model = model.cuda()
    print(model)

    # 创建数据预处理函数，训练预处理包括随机裁剪缩放、随机翻转、归一化，验证预处理包括中心裁剪，归一化
    data_transforms = {
        'train': transforms.Compose([
            transforms.RandomCrop(48),  # 随机大小、长宽比裁剪图片size=48 RandomSizedCrop改为RandomCrop
            transforms.RandomHorizontalFlip(),  # 随机水平翻转 默认概率p=0.5
            transforms.ToTensor(),  # 将原始的PILImage格式或者numpy.array格式的数据格式化为可被pytorch快速处理的张量类型
            transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])  # 数据标准化 要将图像三个通道的数据 整理到 [-1,1] 之间 ，可以加快模型的收敛
        ]),
        'val': transforms.Compose([
            transforms.Resize(64),  # Scale用于调整图像的大小，现在采用transforms.Resize()代替
            transforms.CenterCrop(48),  # 从图像中心裁剪图片尺寸size=48
            transforms.ToTensor(),
            transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])
        ]),
    }

    # 使用torchvision的dataset ImageFolder接口读取数据
    image_datasets = {x: datasets.ImageFolder(os.path.join(data_dir, x), data_transforms[x]) for x in ['train', 'val']}

    # 创建数据指针，设置batch大小，shuffle，多进程数量
    dataloaders = {x: torch.utils.data.DataLoader(image_datasets[x],
                                                  batch_size=16,  # 每个小批次包含16个样本
                                                  shuffle=True,   # 是否随机打乱数据
                                                  num_workers=4)  # 加载数据的子进程数
                   for x in ['train', 'val']}
    # 获得数据集大小
    dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'val']}

    # 优化目标使用交叉熵，优化方法使用带动量项的SGD，学习率迭代策略为step，每隔100个epoch，变为原来的0.1倍
    criterion = nn.CrossEntropyLoss()
    # 优化器 传入权重阈值，学习率0.1 动量（momentum）是一个控制梯度下降方向的超参数。
    # 它有助于加速训练，特别是在存在平坦区域或局部极小值时。动量的值通常在0到1之间。较大的动量值会使参数更新更平滑。在这里，动量设置为0.9。
    optimizer_ft = optim.SGD(model.parameters(), lr=0.1, momentum=0.9)

    '''
    
    lr_scheduler.StepLR 是PyTorch中的学习率调度器（learning rate scheduler），用于在训练神经网络时动态调整学习率。
    lr_scheduler.StepLR 允许您在训练的不同阶段逐步减小学习率，以帮助优化过程。
    optimizer_ft：这是您用于优化模型参数的优化器，通常是 optim.SGD 或其他PyTorch优化器的实例。
                学习率调度器将监控这个优化器的状态，并根据其规则更新学习率。
    step_size=100：这是学习率更新的周期，也称为学习率下降步数。在每个 step_size 个训练周期之后，学习率将减小。
            gamma=0.1：这是学习率减小的因子。在每个 step_size 个训练周期之后，学习率将乘以 gamma。这意味着学习率将以 gamma 的倍数逐步减小。
    '''
    exp_lr_scheduler = lr_scheduler.StepLR(optimizer_ft, step_size=100, gamma=0.1)

    model = train_model(model=model,
                        criterion=criterion,
                        optimizer=optimizer_ft,
                        scheduler=exp_lr_scheduler,
                        num_epochs=10)

    torch.save(model.state_dict(), 'models/model.pt')
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160

3. 预测

执行以下内容，或者自行安排数据集

## 使用方法 python3 inference.py 模型路径 图片路径
python3 inference.py models/model.pt data/train/0/1neutral.jpg
python3 inference.py models/model.pt data/train/1/1smile.jpg
1
2
3

# coding:utf8

import sys
import numpy as np
import torch
from PIL import Image
from torchvision import transforms

# 全局变量
# sys.argv[1] 权重文件
# sys.argv[2] 图像文件夹

testsize = 48  # 测试图大小
from net import simpleconv3

# 定义模型
net = simpleconv3(2)
# 设置推理模式，使得dropout和batchnorm等网络层在train和val模式间切换
net.eval()
# 停止autograd模块的工作，以起到加速和节省显存
torch.no_grad()

# 载入模型权重
modelpath = sys.argv[1]
net.load_state_dict(torch.load(modelpath, map_location=lambda storage, loc: storage))

# 定义预处理函数
data_transforms = transforms.Compose([
    transforms.Resize(48),
    transforms.ToTensor(),
    transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])])

# 读取3通道图片，并扩充为4通道tensor
imagepath = sys.argv[2]
image = Image.open(imagepath)
imgblob = data_transforms(image).unsqueeze(0)

# 获得预测结果predict，得到预测的标签值label
predict = net(imgblob)
index = np.argmax(predict.detach().numpy())
# print(predict)
# print(index)

if index == 0:
    print('the predict of ' + sys.argv[2] + ' is ' + str('none'))
else:
    print('the predict of ' + sys.argv[2] + ' is ' + str('smile'))
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47

4. TensorBoardX的使用

TensorBoardX 是一个用于在 PyTorch 中可视化训练过程和结果的工具。它是 TensorBoard 的 Python 版本，用于创建交互式、实时的训练和评估图表。以下是一些使用 TensorBoardX 的一般步骤：

安装 TensorBoardX：首先，您需要安装 TensorBoardX 库。您可以使用以下命令安装它：
```
pip install tensorboardX
1
```
导入库：在您的 PyTorch 代码中，导入 TensorBoardX 库：
```
from tensorboardX import SummaryWriter
1
```
创建 SummaryWriter：创建一个 SummaryWriter 对象，以将日志数据写入 TensorBoard 日志目录。
```
writer = SummaryWriter()
1
```

记录数据：在训练循环中，使用 writer.add_* 方法来记录各种数据，例如标量、图像、直方图等。以下是一些示例：

记录标量数据：

writer.add_scalar('loss', loss, global_step)
1

记录图像数据：

writer.add_image('image', image, global_step)
1

记录直方图数据：

writer.add_histogram('weights', model.conv1.weight, global_step)
1

记录文本数据：

writer.add_text('description', 'This is a description.', global_step)
1

启动 TensorBoard 服务器：在命令行中，使用以下命令启动 TensorBoard 服务器：
```
tensorboard --logdir=/path/to/log/directory
1
```
其中 /path/to/log/directory 是存储 TensorBoardX 日志的目录。
查看可视化结果：在浏览器中打开 TensorBoard 的 Web 界面，通常位于 http://localhost:6006，您可以在该界面上查看可视化结果。

请注意，您可以根据需要记录不同类型的数据，并根据训练过程的不同阶段定期记录数据。TensorBoardX 提供了丰富的可视化工具，以帮助您监视和分析模型的训练过程。

确保在训练循环中适时记录数据，并使用 TensorBoardX 查看结果，以更好地理解和改进您的深度学习模型。

这是 TensorBoard 启动时的一般信息，表明TensorBoard运行在本地主机（localhost）。如果您想使 TensorBoard 可以在网络上访问，可以采取以下几种方法：

使用代理：您可以使用代理服务器来将 TensorBoard 的端口暴露到网络上。这通常需要在代理服务器上进行一些配置，以便外部用户可以访问 TensorBoard。代理服务器可以是诸如 Nginx 或 Apache 之类的 Web 服务器。
使用 --bind_all 参数：在启动 TensorBoard 时，您可以使用 --bind_all 参数，以将 TensorBoard 绑定到所有网络接口。这样，TensorBoard 将可以在本地网络上的任何 IP 地址上访问，而不仅仅是本地主机。例如：
```
tensorboard --logdir=/path/to/log/directory --bind_all
1
```
使用 --host 参数：您还可以使用 --host 参数来指定 TensorBoard 的主机名（hostname），以使其在指定的主机上可用。例如：
```
tensorboard --logdir=/path/to/log/directory --host=0.0.0.0
1
```
这将允许 TensorBoard 在所有网络接口上运行，从而在网络上的任何 IP 地址上访问。

请根据您的需求和网络设置选择适当的方法。如果只需要在本地访问 TensorBoard，无需进行任何更改。如果需要在网络上访问，可以使用上述选项之一。不过，请注意，为了安全起见，最好将 TensorBoard 限制在受信任的网络上，或者使用身份验证和授权来保护访问。

效果展示
在这里插入图片描述

相关阅读:
WordPress简单好看的线报主题模板源码
 【单片机】12-串口通信和RS485
JSP include能包含html页面吗？
超详细反编译python打包的exe
web网页设计实例作业HTML+CSS+JavaScript蔬菜水果商城购物设计
 C++类与对象二
 什么是跨域问题？如何解决？
任务流之间的调度依赖
 【2】贪心算法-综述
 C#使用自定义的泛型节点类 Node＜T＞实现二叉树类BinaryTree＜T＞及其方法
原文地址：https://blog.csdn.net/Slience_me/article/details/134064678