• Pytorch入门(3)—— 构造网络模型


    • 参考:动手学深度学习
    • 注意:由于本文是jupyter文档转换来的,代码不一定可以直接运行,有些注释是jupyter给出的交互结果,而非运行结果!!

    1. 模型构造

    • pytorch 没有特别明显地区别 Layer 和 Module 的区别,不管是自定义层、自定义块还是自定义模型,都通过 nn.Module 类实现,它是所有神经网络模块的基类
    • 构造模型时一般有两种选择
      1. 对于简单的模型,直接使用 pytorch 提供的 nn.Module 子类进行构造,比如 SequentialModuleListModuleDict 等等
      2. 对于复杂模型,自己继承 nn.Module,再重新实现构造函数 __init__(定义需要学习的层) 和 forward 方法(定义网络结构),pytorch 会通过自动求梯度功能自动生成反向传播所需的 backward 函数

    1.1 继承 Module 类来构造模型

    • 这里构造一个用于 Fashion-MNIST 分类的,含单隐藏层的多层感知机,它的输入尺寸为图像尺寸 28 ∗ 28 = 784 28*28=784 2828=784,类别总数为 10,有两个全连接层

      1. 隐藏层,输出大小为256(即隐藏单元个数是256)
      2. 输出层,输出大小为10(即输出层单元个数是10)
      import torch
      from torch import nn
      
      class MLP(nn.Module):
          # 声明带有模型参数的层,这里声明了两个全连接层
          def __init__(self, **kwargs):
              super(MLP, self).__init__(**kwargs)
              
              self.hidden = nn.Linear(784, 256) # 隐藏层
              self.act = nn.ReLU()              # 激活函数层
              self.output = nn.Linear(256, 10)  # 输出层
      
          # 定义模型的前向计算,即如何根据输入x计算返回所需要的模型输出
          def forward(self, x):
              x = self.hidden(x)
              x = self.act(x)    # 可以换成 torch.nn.functional.relu(x)
              x = self.output(x)
              return x
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
      • 11
      • 12
      • 13
      • 14
      • 15
      • 16
      • 17
      • 18

      实例化 MLP 类得到模型变量 net,直接 net(X) 就会调用 MLP 继承自 Module 类的 __call__ 函数,这个函数将调用 MLP 类定义的 forward 函数来完成前向计算

      X = torch.rand(2, 784)
      net = MLP()
      print(net)
      net(X)
      
      • 1
      • 2
      • 3
      • 4
      MLP(
        (hidden): Linear(in_features=784, out_features=256, bias=True)
        (act): ReLU()
        (output): Linear(in_features=256, out_features=10, bias=True)
      )
      tensor([[-0.1948, -0.1288,  0.2227,  0.0308,  0.1528, -0.1716,  0.1353, -0.1180,
                0.0011,  0.0678],
              [-0.1717,  0.0203,  0.2850,  0.0811,  0.1573, -0.1836,  0.1892, -0.0589,
               -0.0782,  0.0492]], grad_fn=)
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
    • 重写 __init__forward 函数的一些技巧

      1. __init__ 传入 **kwargs 参数用来初始化父类 nn.Module,这样在构造实例时还可以指定其他函数参数
      2. 有可学习参数的层(如全连接层、卷积层等)通常放在 __init__
      3. 没有可学习参数的层(如激活函数、dropout、BatchNormanation层)可以放在 __init__ 中,也可以在 forward 方法里用 nn.functional 代替

    1.2 Module 的子类

    1.2.1 Sequential

    • Sequential 接收一个 “子模块的有序字典(OrderedDict)”或者“一系列子模块”作为参数来逐一添加 Module 的实例,得到模型的 forward 方法将这些实例按添加的顺序逐一计算,适用于模型的前向计算为简单串联各个层的计算的情况

    • Sequential 中的每个层都是 Module 实例,可以用类似列表的 [] 索引其中的某层,然后也可以类似上面访问其中参数

      net = nn.Sequential(
              nn.Linear(784, 256),
              nn.ReLU(),
              nn.Linear(256, 10), 
              )
      print(net)
      print(net(X))
      print(net[0](X))
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      Sequential(
        (0): Linear(in_features=784, out_features=256, bias=True)
        (1): ReLU()
        (2): Linear(in_features=256, out_features=10, bias=True)
      )
      tensor([[ 0.0496,  0.2121,  0.1022, -0.0463,  0.0296, -0.0083, -0.2182,  0.0396,
               -0.2485,  0.0137],
              [ 0.0525,  0.1603,  0.1662, -0.0540, -0.0024,  0.0356, -0.2116,  0.0876,
               -0.1516,  0.0286]], grad_fn=)
      tensor([[-8.9254e-01, -1.7184e-01,  1.4419e-01,  1.8471e-01,  4.9481e-01,
           -2.2077e-01,  2.9778e-01, -2.6250e-01,  8.2950e-02,  1.9320e-01,
            2.0345e-01, -3.2230e-01,  3.6647e-01, -4.5688e-01, -2.6230e-01,
           -3.6204e-01, -5.2217e-01, -3.0493e-01, -2.5337e-01,  2.0549e-01,
            2.0917e-01,  4.2038e-01, -2.3459e-01, -2.9938e-01, -1.3072e-01,
            ...
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
      • 11
      • 12
      • 13
      • 14
      • 15
    • 下面利用 1.1 节继承 Module 的方法手动模拟 Sequential

      from collections import OrderedDict
      
      class MySequential(nn.Module):
          def __init__(self, *args):
              super(MySequential, self).__init__()
              # 如果传入的是一个OrderedDict
              if len(args) == 1 and isinstance(args[0], OrderedDict): 
                  for key, module in args[0].items():
                      self.add_module(key, module)  # add_module 方法会将 module 添加进 self._modules (一个OrderedDict)
              # 传入的是一些 Module
              else:  
                  for idx, module in enumerate(args):
                      self.add_module(str(idx), module)
                      
          def forward(self, input):
              # self._modules 返回一个 OrderedDict,保证会按照成员添加时的顺序遍历成员
              for module in self._modules.values():
                  input = module(input)
              return input
      
      net = MySequential(
              nn.Linear(784, 256),
              nn.ReLU(),
              nn.Linear(256, 10), 
              )
      print(net)      # 观察网络结构
      print(net(X))   # 做一次前向传播
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
      • 11
      • 12
      • 13
      • 14
      • 15
      • 16
      • 17
      • 18
      • 19
      • 20
      • 21
      • 22
      • 23
      • 24
      • 25
      • 26
      • 27
      MySequential(
        (0): Linear(in_features=784, out_features=256, bias=True)
        (1): ReLU()
        (2): Linear(in_features=256, out_features=10, bias=True)
      )
      tensor([[ 0.1127, -0.1448,  0.0931, -0.0545, -0.1346, -0.0632, -0.1710,  0.0960,
                0.0854,  0.0366],
              [ 0.1646, -0.1410,  0.0664, -0.1529, -0.1392, -0.0145, -0.2894,  0.0927,
                0.1357,  0.0438]], grad_fn=)
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9

    1.2.2 ModuleList

    • ModuleList 接收一个子模块的列表作为输入,可以类似 python List 那样进行 appendextend 操作,它的出现主要是为了让网络定义 forward 时更加灵活,见下面官网的例子

      class MyModule(nn.Module):
          def __init__(self):
              super(MyModule, self).__init__()
              self.linears = nn.ModuleList([nn.Linear(10, 10) for i in range(10)])
      
          def forward(self, x):
              # ModuleList can act as an iterable, or be indexed using ints
              for i, l in enumerate(self.linears):
                  x = self.linears[i // 2](x) + l(x)
              return x
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
    • ModuleList 的特点有

      1. 仅仅是一个储存各种模块的列表,这些模块之间没有联系也没有顺序(所以不用保证相邻层的输入输出维度匹配),这和 Sequential 类不同
      2. 没有实现 forward 功能,需要自己实现(直接执行会报 NotImplementedError
        net = nn.ModuleList([nn.Linear(784, 256), nn.ReLU()])  # 输入为模块列表
        net.append(nn.Linear(256, 10))  # 类似List的append操作
        print(net[-1])                  # 类似List的索引访问
        
        print(net)
        # net(torch.zeros(1, 784))      # 没有实现 forward,做 forward 时报 NotImplementedError
        
        • 1
        • 2
        • 3
        • 4
        • 5
        • 6
        Linear(in_features=256, out_features=10, bias=True)
        ModuleList(
          (0): Linear(in_features=784, out_features=256, bias=True)
          (1): ReLU()
          (2): Linear(in_features=256, out_features=10, bias=True)
        )
        
        • 1
        • 2
        • 3
        • 4
        • 5
        • 6
      3. 不同于Python 内置 list,加入到 ModuleList 里面的所有模块的参数会被自动添加到整个网络中
        class Module_ModuleList(nn.Module):
            def __init__(self):
                super(Module_ModuleList, self).__init__()
                self.linears = nn.ModuleList([nn.Linear(10, 10)])
        
        class Module_List(nn.Module):
            def __init__(self):
                super(Module_List, self).__init__()
                self.linears = [nn.Linear(10, 10)]
        
        net1 = Module_ModuleList()
        net2 = Module_List()
        
        # 加入到 ModuleList 里面的所有模块的参数被添加到 Module 实例中了
        print("net1:")
        for p in net1.parameters():
            print(p.size())
        
        # 加入 python list 中的模块的参数没有添加到 Module 实例中
        print("net2:")
        for p in net2.parameters():
            print(p)
        
        • 1
        • 2
        • 3
        • 4
        • 5
        • 6
        • 7
        • 8
        • 9
        • 10
        • 11
        • 12
        • 13
        • 14
        • 15
        • 16
        • 17
        • 18
        • 19
        • 20
        • 21
        • 22
        net1:
        torch.Size([10, 10])
        torch.Size([10])
        net2:
        
        • 1
        • 2
        • 3
        • 4

        Note:对得到的 Module 类实例调用 .parameters() 方法,这会返回一个生成器,可以按顺序查看网络的参数(同一层先返回 weight 再返回 bias)。详见下面 2.1 节

    1.2.3 ModuleDict

    • ModuleDict 也是为了让网络定义 forward 时更加灵活而出现的,它接受一个子模块的字典作为输入,可以类似 python Dict 那样进行添加访问操作
    • ModuleDict 的特点有
      1. ModuleDict 实例也是仅仅存放了一个模块的字典,这些模块之间没有联系也没有顺序

      2. 不会自动生成 forward 方法,需要自己定义(直接执行会报 NotImplementedError)

        net = nn.ModuleDict({
            'linear': nn.Linear(784, 256),
            'act': nn.ReLU(),
        })
        
        net['output'] = nn.Linear(256, 10) # 类似 python Dict 进行添加
        print(net['linear'])               # 类型 python Dict 进行访问
        print(net.output)                  # 另一种访问 key 'output' 的方法
        
        print(net)
        # net(torch.zeros(1, 784)) # 报NotImplementedError
        
        • 1
        • 2
        • 3
        • 4
        • 5
        • 6
        • 7
        • 8
        • 9
        • 10
        • 11
        Linear(in_features=784, out_features=256, bias=True)
        Linear(in_features=256, out_features=10, bias=True)
        ModuleDict(
          (linear): Linear(in_features=784, out_features=256, bias=True)
          (act): ReLU()
          (output): Linear(in_features=256, out_features=10, bias=True)
        )
        
        • 1
        • 2
        • 3
        • 4
        • 5
        • 6
        • 7
      3. 加入到 ModuleDict 里面的所有模块的参数会被自动添加到整个网络中,python 内置的 Dict 不会

    1.3 构造复杂模型

    • 本节通过继承 Module 类构造一个复杂网络 FancyMLP。其中

      1. 通过 requires_grad=False 创建训练中不被迭代的参数(i.e. 常数参数)
      2. 使用 Tensor 的函数和 Python 控制流多次调用相同的层
      class FancyMLP(nn.Module):
          def __init__(self, **kwargs):
              super(FancyMLP, self).__init__(**kwargs)
      
              self.rand_weight = torch.rand((20, 20), requires_grad=False) # 不可训练参数(常数参数)
              self.linear = nn.Linear(20, 20)                              # 这个线性层参数会被训练
      
          def forward(self, x):
              x = self.linear(x)
              
              # 使用创建的常数参数,以及 nn.functional.relu 和 mm 函数
              x = torch.mm(x, self.rand_weight.data) + 1   # +1 用广播作用到每个元素上
              x = nn.functional.relu(x)
      
              # 复用全连接层。等价于两个全连接层共享参数
              x = self.linear(x)
              
              # 控制流,这里先用 .norm 得到向量的模,再用 .item 来返回标量进行比较
              while x.norm().item() > 1:
                  x /= 2
              if x.norm().item() < 0.8:
                  x *= 10
              return x.sum()
      
      # 打印网络结构,做一次前向传播
      X = torch.rand(2, 20)
      net = FancyMLP()
      print(net)
      net(X)
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
      • 11
      • 12
      • 13
      • 14
      • 15
      • 16
      • 17
      • 18
      • 19
      • 20
      • 21
      • 22
      • 23
      • 24
      • 25
      • 26
      • 27
      • 28
      • 29
      FancyMLP(
        (linear): Linear(in_features=20, out_features=20, bias=True)
      )
      tensor(-0.0572, grad_fn=)
      
      • 1
      • 2
      • 3
      • 4
    • 这里定义的 FancyMLP 作为 Module 的子类,可以进一步和 Sequential 等嵌套使用

      class NestMLP(nn.Module):
          def __init__(self, **kwargs):
              super(NestMLP, self).__init__(**kwargs)
              self.net = nn.Sequential(nn.Linear(40, 30), nn.ReLU()) 
      
          def forward(self, x):
              return self.net(x) # 在自定义 Module 中嵌套使用 Sequential
      
      net = nn.Sequential(NestMLP(), nn.Linear(30, 20), FancyMLP()) # 在 Sequential 中嵌套使用自定义 Module
      
      X = torch.rand(2, 40)
      print(net)
      net(X)
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
      • 11
      • 12
      • 13
      Sequential(
        (0): NestMLP(
          (net): Sequential(
            (0): Linear(in_features=40, out_features=30, bias=True)
            (1): ReLU()
          )
        )
        (1): Linear(in_features=30, out_features=20, bias=True)
        (2): FancyMLP(
          (linear): Linear(in_features=20, out_features=20, bias=True)
        )
      )
      tensor(-0.4674, grad_fn=)
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
      • 11
      • 12
      • 13

    2. 模型参数的访问、初始化和共享

    • 先定义一个含单隐藏层的多层感知机,使用默认方式初始化它的参数,并做一次前向计算(jupyter 文档,后面会用到这里定义的 X,Y,net 等变量)
      import torch
      from torch import nn
      
      net = nn.Sequential(nn.Linear(4, 3), nn.ReLU(), nn.Linear(3, 1))  # pytorch已进行默认初始化
      
      print(net)
      X = torch.rand(2, 4)
      Y = net(X).sum()
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      Sequential(
        (0): Linear(in_features=4, out_features=3, bias=True)
        (1): ReLU()
        (2): Linear(in_features=3, out_features=1, bias=True)
      )
      
      • 1
      • 2
      • 3
      • 4
      • 5
      该网络结构如下所示
      在这里插入图片描述

    2.1 访问模型参数

    • 在 1.2.1 节已经提到过,可以Module 实例调用 .parameters 方法得到一个模型参数的生成器,除此以外,还可以调用 .named_parameters 方法得到一个带名字(含层数前缀)的参数生成器,如下

      print(type(net.parameters()))
      for param in net.parameters():
          print(param.size())
      
      print('\n', type(net.named_parameters()))
      for name, param in net.named_parameters():
          print(name, param.size())
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      
      torch.Size([3, 4])
      torch.Size([3])
      torch.Size([1, 3])
      torch.Size([1])
      
       
      0.weight torch.Size([3, 4])
      0.bias torch.Size([3])
      2.weight torch.Size([1, 3])
      2.bias torch.Size([1])
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
      • 11
    • pytorch 不区分层和模型,用 [] 索引出 Sequential 中的某层,也可以类似上面访问其中参数

      for name, param in net[0].named_parameters():
          print(name, param.size(), type(param))
      
      • 1
      • 2
      weight torch.Size([3, 4]) 
      bias torch.Size([3]) 
      
      • 1
      • 2

      观察输出可见

      1. 只有一个层,参数名字中没有层数索引前缀了
      2. 返回的 param 类型为 torch.nn.parameter.Parameter,这其实这是 Tensor 的子类,如果一个 TensorParameter,那么它会自动被添加到模型的参数列表里
        class MyModel(nn.Module):
            def __init__(self, **kwargs):
                super(MyModel, self).__init__(**kwargs)
                self.weight1 = nn.Parameter(torch.rand(20, 20)) # 直接定义成 Parameter 实例,自动加入模型参数列表
                self.weight2 = torch.rand(20, 20)               # 普通 Tensor 实例不会加入模型参数列表
            def forward(self, x):
                pass
        
        n = MyModel()
        for name, param in n.named_parameters():
            print(name) # 只打印 weight1
        
        • 1
        • 2
        • 3
        • 4
        • 5
        • 6
        • 7
        • 8
        • 9
        • 10
        • 11
    • Parameter 本质是 Tensor,可以做 Tensor 能做的任何操作,比如用 .data 访问参数值,用 .grad 访问参数梯度等

      # 这里 net 是第2节最开始的多层感知机
      weight_0 = list(net[0].parameters())[0] # 拿出第一层的 weight Parameter
      
      print(weight_0.data) # 访问参数值
      print(weight_0.grad) # 反向传播前梯度为 None
      Y.backward()         # 对 net 进行反向传播
      print(weight_0.grad) # 查看反向传播后梯度
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      tensor([[-0.2071, -0.3790, -0.3439, -0.1824],
              [-0.0715, -0.0847, -0.2867,  0.0100],
              [ 0.0529,  0.3474,  0.2165,  0.3396]])
      None
      tensor([[ 0.0000,  0.0000,  0.0000,  0.0000],
              [ 0.0000,  0.0000,  0.0000,  0.0000],
              [-0.1004, -0.1238, -0.0492, -0.0901]])
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7

    2.2 初始化模型参数

    • 模型参数初始化是很重要的一件事,考虑第2节最初的含一个隐藏层的神经网络,假设将每个隐藏单元的参数都初始化为相等的值,由于各个单元的激活函数也一致,那么

      1. 正向传播时每个隐藏单元计算并输出的值都相等
      2. 反向传播时每个隐藏单元的参数梯度值相等,因此这些参数在使用基于梯度的优化算法迭代后值依然相等。之后的迭代也是如此

      可见这种情况下,无论隐藏单元有多少,隐藏层本质上只有1个隐藏单元在发挥作用。因此我们通常将神经网络的模型参数,特别是权重参数,进行随机初始化。

    • pytorch nn.Module 中的模块参数都采取了较为合理的初始化策略,所以其实不考虑初始化问题也是可以的(不同类型的 layer 具体的初始化方式也不同,可以参考源码)。如果一定要用其他方式初始化参数,也有两种途径

    2.2.1 使用 pytorch 自带的初始化方法

    • torch.nn.init 模块里提供了多种预设初始化方法,以下代码来自 Pytorch - nn.init 参数初始化方法

      import torch
      import torch.nn as nn
      from torch.nn import init
      
      w = torch.empty(2, 3)
      
      # 1. 均匀分布 - u(a,b)
      # torch.nn.init.uniform_(tensor, a=0, b=1)
      nn.init.uniform_(w)
      # tensor([[ 0.0578,  0.3402,  0.5034],
      #         [ 0.7865,  0.7280,  0.6269]])
      
      # 2. 正态分布 - N(mean, std)
      # torch.nn.init.normal_(tensor, mean=0, std=1)
      nn.init.normal_(w)
      # tensor([[ 0.3326,  0.0171, -0.6745],
      #        [ 0.1669,  0.1747,  0.0472]])
      
      # 3. 常数 - 固定值 val
      # torch.nn.init.constant_(tensor, val)
      nn.init.constant_(w, 0.3)
      # tensor([[ 0.3000,  0.3000,  0.3000],
      #         [ 0.3000,  0.3000,  0.3000]])
      
      # 4. 对角线为 1,其它为 0
      # torch.nn.init.eye_(tensor)
      nn.init.eye_(w)
      # tensor([[ 1.,  0.,  0.],
      #         [ 0.,  1.,  0.]])
      
      # 5. Dirac delta 函数初始化,仅适用于 {3, 4, 5}-维的 torch.Tensor
      # torch.nn.init.dirac_(tensor)
      w1 = torch.empty(3, 16, 5, 5)
      nn.init.dirac_(w1)
      
      # 6. xavier_uniform 初始化
      # torch.nn.init.xavier_uniform_(tensor, gain=1)
      # From - Understanding the difficulty of training deep feedforward neural networks - Bengio 2010
      nn.init.xavier_uniform_(w, gain=nn.init.calculate_gain('relu'))
      # tensor([[ 1.3374,  0.7932, -0.0891],
      #         [-1.3363, -0.0206, -0.9346]])
      
      # 7. xavier_normal 初始化
      # torch.nn.init.xavier_normal_(tensor, gain=1)
      nn.init.xavier_normal_(w)
      # tensor([[-0.1777,  0.6740,  0.1139],
      #         [ 0.3018, -0.2443,  0.6824]])
      
      # 8. kaiming_uniform 初始化
      # From - Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification - HeKaiming 2015
      # torch.nn.init.kaiming_uniform_(tensor, a=0, mode='fan_in', nonlinearity='leaky_relu')
      nn.init.kaiming_uniform_(w, mode='fan_in', nonlinearity='relu')
      # tensor([[ 0.6426, -0.9582, -1.1783],
      #         [-0.0515, -0.4975,  1.3237]])
      
      # 9. kaiming_normal 初始化
      # torch.nn.init.kaiming_normal_(tensor, a=0, mode='fan_in', nonlinearity='leaky_relu')
      nn.init.kaiming_normal_(w, mode='fan_out', nonlinearity='relu')
      # tensor([[ 0.2530, -0.4382,  1.5995],
      #         [ 0.0544,  1.6392, -2.0752]])
      
      # 10. 正交矩阵 - (semi)orthogonal matrix
      # From - Exact solutions to the nonlinear dynamics of learning in deep linear neural networks - Saxe 2013
      # torch.nn.init.orthogonal_(tensor, gain=1)
      nn.init.orthogonal_(w)
      # tensor([[ 0.5786, -0.5642, -0.5890],
      #         [-0.7517, -0.0886, -0.6536]])
      
      # 11. 稀疏矩阵 - sparse matrix 
      # 非零元素采用正态分布 N(0, 0.01) 初始化.
      # From - Deep learning via Hessian-free optimization - Martens 2010
      # torch.nn.init.sparse_(tensor, sparsity, std=0.01)
      nn.init.sparse_(w, sparsity=0.1)
      # tensor(1.00000e-03 *
      #        [[-0.3382,  1.9501, -1.7761],
      #         [ 0.0000,  0.0000,  0.0000]])
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
      • 11
      • 12
      • 13
      • 14
      • 15
      • 16
      • 17
      • 18
      • 19
      • 20
      • 21
      • 22
      • 23
      • 24
      • 25
      • 26
      • 27
      • 28
      • 29
      • 30
      • 31
      • 32
      • 33
      • 34
      • 35
      • 36
      • 37
      • 38
      • 39
      • 40
      • 41
      • 42
      • 43
      • 44
      • 45
      • 46
      • 47
      • 48
      • 49
      • 50
      • 51
      • 52
      • 53
      • 54
      • 55
      • 56
      • 57
      • 58
      • 59
      • 60
      • 61
      • 62
      • 63
      • 64
      • 65
      • 66
      • 67
      • 68
      • 69
      • 70
      • 71
      • 72
      • 73
      • 74
      • 75
      • 76
    • 下面将权重参数初始化成服从 N ( 0 , 0.0 1 2 ) N(0,0.01^2) N(0,0.012) 的随机数,将偏置初始化为常数

      for name, param in net.named_parameters():
          if 'weight' in name:
              init.normal_(param, mean=0, std=0.01)
              print(name, param.data)
          if 'bias' in name:
              init.constant_(param, val=0)
              print(name, param.data)
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      0.weight tensor([[-0.0171, -0.0112,  0.0001, -0.0026],
              [ 0.0006,  0.0125, -0.0181,  0.0049],
              [-0.0083, -0.0032, -0.0037,  0.0103]])
      0.bias tensor([0., 0., 0.])
      2.weight tensor([[ 0.0071, -0.0074, -0.0086]])
      2.bias tensor([0.])
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6

    2.2.2 自定义初始化方法

    • 如果我们需要的初始化方法没有在 init 模块中提供,可以自己手动实现一个初始化方法,从而能够像使用其他初始化方法那样使用它

    • 我们先来看看 PyTorch 是怎么实现内置初始化方法的,例如 torch.nn.init.normal_

      def normal_(tensor, mean=0, std=1):
          with torch.no_grad():
              return tensor.normal_(mean, std)
      
      • 1
      • 2
      • 3

      可以看到这就是一个 inplace 改变 Tensor 值的函数,而且这个过程是不记录梯度的。 我们可以类似地实现一个自定义初始化方法。下面我们令权重有一半概率初始化为 0,有另一半概率初始化为 [ − 10 , − 5 ] [−10,−5] [10,5] [ 5 , 10 ] [5,10] [5,10] 两个区间里均匀分布的随机数

      def init_weight_(tensor):
          with torch.no_grad():
              tensor.uniform_(-10, 10)
              tensor *= (tensor.abs() >= 5).float()
      
      for name, param in net.named_parameters():
          if 'weight' in name:
              init_weight_(param)
              print(name, param.data)
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      0.weight tensor([[ 0.0000,  0.0000,  0.0000, -0.0000],
              [-5.3037,  9.3310,  0.0000,  0.0000],
              [ 0.0000,  7.8593, -0.0000,  0.0000]])
      2.weight tensor([[-6.5195,  0.0000,  0.0000]])
      
      • 1
      • 2
      • 3
      • 4
    • 另外考虑到 Parameter 本质是 Tensor,我们还可以通过改变这些参数的 .data,在不影响梯度的情况下改写模型参数值

      for name, param in net.named_parameters():
          if 'bias' in name:
              param.data += 1
              print(name, param.data)
      
      • 1
      • 2
      • 3
      • 4
      0.bias tensor([1., 1., 1.])
      2.bias tensor([1.])
      
      • 1
      • 2

    2.3 共享模型参数

    • 有时我们想在多个层之间共享参数,因为模型参数里包含了梯度,所以在反向传播计算时,这些共享的参数的梯度是累加的
    • 有两种共享参数的方法
      1. Moduleforward 方法中多次调用同一个层

        class SharePara(nn.Module):
            def __init__(self, **kwargs):
                super(SharePara, self).__init__(**kwargs)
                self.linear = nn.Linear(1, 1, bias=False)
        
            def forward(self, x):
                x = self.linear(x)
                x = self.linear(x)
                return x
            
        net = SharePara() 
        print(net)
        
        for name, param in net.named_parameters():
            init.constant_(param, val=3)
            print(name, param.data)
        
        • 1
        • 2
        • 3
        • 4
        • 5
        • 6
        • 7
        • 8
        • 9
        • 10
        • 11
        • 12
        • 13
        • 14
        • 15
        • 16
        SharePara(
          (linear): Linear(in_features=1, out_features=1, bias=False)
        )
        linear.weight tensor([[3.]])
        
        • 1
        • 2
        • 3
        • 4
        x = torch.ones(3,1)
        print(net(x))
        
        y = net(x).sum()
        print(y)
        y.backward()
        print(net.linear.weight.grad) # 单次梯度是3,每个样本算两次为6,三个样本一共18
        
        • 1
        • 2
        • 3
        • 4
        • 5
        • 6
        • 7
        tensor([[9.],
                [9.],
                [9.]], grad_fn=)
        tensor(27., grad_fn=)
        tensor([[18.]])
        
        • 1
        • 2
        • 3
        • 4
        • 5
      2. 将同一个 Module 实例多次传入 Sequential 模块

        linear = nn.Linear(1, 1, bias=False)
        
        net = nn.Sequential(linear, linear) 
        print(net)
        
        for name, param in net.named_parameters():
            init.constant_(param, val=3)
            print(name, param.data)
        
        • 1
        • 2
        • 3
        • 4
        • 5
        • 6
        • 7
        • 8
        Sequential(
          (0): Linear(in_features=1, out_features=1, bias=False)
          (1): Linear(in_features=1, out_features=1, bias=False)
        )
        0.weight tensor([[3.]])
        
        • 1
        • 2
        • 3
        • 4
        • 5
        x = torch.ones(3,1)
        print(net(x))
        
        y = net(x).sum()
        print(y)
        y.backward()
        print(net[0].weight.grad) # 单次梯度是3,每个样本算两次为6,三个样本一共18
        
        • 1
        • 2
        • 3
        • 4
        • 5
        • 6
        • 7
        tensor([[9.],
                [9.],
                [9.]], grad_fn=)
        tensor(27., grad_fn=)
        tensor([[18.]])
        
        • 1
        • 2
        • 3
        • 4
        • 5

    3. 自定义层

    • 现代术语“深度学习”诉诸于学习多层次组合这一普遍原理。理论上讲,“宽度学习”(使用足够宽的单隐藏层神经网络)也能拟合任何形状的目标函数,但是其需要的参数量要远多于将神经元进行层次组合的“深度学习”。“深度学习”的模型表示更加“高效”,这样模型复杂度就可以相对低,在不发生过拟合的前提下,尽量减少对数据量的要求
    • pytorch 中不区分“层”、“块”和“模型”,都统一用 nn.Module 库实现

    3.1 不含模型参数的自定义层

    • 如果一个层中不含可训练参数,比如 ReLU、dropout、BatchNormanation 等,则它和之前 1.1 节定义的模型类似,可以通过继承 nn.Module 类并重写 __init__forward 函数来实现。下面的 CenteredLayer 自定义了一个将输入减掉均值后输出的层,层的计算定义在 forward 函数里,该层不含模型参数

      import torch
      from torch import nn
      
      class CenteredLayer(nn.Module):
          def __init__(self, **kwargs):
              super(CenteredLayer, self).__init__(**kwargs)
          def forward(self, x):
              return x - x.mean()
      
      layer = CenteredLayer()
      layer(torch.tensor([1, 2, 3, 4, 5], dtype=torch.float))
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
      • 11
      tensor([-2., -1.,  0.,  1.,  2.])
      
      • 1
    • 自定义层可以和其他层、块等混合使用,构造更复杂的模型

      net = nn.Sequential(nn.Linear(8, 128), CenteredLayer())
      y = net(torch.rand(4, 8))
      y.mean().item()  # 返回 1.862645149230957e-09,加上 CenteredLayer 后输出小了好几个数量级
      
      • 1
      • 2
      • 3

    3.2 含模型参数的自定义层

    • 2.1.1 节已经介绍了 Tensor 的子类 Parameter如果一个 TensorParameter,那么它会自动被添加到模型的参数列表里,所以在自定义含模型参数的层时,我们应该将参数定义成 Parameter。具体来说有三种定义方法

      1. 直接像 2.1.1 节一样将参数定义为 Parameter 类的实例,如 self.weight1 = nn.Parameter(torch.rand(20, 20))

      2. 使用 ParameterList 定义参数的列表。它接收一个 Parameter 实例列表作为输入,得到一个 ParameterList 实例,使用的时候可以用索引来访问某个参数,也可像 python list 一样使用 appendextend 在列表后面新增参数

        class MyListDense(nn.Module):
            def __init__(self):
                super(MyListDense, self).__init__()
                self.params = nn.ParameterList([nn.Parameter(torch.randn(4, 4)) for i in range(3)]) # 有三个 Parameter 实例的 ParameterList
                self.params.append(nn.Parameter(torch.randn(4, 1)))                                  # 再添加一个 Parameter 实例
        
            def forward(self, x):
                for i in range(len(self.params)):
                    x = torch.mm(x, self.params[i])
                return x
            
        net = MyListDense()
        print(net)
        
        • 1
        • 2
        • 3
        • 4
        • 5
        • 6
        • 7
        • 8
        • 9
        • 10
        • 11
        • 12
        • 13
        MyListDense(
          (params): ParameterList(
              (0): Parameter containing: [torch.FloatTensor of size 4x4]
              (1): Parameter containing: [torch.FloatTensor of size 4x4]
              (2): Parameter containing: [torch.FloatTensor of size 4x4]
              (3): Parameter containing: [torch.FloatTensor of size 4x1]
          )
        )
        
        • 1
        • 2
        • 3
        • 4
        • 5
        • 6
        • 7
        • 8
      3. 使用 ParameterDict 定义参数的字典。它接收一个 Parameter 实例的字典作为输入,得到一个 ParameterDict 实例,使用时可以按照字典的规则使用了,如使用 update() 新增参数,使用 keys() 返回所有键值,使用 items() 返回所有键值对等等。详见 官方文档

        class MyDictDense(nn.Module):
            def __init__(self):
                super(MyDictDense, self).__init__()
                self.params = nn.ParameterDict({                             
                        'linear1': nn.Parameter(torch.randn(4, 4)),
                        'linear2': nn.Parameter(torch.randn(4, 1))
                })                                                               # 有两个 Parameter 实例的 ParameterDict
                self.params.update({'linear3': nn.Parameter(torch.randn(4, 2))}) # 新增
        
            def forward(self, x, choice='linear1'):
                return torch.mm(x, self.params[choice])
        
        net = MyDictDense()
        print(net)
        
        print('\n可以根据键值选择层进行前向传播')
        x = torch.ones(1, 4)
        print(net(x, 'linear1'))
        print(net(x, 'linear2'))
        print(net(x, 'linear3'))
        
        • 1
        • 2
        • 3
        • 4
        • 5
        • 6
        • 7
        • 8
        • 9
        • 10
        • 11
        • 12
        • 13
        • 14
        • 15
        • 16
        • 17
        • 18
        • 19
        • 20
        MyDictDense(
          (params): ParameterDict(
              (linear1): Parameter containing: [torch.FloatTensor of size 4x4]
              (linear2): Parameter containing: [torch.FloatTensor of size 4x1]
              (linear3): Parameter containing: [torch.FloatTensor of size 4x2]
          )
        )
        
        可以根据键值选择层进行前向传播
        tensor([[-1.3125,  3.8159,  2.0206,  0.2005]], grad_fn=)
        tensor([[-0.2396]], grad_fn=)
        tensor([[-0.3586, -1.7440]], grad_fn=)
        
        • 1
        • 2
        • 3
        • 4
        • 5
        • 6
        • 7
        • 8
        • 9
        • 10
        • 11
        • 12
    • 自定义层可以和其他层、块等混合使用,构造更复杂的模型

      net = nn.Sequential(
          MyDictDense(),
          MyListDense(),
      )
      print(net)
      print(net(x))
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      Sequential(
        (0): MyDictDense(
          (params): ParameterDict(
              (linear1): Parameter containing: [torch.FloatTensor of size 4x4]
              (linear2): Parameter containing: [torch.FloatTensor of size 4x1]
              (linear3): Parameter containing: [torch.FloatTensor of size 4x2]
          )
        )
        (1): MyListDense(
          (params): ParameterList(
              (0): Parameter containing: [torch.FloatTensor of size 4x4]
              (1): Parameter containing: [torch.FloatTensor of size 4x4]
              (2): Parameter containing: [torch.FloatTensor of size 4x4]
              (3): Parameter containing: [torch.FloatTensor of size 4x1]
          )
        )
      )
      tensor([[-7.0746]], grad_fn=)
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      • 8
      • 9
      • 10
      • 11
      • 12
      • 13
      • 14
      • 15
      • 16
      • 17
      • 18
  • 相关阅读:
    网络钓鱼攻击飙升,265个品牌在2022年上半年被冒充
    结构体对齐规则
    SSM+Vue+Element-UI实现教资考前指导系统
    【vue项目适配可借助于插件lib-flexible 和postcss-px2rem】
    Android ActionBar添加返回按钮
    【视频异常检测】Diversity-Measurable Anomaly Detection 论文阅读
    Databend 数据集成方案 | Data Infra 第 15 期
    华为机试真题 C++ 实现【水仙花数II(字符串分割)】
    一个简单而优雅的C++线程池
    Sentinel概述
  • 原文地址:https://blog.csdn.net/wxc971231/article/details/126841885