• 《动手学深度学习 Pytorch版》 6.3 填充和步幅


    6.3.1 填充

    虽然我们用的卷积核较小,每次只会丢失几像素,但是如果应用多层连续的卷积层,累积的像素丢失就会很多。解决此问题的方法为填充。

    填充后的输出形状将为 ( n h − k h + p h + 1 ) × ( n w − k w + p w + 1 ) (n_h-k_h+p_h+1)\times(n_w-k_w+p_w+1) (nhkh+ph+1)×(nwkw+pw+1)

    import torch
    from torch import nn
    
    def comp_conv2d(conv2d, X):
        X = X.reshape((1, 1) + X.shape)  # 批量大小和通道数都是1(此处为元组拼接)
        Y = conv2d(X)
        return Y.reshape(Y.shape[2:])  # 再忽略前两个维度
    
    conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1)
    X = torch.rand(size=(8, 8))
    comp_conv2d(conv2d, X).shape  # 如果无填充则是 (6,6)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    torch.Size([8, 8])
    
    • 1
    conv2d = nn.Conv2d(1, 1, kernel_size=(5, 3), padding=(2, 1))  # 也可以填充不同的高度和宽度
    comp_conv2d(conv2d, X).shape  # 若不填充则为 (4, 6)
    
    • 1
    • 2
    torch.Size([8, 8])
    
    • 1

    6.3.2 步幅

    conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1, stride=2)  # 步幅为2则宽度高度减半
    comp_conv2d(conv2d, X).shape
    
    • 1
    • 2
    torch.Size([4, 4])
    
    • 1

    引入步幅后输出的形状应为 ⌊ ( n h − k h + p h + s h ) / s h ⌋ × ⌊ ( n w − k w + p w + s w ) / s w ⌋ \left\lfloor(n_h-k_h+p_h+s_h)/s_h\right\rfloor\times\left\lfloor(n_w-k_w+p_w+s_w)/s_w\right\rfloor (nhkh+ph+sh)/sh×(nwkw+pw+sw)/sw

    conv2d = nn.Conv2d(1, 1, kernel_size=(3, 5), padding=(0, 1), stride=(3, 4))  # 实际实践中很少使用不一致的步幅或填充
    comp_conv2d(conv2d, X).shape
    
    • 1
    • 2
    torch.Size([2, 2])
    
    • 1

    练习

    (1)对于本节中的最后一个示例,计算其输出形状,以查看它是否于实验结果一致。

    ( 高度 × 宽度 ) = ⌊ ( n h − k h + p h + s h ) / s h ⌋ × ⌊ ( n w − k w + p w + s w ) / s w ⌋ = ⌊ ( 8 − 3 + 0 + 3 ) / 3 ⌋ × ⌊ ( 8 − 5 + 1 + 4 ) / 4 ⌋ = ⌊ 8 / 3 ⌋ × ⌊ 8 / 4 ⌋ = ( 2 × 2 ) \begin{align} \left(高度\times宽度\right)&=\left\lfloor(n_h-k_h+p_h+s_h)/s_h\right\rfloor\times\left\lfloor(n_w-k_w+p_w+s_w)/s_w\right\rfloor\\ &= \left\lfloor(8-3+0+3)/3\right\rfloor\times\left\lfloor(8-5+1+4)/4\right\rfloor\\ &= \left\lfloor8/3\right\rfloor\times\left\lfloor8/4\right\rfloor\\ &= (2\times2) \end{align} (高度×宽度)=(nhkh+ph+sh)/sh×(nwkw+pw+sw)/sw=(83+0+3)/3×(85+1+4)/4=8/3×8/4=(2×2)


    (2)对本节中的实验中,试一试其他填充和步幅的组合。


    (3)对于音频信号,步幅为2说明什么?

    类似于计组里学的对信号进行采样。


    (4)步幅大于1的计算优势是什么?

    减少计算量。

  • 相关阅读:
    网络安全(黑客)自学
    JDK - 常用的设计模式
    深度分享:OLAP CUBE、空间换时间、MDX(下)
    Flutter 中的 Crypto 库介绍及使用
    企业计算机服务器中了mallox勒索病毒怎么解决,勒索病毒解密文件恢复
    Java解析Json格式数据
    网络编程(三)UDP TFTP协议
    PMP认证证书的续证费用是多少?
    Qt学习17 对话框及其类型
    有没有遇到el-date-picker的清空之坑
  • 原文地址:https://blog.csdn.net/qq_43941037/article/details/132953538