• 231n--神经网络和反向传播


    神经网络

    神经网络,不再是单纯的单层线性计算,而加入了非线性层
    也被称为全连接网络或者有时候被称为多层感知机

    20221028193809

    20221028193830

    激活函数

    函数 max(0,z)被称为激活函数

    20221028194558
    如果没有激活函数,多层的线性计算都可以化为一层的线性计算。又变成了一个线性分类。

    为什么需要非线性

    因为在现行条件下,很多是线性不可分的,因此需要进行一定的特征转换才能可分。
    20221028194819

    几种常见的激活函数

    20221028194922

    20221028200031

    20221028200233

    import numpy as np
    from numpy.random import random
    
    N, D_in, H, D_out = 64,1000, 100, 10
    x, y = randn(N,D_in), rand(N,D_out)
    w1, w2 = randn(D_in, H), randn(H, D_out)
    
    for t in range(2000):
        # 两层神经网络
        h = 1 / (1 + np.exp(-x.dot(w1)))
        y_pred = h.dot(w2)
        loss = np.square(y_pred - y).sum()
        print(t, loss)
    
        grad_y_pred = 2.0 * (y_pred - y)
        grad_w2 = h.T.dot(grad_y_pred)
        grad_h = grad_y_pred.dot(w2.T)
        grad_w1 = x.T.dot(grad_h*h*(1 - h))
    
        w1 -= 1e-4 * gred_w1
        w2 -= 1e-4 * gred_w2
    
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23

    20221028204004

    20221028204047

    神经网络的loss

    20221028204424

    这么复杂的方程,我们如何计算梯度? 如果用在纸上推到的方式,我们需要进行很大的计算量。如果使用softmax替换SVM呢?岂不是要重新推导?

    更好的方法,使用计算图和反向传播

    20221028204707

    神经网络会做的非常大,使用人去推到梯度计算的公式显然是不太现实的

    20221028204808

    反向传播

    20221028204900

    20221028210950

    20221028211034

    将计算图中的部分拿出来,我们可以将其看作不同的类型的gate

    20221028213902

    注意max gate,对于较小的值,导数可以为0,对于较大的值,local gradient 为 1

    20221028214024

    向量形式的反向传播公式

    向量求导

    20221030214725

    20221030215716

    向量的梯度和变量本身有相同的维度。

    如果是矩阵形式,在计算local gradients的时候会计算一个非常大的 Jacobian 矩阵
    20221030220422

    可以推一波
    20221030221054

    20221030221307

    我们可以直接使用矩阵梯度求导的公式。

  • 相关阅读:
    吴恩达2022机器学习专项课程C2W2:实验SoftMax
    java学习day51(SSM)SSM综合练习需求与表结构
    MySQL事务
    局域网内网管理软件有哪些功能?(局域网内网管理软件有哪些)
    SpringBoot概述
    理解 dlopen manual
    数据挖掘与机器学习:数据变换
    39. 组合总和
    Linux c++开发-04-让Hello World更像一个工程
    在ubuntu16.04系统利用eBPF获取TCP网络状态信息
  • 原文地址:https://blog.csdn.net/greatcoder/article/details/127578828