https://www.zhihu.com/question/305340182
偏置b在网络中的目的是使得当某一层layer的输入分布不是0为中心时给予偏置补偿(比如简单来看,要拟合y=wx+b,b=100, 那么用没有偏置的单层网络y=wx是怎么都无法拟合的!)但是,当该层layer的输入经过归一化,也就是0为中心时,不要偏置也可以拟合(对应上述的例子,就是把所有数据移到原点附近,这时候y=wx就能拟合,拟合方向就行)通常情况下我们拿到的数据都不是0中心分布的,所以需要偏置b。
所以,加了偏置项的神经网络有更复杂的参数结构,拟合能力更好。
2、形式上:偏置b可以视为控制每个神经元的阈值(-b等于神经元阈值)。
举例如:神经元的激活函数
f为sign。每个神经元的输出即为sign(WX +b)。
当 wx < -b时, 输出值为-1,也就是抑制。
当 wx >= -b时, 输出值为1也就是激活。
做模式识别,本质是要提取某种全局信息,所以提取的过程就是要抛弃局部信息保留整体信息,增加偏置这个参数,就是调整丢弃的局部信息的比例或者能量,没有这个参数,对信息的抛弃率的调整的灵活性就欠缺。