考虑蚁群算法, 通过集体无意识的二分类决策实现了最短觅食路径的形成, 暗示着复杂世界实际上是由一系列简单非线性决策过程组成的.
多层非线性在深度模型中的作用,相比于无非线性函数的深度模型,相当于将数个不同的多段决策模型串在了一起. 也就是说, 线性模型相当于一次决策, 而非线性模型相当于做了多层决策. 决策次数本身也是非常重要的超参数. 这也解释了为什么通常层数月多分类性能越好.
而这种非线性存在本身比较重要; 然后就是这种非线性以何种机制存在比较好. 最常见(但不算是最简单)的是ReLU函数,即小于等于0时为0,大于0时为一次线性函数, 这种非线性模式某种程度上在x>0的区间仍然具有一定的决策稠密性. 这种稠密性是否是有必要,以及这种稠密性是否也体现了再一次局部小线性. 比如说最简单的二值非线性, 考虑到对称性我们可以选择-1,1, 这种二值非线性. 看似非线性函数简单了,但是考虑到输入是连续的, 这种二值化的非线性相当于将所有信息疯狂压缩, 使得信息丢失严重; 一个等价的联想是有无数个多阈值的二值化非线性函数,如-0.1,-0.05,0.05,0.1,......, 但是这种情况其实又退化到一次线性函数, 类似于LeakyReLU.如果完全对称,则又失去了非线性. 如果是导数一致而在0点处的值为-1和1呢, 仅仅是值不一样,但是导数一样.
考虑到波的可叠加性, 可用相干的正弦/余弦函数等波函数来拟合ReLU这种具有局部线性的非线性的函数. 这样可以得到多个子分类器, 而这些子分类器又可以相干叠加为一个统一的,有规律的非线性函数.