由于对称导致的空间结构耦合的不规则效应,和等位点数值差导致的线性效应共同决定了神经网络的迭代次数。而增加训练集图片数量和扩大图片的尺寸都可能弱化对称性,并同时弱化结构耦合的不规则效应,使得线性效应占优。并让移位距离曲线s变得平滑,s和迭代次数n之间的反比关系变得更清晰。
这次继续验算移位距离假设,所用的训练集是mnist的0,1,2,3,4的第一张图片,但不二值化。用间隔取点的办法把图片化成9*9。如1*2*3为网络
( 1, 2, 3 )---81*30*3---( 1, 0, 0 )( 0, 1, 0 )( 0, 0, 1 )
的简记。就是用1,2,3的第一张图片不断的循环往复,直到收敛。每个收敛误差收敛199次,统计迭代次数n平均值,并统计每个网络的移位距离s。
共进行了10组,得到数据
9*9 | 1*3*4 | 1*2*3 | 1*2*4 | 2*3*4 | 0*1*2 | 0*1*3 | 0*2*3 | 0*2*4 | 0*1*4 | 0*3*4 |
δ | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n |
0.01 | 2675.106 | 2539.864 | 2526.673 | 2513.533 | 2521.915 | 2421.905 | 2397.648 | 2400.538 | 2330.372 | 2329.07 |
0.001 | 17858.37 | 16999.56 | 17071.4 | 16846.06 | 16699.34 | 16548.66 | 16261.65 | 16182.34 | 15971.54 | 15970.8 |
9.00E-04 | 19700.4 | 18658.47 | 18738.02 | 18506.6 | 18353.31 | 18201.87 | 17895.76 | 17746.46 | 17501.54 | 17508.73 |
8.00E-04 | 21862.45 | 20760.96 | 20900.6 | 20576.08 | 20509.6 | 20217.84 | 19941.41 | 19803.96 | 19503.26 | 19452.48 |
7.00E-04 | 24688.67 | 23522.75 | 23429.41 | 23133.07 | 23022.54 | 22821.45 | 22387.06 | 22187.65 | 22107.34 | 21977.67 |
s | 36.1098 | 49.62353 | 41.16863 | 50.14118 | 52.1098 | 51.74902 | 57.21569 | 55.12941 | 47.10588 | 54.54118 |
所以这个表格一共收敛了5*199*10次
将收敛误差为7e-4的迭代次数n画成图
将移位距离s画成图
尽管有两个点波动较大,但整体上n减小而s增加的反比趋势依然是存在的。
移位距离假设
(A,B)---m*n*k---(1,0)(0,1)
用神经网络分类A和B,把参与分类的A和B中的数字看作是组成A和B的粒子,分类的过程就是让A和B中的粒子互相交换位置,寻找最短移位路径的过程。而熵H与最短移位距离S成正比,迭代次数n与S成反比。
移位规则汇总
移位距离就是等位点数值差的绝对值的和S=Σ|a-b|,如果训练集有多张图片取s的平均值,如果是多分类问题则移位距离为所有两两组合移位距离的和。
如对一组3*3的矩阵
S=s0+s1+,…,+s8=|a0-b0|+|a1-b1|+,…,+|a8-b8|
如果是3分类问题,就应该实现3个形态之间的两两分类,也就是要完成3对等位点之间的差。
因此移位距离
S=Sab+Sac+Sbc=
|a0-b0|+|a1-b1|+|a2-b2|+|a3-b3|+
|a0-c0|+|a1-c1|+|a2-c2|+|a3-c3|+
|b0-c0|+|b1-c1|+|b2-c2|+|b3-c3|