(A,B)---m*n*k---(1,0)(0,1)
假设1:完全相同的两个对象无法被分成两类,与之对应的分类迭代次数为无穷大,分类准确率是50%,50%。相等收敛误差下迭代次数越大表明二者差异越小。
由假设1完全可以根据迭代次数的大小判断两个分类对象之间的形似性,这种相似性是两个训练集之间的相似性。是两个整体之间的相似性。在训练集不变的情况下这个值是绝对的。
而分类准确率给出的是测试集图片与训练集图片的相似性,这是一种个体相对整体的相似性。在B改变的情况下,测试图片c相对A的相似性会跟着变。比如
A | B | |||
0 | 1 | 0 | 0 | |
1 | 0 | 0 | 0 |
让A由(0,1)(1,0)两张图片构成,让B由两张(0,0)构成,用训练集做测试集。(0,1)会被认为属于A。
A | B | |||
0 | 1 | 0 | 1 | |
1 | 0 | 0 | 1 |
但如果让B由两张(0,1)构成,则会把(0,1)分类给B。
所以分类准确率表达的是一种相对的形态相似性,这个值会随着B的改变而改变。
这次继续验算移位距离假设,所用的训练集是mnist的0,1,2,3,4的第一张图片,但不二值化。用间隔取点的办法把图片化成13*13。如0*1为网络
( 0, 1 )---169*30*3---( 1, 0 )( 0, 1 )
的简记。就是做一个二分类网络分类0和1,并用0,1的第一张图片不断的循环往复,直到收敛。每个收敛误差收敛199次,统计迭代次数n的平均值,并统计每个网络的移位距离s。
共进行了10组,得到数据为
13*13 | 1*3 | 1*4 | 3*4 | 0*1 | 1*2 | 2*4 | 0*2 | 0*3 | 0*4 | 2*3 |
δ | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n | 迭代次数n |
0.01 | 721.0302 | 705.6985 | 679.4824 | 677.809 | 673.3719 | 672.3518 | 646.0553 | 626.9648 | 623.7638 | 616.4372 |
0.001 | 4508.07 | 4475.528 | 4346.774 | 4325.814 | 4341.93 | 4319.658 | 4200.412 | 4137.231 | 4083.648 | 4066.709 |
9.E-4 | 4967.543 | 4922.824 | 4760.352 | 4737.025 | 4749.528 | 4764.261 | 4643.96 | 4552.613 | 4469.995 | 4461.322 |
8.E-4 | 5493.764 | 5461.719 | 5335.03 | 5302.367 | 5268.854 | 5260.759 | 5142.508 | 5022.111 | 5002.704 | 4986.332 |
7.E-4 | 6200.462 | 6185.362 | 5976.668 | 5943.121 | 5939.508 | 5902.658 | 5804.915 | 5678.442 | 5637.211 | 5597.688 |
s | 32.04314 | 29.4902 | 32.74902 | 39.52941 | 38.73725 | 36.56471 | 42.38431 | 45.80784 | 44.86275 | 45.6902 |
将收敛误差为7e-4的迭代次数按照大小顺序画成图
将与之对应的移位距离s画成图
n和s之间的反比关系明显。拟合这两组数据。
N=4795.44016779755*2327.003984751942**(1/s)
0.8653535924890838 ****** 决定系数 r**2
N=12724.938200154864*(1/s)**0.21153402686690814
0.883111727797866 ****** 决定系数 r**2
26128.65707362529
N=45774.464681784615*(1/s)+4679.463105691484
0.8695116429748668 ****** 决定系数 r**2
N=1247.9568175848174*ln(1/s)+10437.860771050146
0.8862223483116117 ****** 决定系数 r**2
N=-2455584.60540211*(1/s)**2+180345.33431879248*(1/s)+2878.915207492315
0.8971114974949561 ****** 决定系数 r**2