常见两种一种是均方差,一种是交叉熵
注意:autograd.grad直接返回梯度,而backward梯度保存再w.grad中
softmax函数范围是[0,1]所有分类概率和等于1,softmax的特性是使概率大的更大,概率小的更小。
京公网安备 11010502049817号