注意: 上面的大写的X是一个矩阵,x1,x2是向量,y是向量,y1,y2是标量。
对X进行详细解释:
如若不然,可以通过维度来对其进行验证
注意:上面最后w*的结果中,括号外面的X需要加上转置!
但是,我对最后一项的求导,为什么X前面没有负号仍有疑惑。
当一个模型没有显示解时,可以进行梯度下降,步骤如下:
负的梯度的值会指向下降最快的方向(梯度时上升最快的方向)
超参数:是一个需要人为来指定的值。
学习率不能太小,因为这样会使得走的步长很有限,需要走很多步,这样不好,因为计算梯度是很贵的。但是如果学习率太大,使得在最优解附近振荡。
在实际中,很少直接使用梯度下降,深度学习最常使用的是 小批量梯度下降。
这是因为在梯度下降中,每一次计算梯度要对整个损失函数求导,这个损失函数是对所有样本的平均损失,所以意味着,求一次梯度,就要对整个样本重新算一遍,计算代价太大了。