目录
这种方法可以不多次迭代梯度下降函数就能得到w,b。但是缺点是在大量数据训练情况下效率较低,其次是这种算法仅仅在线性回归中实现了,并没有在其他模型中实现,因此,实际情况下的使用率不高。这里了解有这么个概念即可。
在多特征的情况下,如果有的特征值的范围特别大,那么这个特征值的权重w的选择对模型的训练影响较大,需要初始值选择较小。例如下面的training data中,size 值比其他三个特征要大很多。
Size (sqft) | Number of Bedrooms | Number of floors | Age of Home | Price (1000s dollars) |
---|---|---|---|---|
952 | 2 | 1 | 65 | 271.5 |
1244 | 3 | 2 | 64 | 232 |
1947 | 3 | 2 | 17 | 509.8 |
这里可以把训练数据进行均值归一化处理。
一般是从小到大来尝试。如0.001,0.003,0.01,0.03,0.1 etc这样的情况来尝试。