监督学习是一种目的明确的训练方式,通过已知因素和已知的结果,通过机器训练,是机器能学会通过已知因素得到未知的结果。
无监督学习,通过几种算法模型,给未知的数据进行分类,再根据这些数据分析这些数据的特征。
衡量模型预测出来的值h(θ)与真实值之间的差异的函数叫做代价函数J(θ)
代价函数越小说明模型和参数越符合训练样本(x,y)对应的模型,代价函数是用来找到假设函数的最优解的,将求假设函数问题转换为求代价函数问题。
平方误差代价函数就是将实际数据给出的值与我们拟合出来的对应值作差,然后再取平方,平方误差代价函数能表示拟合出的模型对应的值与实际值的差距
datasets.load_* # 表示获取小规模数据集,数据包含在dataset datasets.fetch_*(data_home=None) # 获取大规模数据,需要从网络上下载,data_home表示数据集下载的目录,默认是~/scikit_learn_data/ #load和fetch返回的数据类型datasets.base.Bunch(字典格式)
数据集需要划分,不能全部当作训练数据建立模型,所以要留一部分当作测试数据,用于评估模型是否有效 ,通常在20%~30%