在机器学习的有监督学习中,将问题分为两类:一类是分类,另一类叫回归。
那什么是有监督学习呢?
我的理解就是:利用以往有标签的数据,进行学习的,叫作有监督学习;相反,无监督学习就是在一堆没有标签的数据中,进行学习的,叫作无监督学习。
有监督学习和无监督学习的区别是?
有监督学习分训练集合测试集,在一堆有标签的训练集中“寻找”规律,然后再测试集中使用这种规律;无监督学习只有一组数据,进行寻找规律。
什么是分类问题?
我的理解是,将一堆数据,以某种标准进行分类。最后每个数据都是类别中的一个。以银行贷款结果为例,银行是否贷款给你。最后只有两类结果:贷给你、不贷给你。
分类结果是离散的!
什么是回归问题呢?
我的理解是,通过有监督学习,在训练集中学习到了某种规律,我通过这种规律,对测试集中的数据进行预测。最后的结果是千变万化的,并不像分类问题会有固定的类别,结果取决你训练集中总结的规律和测试集中输入的数据。以银行为例,人们去贷款,到底能贷多少钱呢?有可能贷5210元,也有可能1314521元,这没有固定类别。
回归问题是连续的!
那我们如何处理这个问题呢?
我们可以建立回归方程,
Y
=
X
1
⊖
1
+
X
2
⊖
2
Y=X_1\ominus_1+ X2\ominus_2
Y=X1⊖1+X2⊖2
X
1
、
X
2
、
Y
X1、X2、Y
X1、X2、Y我们都有了,那么我们这个方程现在需要确定
⊖
1
\ominus_1
⊖1和
⊖
2
\ominus_2
⊖2这两个参数!
我们的目的就是:建立一个回归方程,尽可能的拟合多的数据!!!这样就证明这个方程符合大部分数据,具有一般规律。
拟合平面中核心影响因素是:
⊖
1
、
⊖
2
\ominus_1、\ominus_2
⊖1、⊖2参数,而
⊖
0
\ominus_0
⊖0只是微调。
在AI编程中,我们经常使用矩阵进行处理。就是一项乘上一项的形式。
所以:
X
0
X_0
X0数据全部填充为1
这样我们的回归方程就可以,表示成下面矩阵相乘的这种形式了
建立好回归方程(也可以叫做拟合平面)之后,我们输入
X
1
、
X
2
X_1、X_2
X1、X2之后,Y自然就确定了,Y叫做预测值。但是有时候预测出来的Y值会和真实数据的Y值不一致,他们之间的差距叫做ε。
叫做误差,当然误差ε越小越好,这样证明咋们建立的回归方程预测精准!