活动地址:CSDN21天学习挑战赛
支持向量机也是一种二分类模型,它是通过在特征空间中建立间隔最大的分类器,这是有别于感知机模型的一点。
支持向量机可分为线性可分支持向量机、线性支持向量机、非线性支持向量机。
若超平面方程为 ,样本点为 ,此时函数间隔为
二分类问题,y取值1,-1,即
函数间隔表示该样本点分类的确信度,因为当y=1,越大,距离超平面越远,越不会分错,当y=-1是亦然。
几何间隔为 ,很类似于二维空间点到直线的距离公式的形式,不过乘了, 同号时分类正确。
目的是找到一个能正确划分数据集、几何间隔最大的超平面。仅仅满足能将数据分类正确地超平面可能有很多,但是不一定最优的,因为其他数据继续划分时,这个超平面很可有失效。所以核心思想是先找到最小的几何间隔,并将其最大化。(我的理解是木桶效应,当短板补上了,其他地方肯定慢问题,所以最初要先找几何间隔最小的超平面)
现在要处理的优化问题为:
先用函数间隔表示上边的优化问题:
以下有助于简化问题的求解;
到此就得出了线性可分支持向量机算法——最大间隔算法
线性可分支持向量机算法——最大间隔算法
输入:数据集,;
输出:最大间隔分离超平面、分类决策函数。
最优化问题:
求出最优解,则分离超平面为,分类决策函数为
支持向量是与分离超平面最近的样本点,是使约束条件中不等式取等号的向量,支持向量决定着分类超平面,所以该模型叫做支持向量机。