两个线性可分的数据集会有多个分割超平面,那么哪个分割超平面最好呢?我们可以通过下面的方式来寻找这个最优的超平面:
其中距离分割超平面最近的点就是支持向量,所以总的来说我们第一步需要先找到支持向量,然后再让我们的分割超平面距离支持向量越远越好,这就是支持向量机的核心,这句话可以通过下面的式子来总结:
首先我们需要明白一点,式子中的1表示样本(xi,yi)到分割超平面的距离,我们首先找到距离最小的样本n,然后再找到让样本n距离超平面最大化的参数w,b。
我们可以将这个目标函数进行改变,我们可以把最小化的部分(寻找支持向量)放到约束条件中, 此时的目标函数变为了:
γ就是支持向量到分割超平面的距离,我们的意思是让所有的样本点到超平面的距离都应该≥γ,这就是约束条件,上面的argmax就是表示支持向量到分割超平面的距离。这样我们就将这两部分分开了
如果我们此时将参数w和b同时除以γ,那么此时的分割超平面并不会发生变化