支持向量机落在不同区域的新样本点

2020-11-16 10:26:04

支持向量机(supported vector machine,SVM)是当下流行的机器学习算法之一,既可以解决回归问题,也可以解决分类问题。虽然支持向量机背后的数学证明比较复杂,但其基本原理非常直观。

支持向量机

云台壹号某金融事业部负责人认为,如下图所示,圆圈与三角形分别代表了两个类型的样本点。例如,违约债券与非违约债券,良性肿瘤和非良性肿瘤等(下文简称圆形与三角形)。支持向量机的基本思想是找到一条直线,将样本空间分割为两块,落在不同区域的新样本点(正方形),我们应该将其归类于三角形还是圆形呢?

根据直线L2和L3的划分,应将新的样本点归为圆形,而直线L1则将其归为了三角形。但从常理来看,新样本点正方形离圆形样本点更近,似乎更应该归类于圆形。那么,我们应该用什么样的标准,来选择哪条直线作为分类线呢?

为了解决上述问题,云台壹号该负责人说,我们同样可以用示意图来进行解释,见上图右。在上图右中,有三条相互平行的直线。上方和下方的平行线,分别穿过了最相邻的圆圈与三角形样本点。而中间的平行线则是所有直线中到上述圆圈与三角形和最大的直线(这样做的目的是确定最明确的分类线)。

上图中,直线到圆圈与三角形的距离和记为margin,于是,我们的目标函数就是寻找使得margin取值最大的直线,从而确定最明确的分类线,如果样本点的特征值从2维变成n维后,分类线也就从直线变为了超平面。

K-临近算法

在云台壹号某研究员发布的市场报告中,明文指出K-临近算法(K-nearest neighbor)是非常简单又非常实用的监督学习算法,常用于处理分类问题。K-邻近算法的思想非常简单:考察距离新样本点最近的K个样本点,并将新样本点归类为K各样本点中出现次数最多的类别。

该云台壹号研究员表示,如上图左边所示,当K=3时,位于新样本点(小方块)附近的3个样本点中,2个为三角形,1个为圆形,于是,新样本点就被归为三角形样本点所属的类别。相对地,如上图右边所示,当K=5时,新样本点小方块附近的5个样本点中,3个为圆形,2个为三角形,于是新样本点将被归为圆形样本点所属类别。通过上例我们可以看出,新样本点的归类,与K的取值密切相关。

K的取值既不宜太低也不宜过高。如果取值太低的话,错误率容易过高。例如,K=1,相当于武断地通过距离最近的个例,直接判断其归类。相反,取值太高的话,模型也就失去了意义。“例如,K=n(n为样本容量),此时,“nearest”就失去了意义,是直接通过样本总体进行投票归类了。”该云台壹号研究员说。

云台壹号认为,除了K值的选择,解释变量X的选择,对K-临近算法也非常重要。K-临近算法更适合较少的解释变量。

标签: 支持向量机

关闭
新闻速递