特征抽取(feature extraction)和特征选择(feature selection)不一样,特征抽取是从原特征集中推导出有用的信息构成新的特征集。特征选择是从原特征集中选择一部分子集作为训练特征。
特征抽取将数据集从一个特征空间投影到了一个更低维度的特征空间。
主成分分析(principal component analysis,PCA)是一种的无监督线性变换技术,主要用于特征抽取和降维。
假设原始数据是d维的,现在要压缩到k维,k << d。那么PCA主要步骤如下:
标准化d维数据集。
构造协方差矩阵。
分解协方差矩阵获得特征值和对应的特征向量。
将特征向量按照对应的特征值从大到小排序。
选择前k个特征向量构造一个k*d的映射矩阵。
根据映射矩阵将d维数据压缩到k维
可以看到我们利用PCA将原始的13维数据压缩到2维之后,数据集还是可以用一个线性分类器分类的。
模型在训练集上的表现还算不错,只有少数几个样本被误