目录
前面介绍的特征选择方法获得的特征,是从原始数据中抽取出来的,并没有对数据进行变换。而特征提取和降维,则是对原始数据特征进行相应的数据变换,并且通常会选择比原始特征数量少的特征,同时达到数据降维的目的。常用的特征提取和降维方法有主成分分析、核主成分分析、流形学习、t-SNE、多维尺度分析等方法。
首先将前面使用的酒精数据集中每个特征进行数据标准化,如下:
- ## 图像显示中文的问题
- import matplotlib
- matplotlib.rcParams['axes.unicode_minus']=False
- import seaborn as sns
- sns.set(font= "Kaiti",style="ticks",font_scale=1.4)
- ## 导入会使用到的库
- import numpy as np
- import pandas as pd
- import matplotlib.pyplot as plt
- from mpl_toolkits.mplot3d import Axes3D
- from sklearn import preprocessing
- from scipy.stats import boxcox
- import re
- from sklearn.metrics.pairwise import cosine_similarity
- from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
- ##以上设置和库的导入不在重复,以下程序只会导入新的模块
-
- from sklearn.feature_selection import VarianceThreshold,f_classif
- ## 导入取酒的多分类数据集,用于演示
- from sklearn.datasets import load_wine
- wine_x,wine_y = load_wine(return_X_y=True)
-
- from sklearn.decomposition import PCA, KernelPCA
- from sklearn.manifold import Isomap, MDS, TSNE
- from sklearn.preprocessing import StandardScaler
- ## 对酒的特征数据进行标准化
- wine_x,wine_y = load_wine(return_X_y=True)
- wine_x = StandardScaler().fit_transform(wine_x)
主成分分析(Principal Component Analysis, PCA)是采用一种数学降维的方法,在损失很少信息的前提下,找出几个综合变量作为主成分,来代替原来众多的变量,使这些主成分能够尽可能地代表原始数据的信息,其中每个主成分都是原始变量的线性组合,而且各个主成分之间不相关(线性无关)。通过主成分分析,可以从事物错综复杂的关系中找到一些主要成分(通常选择累积贡献率≥85%的前m个成分),从而能够有效利用大量统计信息进行定性分析,揭示变量之间的内在关系,得到一些对事物特征及其发展规律的深层次信息和启发,推动研究进一步深入。通常情况下使用的主成分个数远小于原始特征个数,所以可以起到特征提取和降维的目的。
针对准备好的酒精数据集wine_x,下面对其进行主成分分析,从原始数据中提取特征,在程序中获取了数据的13个主成分数据,并且可视化出每个主成分对数据的解释方差大小。
- ## 使用主成分分析对酒数据集进行降维
- pca = PCA(n_components = 13,random_state = 123)
- pca.fit(wine_x)
- ## 可视化主成分分析的解释方差得分
- exvar = pca.explained_variance_
- plt.figure(figsize=(10,6))
- plt.plot(exvar,"r-o")
- plt.hlines(y = 1, xmin = 0, xmax = 12)
- plt.xlabel("特征数量")
- plt.ylabel("解释方差大小")
- plt.title("主成分分析")
- plt.show()
运行结果如下:

从图中可以发现,主成分分析结果使用数据的前3个主成分即可对其进行良好的数据建模。针对获取的数据前3个主成分特征,可以在三维(3D)空间中将数据的分布进行可视化,如下:
- ## 使用主成分分析对酒数据集进行降维
- pca = PCA(n_components = 13,random_state = 123)
- pca.fit(wine_x)
- ## 可以发现使用数据的前3个主成分较合适
- pca_wine_x = pca.transform(wine_x)[:,0:3]
- print(pca_wine_x.shape)
- ## 在3D空间中可视化主成分分析后的数据空间分布
- colors = ["red","blue","green"]
- shapes = ["o","s","*"]
- fig = plt.figure(figsize=(10,6))
- ## 将坐标系设置为3D
- ax1 = fig.add_subplot(111, projection="3d")
- for ii,y in enumerate(wine_y):
- ax1.scatter(pca_wine_x[ii,0],pca_wine_x[ii,1],pca_wine_x[ii,2],
- s = 40,c = colors[y],marker = shapes[y])
- ax1.set_xlabel("主成分1",rotation=20)
- ax1.set_ylabel("主成分2",rotation=-20)
- ax1.set_zlabel("主成分3",rotation=90)
- ax1.azim = 225
- ax1.set_title("主成分特征空间可视化")
- plt.show()
运行结果如下:
(178, 3)

PCA是线性的数据降维技术,而核主成分分析(KPCA)可以得到数据的非线性表示,进行数据特征提取的同时可以对数据进行降维。下面使用KernelPCA()函数对数据进行特征提取和降维,指定核函数时使用"rbf"核,如下:
- ## 使用核主成分分析获取数据的主成分
- kpca = KernelPCA(n_components = 13,kernel = "rbf", ## 核函数为rbf核
- gamma = 0.2,random_state = 123)
- kpca.fit(wine_x)
- ## 可视化核主成分分析的中心矩阵特征值
- lambdas = kpca.lambdas_
- plt.figure(figsize=(10,6))
- plt.plot(lambdas,"r-o")
- plt.hlines(y = 4, xmin = 0, xmax = 12)
- plt.xlabel("特征数量")
- plt.ylabel("中心核矩阵的特征值大小")
- plt.title("核主成分分析")
- plt.show()
-
- ## 可以发现使用数据的前3个核主成分较合适
运行结果如下:

针对该数据同样可以使用数据的前3个核主成分作为提取到的特征。
针对获取的数据前3个核主成分特征,可以在三维(3D)空间中将数据的分布进行可视化,如下:
- ## 使用核主成分分析获取数据的主成分
- kpca = KernelPCA(n_components = 13,kernel = "rbf", ## 核函数为rbf核
- gamma = 0.2,random_state = 123)
- kpca.fit(wine_x)
- # ## 可视化核主成分分析的中心矩阵特征值
- # lambdas = kpca.lambdas_
- # plt.figure(figsize=(10,6))
- # plt.plot(lambdas,"r-o")
- # plt.hlines(y = 4, xmin = 0, xmax = 12)
- # plt.xlabel("特征数量")
- # plt.ylabel("中心核矩阵的特征值大小")
- # plt.title("核主成分分析")
- # plt.show()
- #
- # ## 可以发现使用数据的前3个核主成分较合适
-
- ## 获取前3个核主成分
- kpca_wine_x = kpca.transform(wine_x)[:,0:3]
- print(kpca_wine_x.shape)
- ## 在3D空间中可视化主成分分析后的数据空间分布
- colors = ["red","blue","green"]
- shapes = ["o","s","*"]
- fig = plt.figure(figsize=(10,6))
- ## 将坐标系设置为3D
- ax1 = fig.add_subplot(111, projection="3d")
- for ii,y in enumerate(wine_y):
- ax1.scatter(kpca_wine_x[ii,0],kpca_wine_x[ii,1],kpca_wine_x[ii,2],
- s = 40,c = colors[y],marker = shapes[y])
- ax1.set_xlabel("核主成分1",rotation=20)
- ax1.set_ylabel("核主成分2",rotation=-20)
- ax1.set_zlabel("核主成分3",rotation=90)
- ax1.azim = 225
- ax1.set_title("核主成分特征空间可视化")
- plt.show()
运行结果如下:
(178, 3)

流形学习是借鉴了拓扑流形概念的一种降维方法。流形学习可以用于数据降维,当维度降低到二维或者三维时可以对数据进行可视化。因为流形学习使用近邻的距离来计算高维空间中样本点的距离,所以近邻的个数对流形降维得到的结果影响也很大。下面以前面的酒数据wine_x为例,使用流形学习对其进行特征提取并降维,获取数据的3个主要特征,并通过可视化观察样本在三维空间的位置,如下,程序中使用了7个近邻计算距离。
- from sklearn.feature_selection import VarianceThreshold,f_classif
- ## 导入取酒的多分类数据集,用于演示
- from sklearn.datasets import load_wine
- wine_x,wine_y = load_wine(return_X_y=True)
-
- from sklearn.decomposition import PCA, KernelPCA
- from sklearn.manifold import Isomap, MDS, TSNE
- from sklearn.preprocessing import StandardScaler
- ## 对酒的特征数据进行标准化
- wine_x,wine_y = load_wine(return_X_y=True)
- wine_x = StandardScaler().fit_transform(wine_x)
-
- ## 流行学习进行数据的非线性降维
- isomap = Isomap(n_neighbors = 7,## 每个点考虑的近邻数量
- n_components = 3) ## 降维到3维空间中
-
-
- ## 获取降维后的数据
- isomap_wine_x = isomap.fit_transform(wine_x)
- print(isomap_wine_x.shape)
- ## 在3D空间中可视化流行降维后的数据空间分布
- colors = ["red","blue","green"]
- shapes = ["o","s","*"]
- fig = plt.figure(figsize=(10,6))
- ## 将坐标系设置为3D
- ax1 = fig.add_subplot(111, projection="3d")
- for ii,y in enumerate(wine_y):
- ax1.scatter(isomap_wine_x[ii,0],isomap_wine_x[ii,1],isomap_wine_x[ii,2],
- s = 40,c = colors[y],marker = shapes[y])
- ax1.set_xlabel("特征1",rotation=20)
- ax1.set_ylabel("特征2",rotation=-20)
- ax1.set_zlabel("特征3",rotation=90)
- ax1.azim = 225
- ax1.set_title("Isomap降维可视化")
- plt.show()
运行结果如下:

利用Isomap方法获得的3个特征,3种数据在三维空间分布上并不是很容易以区分。
t-SNE是一种常用的数据降维方法,同时也可以作为一种特征提取方法,针对酒精数据集wine_x,使用 t-SNE算法将其降维到三维空间中,同时提取数据上的3个特征:
- ## TSNE进行数据的降维,降维到3维空间中
- tsne = TSNE(n_components = 3,perplexity =25,
- early_exaggeration =3,random_state=123)
-
-
- ## 获取降维后的数据
- tsne_wine_x = tsne.fit_transform(wine_x)
- print(tsne_wine_x.shape)
- ## 在3D空间中可视化流行降维后的数据空间分布
- colors = ["red","blue","green"]
- shapes = ["o","s","*"]
- fig = plt.figure(figsize=(10,6))
- ## 将坐标系设置为3D
- ax1 = fig.add_subplot(111, projection="3d")
- for ii,y in enumerate(wine_y):
- ax1.scatter(tsne_wine_x[ii,0],tsne_wine_x[ii,1],tsne_wine_x[ii,2],
- s = 40,c = colors[y],marker = shapes[y])
- ax1.set_xlabel("特征1",rotation=20)
- ax1.set_ylabel("特征2",rotation=-20)
- ax1.set_zlabel("特征3",rotation=90)
- ax1.azim = 225
- ax1.set_title("TSNE降维可视化")
- plt.show()
运行结果如下:
(178, 3)

在t-SNE算法下三种数据的分布较容易区分,同时也表明利用提取到的特征对数据进行判别分类时会更加容易。
多维尺度分析是一种通过数据在低维空间的可视化,从而对高维数据进行可视化展示的方法。多维尺度分析的目标是:在将原始数据降维到一个低维坐标系中,同时保证通过降维所引起的任何形变达到最小。为了方便可视化多维尺度分析后的数据分布情况,通常会将数据降维到二维或者三维。可以使用sklearn库中的MDS()函数进行数据的多维尺度分析,下面的程序将酒数据集wine_x降维到三维空间中并将结果可视化:
- ## MDS进行数据的降维,降维到3维空间中
- mds = MDS(n_components = 3,dissimilarity = "euclidean",random_state=123)
- ## 获取降维后的数据
- mds_wine_x = mds.fit_transform(wine_x)
- print(mds_wine_x.shape)
- ## 在3D空间中可视化流行降维后的数据空间分布
- colors = ["red","blue","green"]
- shapes = ["o","s","*"]
- fig = plt.figure(figsize=(10,6))
- ## 将坐标系设置为3D
- ax1 = fig.add_subplot(111, projection="3d")
- for ii,y in enumerate(wine_y):
- ax1.scatter(mds_wine_x[ii,0],mds_wine_x[ii,1],mds_wine_x[ii,2],
- s = 40,c = colors[y],marker = shapes[y])
- ax1.set_xlabel("特征1",rotation=20)
- ax1.set_ylabel("特征2",rotation=-20)
- ax1.set_zlabel("特征3",rotation=90)
- ax1.azim = 225
- ax1.set_title("MDS降维可视化")
- plt.show()
运行结果如下:
(178, 3)

大多数情况下,使用的数据集是不完美的,会出现各种各样的问题,尤其针对分类问题时,可能会出现类别不平衡的问题。例如,在垃圾邮件分类时,垃圾邮件数据会有较少的样本量,从而导致两种类型的邮件数量差别很大;在欺诈检测数据集中,往往包含的欺诈样本并没有那么多。在处理这类数据集的分类时,需要对数据集的类不平衡问题进行处理。解决数据不平衡问题常用的方法如下:
(1)过采样:针对稀有类样本数据进行复制,如原始训练集中包含100个正样本,1000个负样本,可采用某种方式对正样本进行复制,以达到1000个正样本。
(2)欠采样:随机剔除数量多的样本,如原始训练集中包含100个正样本,1000个负样本,可以采用某种方式对负样本进行随机剔除,只保留100个样本。
(3)欠采样和过采样的综合方法:针对稀有类样本数据进行复制,剔除数量多的样本,最终保持两类数据的样本量基本一致。
(4)阈值移动:该方法不涉及采样,而是根据输出值返回决策分类,如朴素贝叶斯方法,可以通过调整判别正负类的阈值来调整分类结果。如原始结果输出概率>0.5,则分类为1,可以将阈值从0.5提高到0.6,只有当预测概率>0.6时,才判定类别为1。
前面的4种数据平衡方法,都不涉及对分类模型的改变,其中过采样和欠采样只改变训练集中数据样本的分布;阈值移动只对新数据分类时模型如何做出决策有影响。使用采样技术平衡数据时,也会存在多种变形,可能会因为增加或者减少数据的不同方式而存在差异。如SMOTE算法使用过采样的方式平衡数据,当原始训练集中包含100个正样本和1000个负样本,算法会把靠近给定的正元组的部分生成新的数据添加到训练集中。
python的imblearn库是专门用来处理数据不平衡问题的库。下面通过imblearn库使用上述前3种方式,处理数据中的不平衡问题。首先准备不平衡数据,这些数据时前面使用的酒数据的主成分特征,使用make_imbalance()函数,分别从数据中每类抽取30、70和20个样本,从而获得一个各类数据较不平衡的新数据:
- ## 建议使用较高版本的scikit-learn,例如:pip install scikit-learn==0.23.1
- from imblearn.datasets import make_imbalance
- from imblearn.over_sampling import KMeansSMOTE,SMOTE,SVMSMOTE
- from imblearn.under_sampling import AllKNN,CondensedNearestNeighbour,NearMiss
- from imblearn.combine import SMOTEENN,SMOTETomek
-
- ## 使用主成分分析对酒数据集进行降维
- pca = PCA(n_components = 13,random_state = 123)
- pca.fit(wine_x)
- ## 可以发现使用数据的前3个主成分较合适
- pca_wine_x = pca.transform(wine_x)[:,0:3]
-
- ## 将主成分分析提取的特征处理为类不平衡数据
- im_x,im_y = make_imbalance(pca_wine_x,wine_y,
- sampling_strategy={0: 30, 1: 70, 2: 20},
- random_state=12)
- print(np.unique(im_y,return_counts = True))
运行结果如下:
(array([0, 1, 2]), array([30, 70, 20], dtype=int64))
针对数据平衡方法——过采样,主要介绍KMeansSMOTE、SMOTE和SVMSMOTE这3种方式的使用。这些方法都是使用特定的方式增加样本数量较少类别的数据量,从而使3种数据的样本比例接近1:1:1。
- ## 使用过采样算法KMeansSMOTE进行数据平衡
- kmeans = KMeansSMOTE(random_state=123, k_neighbors=3)
- kmeans_x, kmeans_y = kmeans.fit_resample(im_x,im_y)
- print("KMeansSMOTE : ",np.unique(kmeans_y,return_counts = True))
-
- ## 使用过采样算法SMOTE进行数据平衡
- smote = SMOTE(random_state=123, k_neighbors=3)
- smote_x, smote_y = smote.fit_resample(im_x,im_y)
- print("SMOTE : ",np.unique(smote_y,return_counts = True))
-
- ## 使用过采样算法SVMSMOTE进行数据平衡
- svms = SVMSMOTE(random_state=123, k_neighbors=3)
- svms_x, svms_y = svms.fit_resample(im_x,im_y)
- print("SVMSMOTE : ",np.unique(svms_y,return_counts = True))
运行结果如下:
- KMeansSMOTE : (array([0, 1, 2]), array([72, 70, 70], dtype=int64))
- SMOTE : (array([0, 1, 2]), array([70, 70, 70], dtype=int64))
- SVMSMOTE : (array([0, 1, 2]), array([70, 70, 53], dtype=int64))
从输出结果可以发现,3种数据的比例接近1:1:1,但是只有SMOTE方式的比例是1:1:1。下面将3种方式获得的数据在二维空间中进行可视化,分析其数据分布和原始数据分布之间的差异,如下:
- ## 建议使用较高版本的scikit-learn,例如:pip install scikit-learn==0.23.1
- from imblearn.datasets import make_imbalance
- from imblearn.over_sampling import KMeansSMOTE,SMOTE,SVMSMOTE
- from imblearn.under_sampling import AllKNN,CondensedNearestNeighbour,NearMiss
- from imblearn.combine import SMOTEENN,SMOTETomek
-
- ## 使用主成分分析对酒数据集进行降维
- pca = PCA(n_components = 13,random_state = 123)
- pca.fit(wine_x)
- ## 可以发现使用数据的前3个主成分较合适
- pca_wine_x = pca.transform(wine_x)[:,0:3]
-
- ## 将主成分分析提取的特征处理为类不平衡数据
- im_x,im_y = make_imbalance(pca_wine_x,wine_y,
- sampling_strategy={0: 30, 1: 70, 2: 20},
- random_state=12)
- # print(np.unique(im_y,return_counts = True))
-
- ## 使用过采样算法KMeansSMOTE进行数据平衡
- kmeans = KMeansSMOTE(random_state=123, k_neighbors=3)
- kmeans_x, kmeans_y = kmeans.fit_resample(im_x,im_y)
- print("KMeansSMOTE : ",np.unique(kmeans_y,return_counts = True))
-
- ## 使用过采样算法SMOTE进行数据平衡
- smote = SMOTE(random_state=123, k_neighbors=3)
- smote_x, smote_y = smote.fit_resample(im_x,im_y)
- print("SMOTE : ",np.unique(smote_y,return_counts = True))
-
- ## 使用过采样算法SVMSMOTE进行数据平衡
- svms = SVMSMOTE(random_state=123, k_neighbors=3)
- svms_x, svms_y = svms.fit_resample(im_x,im_y)
- print("SVMSMOTE : ",np.unique(svms_y,return_counts = True))
-
-
- ## 可视化不同算法下的数据可视化结果,使用二维散点图
- colors = ["red","blue","green"]
- shapes = ["o","s","*"]
- fig = plt.figure(figsize=(14,10))
- ## 原始数据分布
- plt.subplot(2,2,1)
- for ii,y in enumerate(im_y):
- plt.scatter(im_x[ii,0],im_x[ii,1],s = 40,
- c = colors[y],marker = shapes[y])
- plt.title("不平衡数据")
- ## 过采样算法KMeansSMOTE
- plt.subplot(2,2,2)
- for ii,y in enumerate(kmeans_y):
- plt.scatter(kmeans_x[ii,0],kmeans_x[ii,1],s = 40,
- c = colors[y],marker = shapes[y])
- plt.title("KMeansSMOTE")
- ## 过采样算法SMOTE
- plt.subplot(2,2,3)
- for ii,y in enumerate(smote_y):
- plt.scatter(smote_x[ii,0],smote_x[ii,1],s = 40,
- c = colors[y],marker = shapes[y])
- plt.title("SMOTE")
- ## 过采样算法SVMSMOTE
- plt.subplot(2,2,4)
- for ii,y in enumerate(svms_y):
- plt.scatter(svms_x[ii,0],svms_x[ii,1],s = 40,
- c = colors[y],marker = shapes[y])
- plt.title("SVMSMOTE")
- plt.show()
运行结果如下:

3种过采样算法都是在少样本的数据类周围生成新的样本数量,但是不同的算法生成的样本位置有些差异。
针对数据平衡方法——欠采样,主要介绍CondensedNearestNeighbour、AllKNN和NearMiss共3种方式的使用,这些方式都是使用特定的方法减少样本数量较多类别的样本量,从而使3种数据的样本比例接近1:1:1。
- ## 建议使用较高版本的scikit-learn,例如:pip install scikit-learn==0.23.1
- from imblearn.datasets import make_imbalance
- from imblearn.over_sampling import KMeansSMOTE,SMOTE,SVMSMOTE
- from imblearn.under_sampling import AllKNN,CondensedNearestNeighbour,NearMiss
- from imblearn.combine import SMOTEENN,SMOTETomek
-
- ## 使用主成分分析对酒数据集进行降维
- pca = PCA(n_components = 13,random_state = 123)
- pca.fit(wine_x)
- ## 可以发现使用数据的前3个主成分较合适
- pca_wine_x = pca.transform(wine_x)[:,0:3]
-
- ## 将主成分分析提取的特征处理为类不平衡数据
- im_x,im_y = make_imbalance(pca_wine_x,wine_y,
- sampling_strategy={0: 30, 1: 70, 2: 20},
- random_state=12)
- # print(np.unique(im_y,return_counts = True))
-
- ## 使用欠采样算法CondensedNearestNeighbour进行数据平衡
- cnn = CondensedNearestNeighbour(random_state=123, n_neighbors=7,n_seeds_S = 20)
- cnn_x, cnn_y = cnn.fit_resample(im_x,im_y)
- print("CondensedNearestNeighbour : ",np.unique(cnn_y,return_counts = True))
-
- ## 使用欠采样算法AllKNN进行数据平衡
- allknn = AllKNN(n_neighbors=10)
- allknn_x, allknn_y = allknn.fit_resample(im_x,im_y)
- print("AllKNN : ",np.unique(allknn_y,return_counts = True))
-
- ## 使用欠采样算法NearMiss进行数据平衡
- nmiss = NearMiss(n_neighbors=3)
- nmiss_x, nmiss_y = nmiss.fit_resample(im_x,im_y)
- print("NearMiss : ",np.unique(nmiss_y,return_counts = True))
运行结果如下:
- CondensedNearestNeighbour : (array([0, 1, 2]), array([20, 23, 20], dtype=int64))
- AllKNN : (array([0, 1, 2]), array([21, 54, 20], dtype=int64))
- NearMiss : (array([0, 1, 2]), array([20, 20, 20], dtype=int64))
从输出结果可以发现,3种数据的比例接近1:1:1,但是只有NearMiss方式的比例是1:1:1。下面将3种方式获得的数据在二维空间中进行可视化,分析其数据分布和原始数据分布之间的差异,如下:
- ## 使用欠采样算法CondensedNearestNeighbour进行数据平衡
- cnn = CondensedNearestNeighbour(random_state=123, n_neighbors=7,n_seeds_S = 20)
- cnn_x, cnn_y = cnn.fit_resample(im_x,im_y)
- print("CondensedNearestNeighbour : ",np.unique(cnn_y,return_counts = True))
-
- ## 使用欠采样算法AllKNN进行数据平衡
- allknn = AllKNN(n_neighbors=10)
- allknn_x, allknn_y = allknn.fit_resample(im_x,im_y)
- print("AllKNN : ",np.unique(allknn_y,return_counts = True))
-
- ## 使用欠采样算法NearMiss进行数据平衡
- nmiss = NearMiss(n_neighbors=3)
- nmiss_x, nmiss_y = nmiss.fit_resample(im_x,im_y)
- print("NearMiss : ",np.unique(nmiss_y,return_counts = True))
-
- ## 可视化不同算法下的数据可视化结果,使用二维散点图
- colors = ["red","blue","green"]
- shapes = ["o","s","*"]
- fig = plt.figure(figsize=(14,10))
- ## 原始数据分布
- plt.subplot(2,2,1)
- for ii,y in enumerate(im_y):
- plt.scatter(im_x[ii,0],im_x[ii,1],s = 40,
- c = colors[y],marker = shapes[y])
- plt.title("不平衡数据")
- ## 欠采样算法CondensedNearestNeighbour
- plt.subplot(2,2,2)
- for ii,y in enumerate(cnn_y):
- plt.scatter(cnn_x[ii,0],cnn_x[ii,1],s = 40,
- c = colors[y],marker = shapes[y])
- plt.title("CondensedNearestNeighbour")
- ## 欠采样算法AllKNN
- plt.subplot(2,2,3)
- for ii,y in enumerate(allknn_y):
- plt.scatter(allknn_x[ii,0],allknn_x[ii,1],s = 40,
- c = colors[y],marker = shapes[y])
- plt.title("AllKNN")
- ## 欠采样算法NearMiss
- plt.subplot(2,2,4)
- for ii,y in enumerate(nmiss_y):
- plt.scatter(nmiss_x[ii,0],nmiss_x[ii,1],s = 40,
- c = colors[y],marker = shapes[y])
- plt.title("NearMiss")
- plt.show()
运行结果如下:

3种欠采样算法都是减少样本数量较多的数据样本,但是不同的算法生成的样本位置有些差异。
针对数据平衡方法——过采样和欠采样的综合算法,主要介绍SMOTEENN和SMOTETomek两种方式的使用,这两种方式都是使用特定的方法减少样本数量较多类别的数据量,增加样本数量较少类别的数据量,从而使3种数据的样本比例接近1:1:1。
- ## 建议使用较高版本的scikit-learn,例如:pip install scikit-learn==0.23.1
- from imblearn.datasets import make_imbalance
- from imblearn.over_sampling import KMeansSMOTE,SMOTE,SVMSMOTE
- from imblearn.under_sampling import AllKNN,CondensedNearestNeighbour,NearMiss
- from imblearn.combine import SMOTEENN,SMOTETomek
-
- ## 使用主成分分析对酒数据集进行降维
- pca = PCA(n_components = 13,random_state = 123)
- pca.fit(wine_x)
- ## 可以发现使用数据的前3个主成分较合适
- pca_wine_x = pca.transform(wine_x)[:,0:3]
-
- ## 将主成分分析提取的特征处理为类不平衡数据
- im_x,im_y = make_imbalance(pca_wine_x,wine_y,
- sampling_strategy={0: 30, 1: 70, 2: 20},
- random_state=12)
- # print(np.unique(im_y,return_counts = True))
-
-
- ## 使用过采样和欠采样的综合方法SMOTEENN进行数据平衡
- smoteenn = SMOTEENN(random_state=123)
- smoteenn_x, smoteenn_y = smoteenn.fit_resample(im_x,im_y)
- print("SMOTEENN : ",np.unique(smoteenn_y,return_counts = True))
-
- ## 使用过采样和欠采样的综合方法SMOTETomek进行数据平衡
- smoteet = SMOTETomek(random_state=123)
- smoteet_x, smoteet_y = smoteet.fit_resample(im_x,im_y)
- print("SMOTETomek : ",np.unique(smoteet_y,return_counts = True))
运行结果如下:
- SMOTEENN : (array([0, 1, 2]), array([70, 62, 68], dtype=int64))
- SMOTETomek : (array([0, 1, 2]), array([70, 70, 70], dtype=int64))
从输出结果可以发现,3种数据的比例接近1:1:1,但是只有SMOTETomek方式的比例是1:1:1。下面将2种方式获得的数据在二维空间中进行可视化,分析其数据分布和原始数据分布之间的差异,如下:
- ## 使用过采样和欠采样的综合方法SMOTEENN进行数据平衡
- smoteenn = SMOTEENN(random_state=123)
- smoteenn_x, smoteenn_y = smoteenn.fit_resample(im_x,im_y)
- print("SMOTEENN : ",np.unique(smoteenn_y,return_counts = True))
-
- ## 使用过采样和欠采样的综合方法SMOTETomek进行数据平衡
- smoteet = SMOTETomek(random_state=123)
- smoteet_x, smoteet_y = smoteet.fit_resample(im_x,im_y)
- print("SMOTETomek : ",np.unique(smoteet_y,return_counts = True))
-
- ## 可视化不同算法下的数据可视化结果,使用二维散点图
- colors = ["red","blue","green"]
- shapes = ["o","s","*"]
- fig = plt.figure(figsize=(12,5))
- ## 综合采样算法SMOTEENN
- plt.subplot(1,2,1)
- for ii,y in enumerate(smoteenn_y):
- plt.scatter(smoteenn_x[ii,0],smoteenn_x[ii,1],s = 40,
- c = colors[y],marker = shapes[y])
- plt.title("SMOTEENN")
- ## 综合采样算法SMOTETomek
- plt.subplot(1,2,2)
- for ii,y in enumerate(smoteet_y):
- plt.scatter(smoteet_x[ii,0],smoteet_x[ii,1],s = 40,
- c = colors[y],marker = shapes[y])
- plt.title("SMOTETomek")
- plt.show()
运行结果如下:

笔记摘自——《Python机器学习算法与实战》