• 机器学习(8)——特征工程(2)


    目录

    1 特征提取和降维

    1.1 主成分分析

    1.2 核主成分分析

    1.3 流形学习

    1.4 t-SNE

    1.5 多维尺度分析

    2 数据平衡方法

    2.1 基于过采样算法

    2.2 基于欠采样算法

    2.3 基于过采样和欠采样的综合算法


    1 特征提取和降维

    前面介绍的特征选择方法获得的特征,是从原始数据中抽取出来的,并没有对数据进行变换。而特征提取和降维,则是对原始数据特征进行相应的数据变换,并且通常会选择比原始特征数量少的特征,同时达到数据降维的目的。常用的特征提取和降维方法有主成分分析、核主成分分析、流形学习、t-SNE、多维尺度分析等方法。

    首先将前面使用的酒精数据集中每个特征进行数据标准化,如下:

    1. ## 图像显示中文的问题
    2. import matplotlib
    3. matplotlib.rcParams['axes.unicode_minus']=False
    4. import seaborn as sns
    5. sns.set(font= "Kaiti",style="ticks",font_scale=1.4)
    6. ## 导入会使用到的库
    7. import numpy as np
    8. import pandas as pd
    9. import matplotlib.pyplot as plt
    10. from mpl_toolkits.mplot3d import Axes3D
    11. from sklearn import preprocessing
    12. from scipy.stats import boxcox
    13. import re
    14. from sklearn.metrics.pairwise import cosine_similarity
    15. from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
    16. ##以上设置和库的导入不在重复,以下程序只会导入新的模块
    17. from sklearn.feature_selection import VarianceThreshold,f_classif
    18. ## 导入取酒的多分类数据集,用于演示
    19. from sklearn.datasets import load_wine
    20. wine_x,wine_y = load_wine(return_X_y=True)
    21. from sklearn.decomposition import PCA, KernelPCA
    22. from sklearn.manifold import Isomap, MDS, TSNE
    23. from sklearn.preprocessing import StandardScaler
    24. ## 对酒的特征数据进行标准化
    25. wine_x,wine_y = load_wine(return_X_y=True)
    26. wine_x = StandardScaler().fit_transform(wine_x)

    1.1 主成分分析

    主成分分析(Principal Component Analysis, PCA)是采用一种数学降维的方法,在损失很少信息的前提下,找出几个综合变量作为主成分,来代替原来众多的变量,使这些主成分能够尽可能地代表原始数据的信息,其中每个主成分都是原始变量的线性组合,而且各个主成分之间不相关(线性无关)。通过主成分分析,可以从事物错综复杂的关系中找到一些主要成分(通常选择累积贡献率≥85%的前m个成分),从而能够有效利用大量统计信息进行定性分析,揭示变量之间的内在关系,得到一些对事物特征及其发展规律的深层次信息和启发,推动研究进一步深入。通常情况下使用的主成分个数远小于原始特征个数,所以可以起到特征提取和降维的目的。

    针对准备好的酒精数据集wine_x,下面对其进行主成分分析,从原始数据中提取特征,在程序中获取了数据的13个主成分数据,并且可视化出每个主成分对数据的解释方差大小。

    1. ## 使用主成分分析对酒数据集进行降维
    2. pca = PCA(n_components = 13,random_state = 123)
    3. pca.fit(wine_x)
    4. ## 可视化主成分分析的解释方差得分
    5. exvar = pca.explained_variance_
    6. plt.figure(figsize=(10,6))
    7. plt.plot(exvar,"r-o")
    8. plt.hlines(y = 1, xmin = 0, xmax = 12)
    9. plt.xlabel("特征数量")
    10. plt.ylabel("解释方差大小")
    11. plt.title("主成分分析")
    12. plt.show()

    运行结果如下:

    从图中可以发现,主成分分析结果使用数据的前3个主成分即可对其进行良好的数据建模。针对获取的数据前3个主成分特征,可以在三维(3D)空间中将数据的分布进行可视化,如下:

    1. ## 使用主成分分析对酒数据集进行降维
    2. pca = PCA(n_components = 13,random_state = 123)
    3. pca.fit(wine_x)
    4. ## 可以发现使用数据的前3个主成分较合适
    5. pca_wine_x = pca.transform(wine_x)[:,0:3]
    6. print(pca_wine_x.shape)
    7. ## 在3D空间中可视化主成分分析后的数据空间分布
    8. colors = ["red","blue","green"]
    9. shapes = ["o","s","*"]
    10. fig = plt.figure(figsize=(10,6))
    11. ## 将坐标系设置为3D
    12. ax1 = fig.add_subplot(111, projection="3d")
    13. for ii,y in enumerate(wine_y):
    14. ax1.scatter(pca_wine_x[ii,0],pca_wine_x[ii,1],pca_wine_x[ii,2],
    15. s = 40,c = colors[y],marker = shapes[y])
    16. ax1.set_xlabel("主成分1",rotation=20)
    17. ax1.set_ylabel("主成分2",rotation=-20)
    18. ax1.set_zlabel("主成分3",rotation=90)
    19. ax1.azim = 225
    20. ax1.set_title("主成分特征空间可视化")
    21. plt.show()

     运行结果如下:

    (178, 3)

    1.2 核主成分分析

    PCA是线性的数据降维技术,而核主成分分析(KPCA)可以得到数据的非线性表示,进行数据特征提取的同时可以对数据进行降维。下面使用KernelPCA()函数对数据进行特征提取和降维,指定核函数时使用"rbf"核,如下:

    1. ## 使用核主成分分析获取数据的主成分
    2. kpca = KernelPCA(n_components = 13,kernel = "rbf", ## 核函数为rbf核
    3. gamma = 0.2,random_state = 123)
    4. kpca.fit(wine_x)
    5. ## 可视化核主成分分析的中心矩阵特征值
    6. lambdas = kpca.lambdas_
    7. plt.figure(figsize=(10,6))
    8. plt.plot(lambdas,"r-o")
    9. plt.hlines(y = 4, xmin = 0, xmax = 12)
    10. plt.xlabel("特征数量")
    11. plt.ylabel("中心核矩阵的特征值大小")
    12. plt.title("核主成分分析")
    13. plt.show()
    14. ## 可以发现使用数据的前3个核主成分较合适

     运行结果如下:

    针对该数据同样可以使用数据的前3个核主成分作为提取到的特征。

     针对获取的数据前3个核主成分特征,可以在三维(3D)空间中将数据的分布进行可视化,如下:

    1. ## 使用核主成分分析获取数据的主成分
    2. kpca = KernelPCA(n_components = 13,kernel = "rbf", ## 核函数为rbf核
    3. gamma = 0.2,random_state = 123)
    4. kpca.fit(wine_x)
    5. # ## 可视化核主成分分析的中心矩阵特征值
    6. # lambdas = kpca.lambdas_
    7. # plt.figure(figsize=(10,6))
    8. # plt.plot(lambdas,"r-o")
    9. # plt.hlines(y = 4, xmin = 0, xmax = 12)
    10. # plt.xlabel("特征数量")
    11. # plt.ylabel("中心核矩阵的特征值大小")
    12. # plt.title("核主成分分析")
    13. # plt.show()
    14. #
    15. # ## 可以发现使用数据的前3个核主成分较合适
    16. ## 获取前3个核主成分
    17. kpca_wine_x = kpca.transform(wine_x)[:,0:3]
    18. print(kpca_wine_x.shape)
    19. ## 在3D空间中可视化主成分分析后的数据空间分布
    20. colors = ["red","blue","green"]
    21. shapes = ["o","s","*"]
    22. fig = plt.figure(figsize=(10,6))
    23. ## 将坐标系设置为3D
    24. ax1 = fig.add_subplot(111, projection="3d")
    25. for ii,y in enumerate(wine_y):
    26. ax1.scatter(kpca_wine_x[ii,0],kpca_wine_x[ii,1],kpca_wine_x[ii,2],
    27. s = 40,c = colors[y],marker = shapes[y])
    28. ax1.set_xlabel("核主成分1",rotation=20)
    29. ax1.set_ylabel("核主成分2",rotation=-20)
    30. ax1.set_zlabel("核主成分3",rotation=90)
    31. ax1.azim = 225
    32. ax1.set_title("核主成分特征空间可视化")
    33. plt.show()

     运行结果如下:

    (178, 3)

    1.3 流形学习

    流形学习是借鉴了拓扑流形概念的一种降维方法。流形学习可以用于数据降维,当维度降低到二维或者三维时可以对数据进行可视化。因为流形学习使用近邻的距离来计算高维空间中样本点的距离,所以近邻的个数对流形降维得到的结果影响也很大。下面以前面的酒数据wine_x为例,使用流形学习对其进行特征提取并降维,获取数据的3个主要特征,并通过可视化观察样本在三维空间的位置,如下,程序中使用了7个近邻计算距离。

    1. from sklearn.feature_selection import VarianceThreshold,f_classif
    2. ## 导入取酒的多分类数据集,用于演示
    3. from sklearn.datasets import load_wine
    4. wine_x,wine_y = load_wine(return_X_y=True)
    5. from sklearn.decomposition import PCA, KernelPCA
    6. from sklearn.manifold import Isomap, MDS, TSNE
    7. from sklearn.preprocessing import StandardScaler
    8. ## 对酒的特征数据进行标准化
    9. wine_x,wine_y = load_wine(return_X_y=True)
    10. wine_x = StandardScaler().fit_transform(wine_x)
    11. ## 流行学习进行数据的非线性降维
    12. isomap = Isomap(n_neighbors = 7,## 每个点考虑的近邻数量
    13. n_components = 3) ## 降维到3维空间中
    14. ## 获取降维后的数据
    15. isomap_wine_x = isomap.fit_transform(wine_x)
    16. print(isomap_wine_x.shape)
    17. ## 在3D空间中可视化流行降维后的数据空间分布
    18. colors = ["red","blue","green"]
    19. shapes = ["o","s","*"]
    20. fig = plt.figure(figsize=(10,6))
    21. ## 将坐标系设置为3D
    22. ax1 = fig.add_subplot(111, projection="3d")
    23. for ii,y in enumerate(wine_y):
    24. ax1.scatter(isomap_wine_x[ii,0],isomap_wine_x[ii,1],isomap_wine_x[ii,2],
    25. s = 40,c = colors[y],marker = shapes[y])
    26. ax1.set_xlabel("特征1",rotation=20)
    27. ax1.set_ylabel("特征2",rotation=-20)
    28. ax1.set_zlabel("特征3",rotation=90)
    29. ax1.azim = 225
    30. ax1.set_title("Isomap降维可视化")
    31. plt.show()

     运行结果如下:

    利用Isomap方法获得的3个特征,3种数据在三维空间分布上并不是很容易以区分。

    1.4 t-SNE

     t-SNE是一种常用的数据降维方法,同时也可以作为一种特征提取方法,针对酒精数据集wine_x,使用 t-SNE算法将其降维到三维空间中,同时提取数据上的3个特征:

    1. ## TSNE进行数据的降维,降维到3维空间中
    2. tsne = TSNE(n_components = 3,perplexity =25,
    3. early_exaggeration =3,random_state=123)
    4. ## 获取降维后的数据
    5. tsne_wine_x = tsne.fit_transform(wine_x)
    6. print(tsne_wine_x.shape)
    7. ## 在3D空间中可视化流行降维后的数据空间分布
    8. colors = ["red","blue","green"]
    9. shapes = ["o","s","*"]
    10. fig = plt.figure(figsize=(10,6))
    11. ## 将坐标系设置为3D
    12. ax1 = fig.add_subplot(111, projection="3d")
    13. for ii,y in enumerate(wine_y):
    14. ax1.scatter(tsne_wine_x[ii,0],tsne_wine_x[ii,1],tsne_wine_x[ii,2],
    15. s = 40,c = colors[y],marker = shapes[y])
    16. ax1.set_xlabel("特征1",rotation=20)
    17. ax1.set_ylabel("特征2",rotation=-20)
    18. ax1.set_zlabel("特征3",rotation=90)
    19. ax1.azim = 225
    20. ax1.set_title("TSNE降维可视化")
    21. plt.show()

     运行结果如下:

    (178, 3)

     在t-SNE算法下三种数据的分布较容易区分,同时也表明利用提取到的特征对数据进行判别分类时会更加容易。

    1.5 多维尺度分析

    多维尺度分析是一种通过数据在低维空间的可视化,从而对高维数据进行可视化展示的方法。多维尺度分析的目标是:在将原始数据降维到一个低维坐标系中,同时保证通过降维所引起的任何形变达到最小。为了方便可视化多维尺度分析后的数据分布情况,通常会将数据降维到二维或者三维。可以使用sklearn库中的MDS()函数进行数据的多维尺度分析,下面的程序将酒数据集wine_x降维到三维空间中并将结果可视化:

    1. ## MDS进行数据的降维,降维到3维空间中
    2. mds = MDS(n_components = 3,dissimilarity = "euclidean",random_state=123)
    3. ## 获取降维后的数据
    4. mds_wine_x = mds.fit_transform(wine_x)
    5. print(mds_wine_x.shape)
    6. ## 在3D空间中可视化流行降维后的数据空间分布
    7. colors = ["red","blue","green"]
    8. shapes = ["o","s","*"]
    9. fig = plt.figure(figsize=(10,6))
    10. ## 将坐标系设置为3D
    11. ax1 = fig.add_subplot(111, projection="3d")
    12. for ii,y in enumerate(wine_y):
    13. ax1.scatter(mds_wine_x[ii,0],mds_wine_x[ii,1],mds_wine_x[ii,2],
    14. s = 40,c = colors[y],marker = shapes[y])
    15. ax1.set_xlabel("特征1",rotation=20)
    16. ax1.set_ylabel("特征2",rotation=-20)
    17. ax1.set_zlabel("特征3",rotation=90)
    18. ax1.azim = 225
    19. ax1.set_title("MDS降维可视化")
    20. plt.show()

    运行结果如下:

    (178, 3)

    2 数据平衡方法

    大多数情况下,使用的数据集是不完美的,会出现各种各样的问题,尤其针对分类问题时,可能会出现类别不平衡的问题。例如,在垃圾邮件分类时,垃圾邮件数据会有较少的样本量,从而导致两种类型的邮件数量差别很大;在欺诈检测数据集中,往往包含的欺诈样本并没有那么多。在处理这类数据集的分类时,需要对数据集的类不平衡问题进行处理。解决数据不平衡问题常用的方法如下:

    (1)过采样:针对稀有类样本数据进行复制,如原始训练集中包含100个正样本,1000个负样本,可采用某种方式对正样本进行复制,以达到1000个正样本。

    (2)欠采样:随机剔除数量多的样本,如原始训练集中包含100个正样本,1000个负样本,可以采用某种方式对负样本进行随机剔除,只保留100个样本。

    (3)欠采样和过采样的综合方法:针对稀有类样本数据进行复制,剔除数量多的样本,最终保持两类数据的样本量基本一致。

    (4)阈值移动:该方法不涉及采样,而是根据输出值返回决策分类,如朴素贝叶斯方法,可以通过调整判别正负类的阈值来调整分类结果。如原始结果输出概率>0.5,则分类为1,可以将阈值从0.5提高到0.6,只有当预测概率>0.6时,才判定类别为1。

    前面的4种数据平衡方法,都不涉及对分类模型的改变,其中过采样和欠采样只改变训练集中数据样本的分布;阈值移动只对新数据分类时模型如何做出决策有影响。使用采样技术平衡数据时,也会存在多种变形,可能会因为增加或者减少数据的不同方式而存在差异。如SMOTE算法使用过采样的方式平衡数据,当原始训练集中包含100个正样本和1000个负样本,算法会把靠近给定的正元组的部分生成新的数据添加到训练集中。

    python的imblearn库是专门用来处理数据不平衡问题的库。下面通过imblearn库使用上述前3种方式,处理数据中的不平衡问题。首先准备不平衡数据,这些数据时前面使用的酒数据的主成分特征,使用make_imbalance()函数,分别从数据中每类抽取30、70和20个样本,从而获得一个各类数据较不平衡的新数据:

    1. ## 建议使用较高版本的scikit-learn,例如:pip install scikit-learn==0.23.1
    2. from imblearn.datasets import make_imbalance
    3. from imblearn.over_sampling import KMeansSMOTE,SMOTE,SVMSMOTE
    4. from imblearn.under_sampling import AllKNN,CondensedNearestNeighbour,NearMiss
    5. from imblearn.combine import SMOTEENN,SMOTETomek
    6. ## 使用主成分分析对酒数据集进行降维
    7. pca = PCA(n_components = 13,random_state = 123)
    8. pca.fit(wine_x)
    9. ## 可以发现使用数据的前3个主成分较合适
    10. pca_wine_x = pca.transform(wine_x)[:,0:3]
    11. ## 将主成分分析提取的特征处理为类不平衡数据
    12. im_x,im_y = make_imbalance(pca_wine_x,wine_y,
    13. sampling_strategy={0: 30, 1: 70, 2: 20},
    14. random_state=12)
    15. print(np.unique(im_y,return_counts = True))

    运行结果如下:

    (array([0, 1, 2]), array([30, 70, 20], dtype=int64))

    2.1 基于过采样算法

    针对数据平衡方法——过采样,主要介绍KMeansSMOTE、SMOTE和SVMSMOTE这3种方式的使用。这些方法都是使用特定的方式增加样本数量较少类别的数据量,从而使3种数据的样本比例接近1:1:1。

    1. ## 使用过采样算法KMeansSMOTE进行数据平衡
    2. kmeans = KMeansSMOTE(random_state=123, k_neighbors=3)
    3. kmeans_x, kmeans_y = kmeans.fit_resample(im_x,im_y)
    4. print("KMeansSMOTE : ",np.unique(kmeans_y,return_counts = True))
    5. ## 使用过采样算法SMOTE进行数据平衡
    6. smote = SMOTE(random_state=123, k_neighbors=3)
    7. smote_x, smote_y = smote.fit_resample(im_x,im_y)
    8. print("SMOTE : ",np.unique(smote_y,return_counts = True))
    9. ## 使用过采样算法SVMSMOTE进行数据平衡
    10. svms = SVMSMOTE(random_state=123, k_neighbors=3)
    11. svms_x, svms_y = svms.fit_resample(im_x,im_y)
    12. print("SVMSMOTE : ",np.unique(svms_y,return_counts = True))

    运行结果如下:

    1. KMeansSMOTE : (array([0, 1, 2]), array([72, 70, 70], dtype=int64))
    2. SMOTE : (array([0, 1, 2]), array([70, 70, 70], dtype=int64))
    3. SVMSMOTE : (array([0, 1, 2]), array([70, 70, 53], dtype=int64))

    从输出结果可以发现,3种数据的比例接近1:1:1,但是只有SMOTE方式的比例是1:1:1。下面将3种方式获得的数据在二维空间中进行可视化,分析其数据分布和原始数据分布之间的差异,如下:

    1. ## 建议使用较高版本的scikit-learn,例如:pip install scikit-learn==0.23.1
    2. from imblearn.datasets import make_imbalance
    3. from imblearn.over_sampling import KMeansSMOTE,SMOTE,SVMSMOTE
    4. from imblearn.under_sampling import AllKNN,CondensedNearestNeighbour,NearMiss
    5. from imblearn.combine import SMOTEENN,SMOTETomek
    6. ## 使用主成分分析对酒数据集进行降维
    7. pca = PCA(n_components = 13,random_state = 123)
    8. pca.fit(wine_x)
    9. ## 可以发现使用数据的前3个主成分较合适
    10. pca_wine_x = pca.transform(wine_x)[:,0:3]
    11. ## 将主成分分析提取的特征处理为类不平衡数据
    12. im_x,im_y = make_imbalance(pca_wine_x,wine_y,
    13. sampling_strategy={0: 30, 1: 70, 2: 20},
    14. random_state=12)
    15. # print(np.unique(im_y,return_counts = True))
    16. ## 使用过采样算法KMeansSMOTE进行数据平衡
    17. kmeans = KMeansSMOTE(random_state=123, k_neighbors=3)
    18. kmeans_x, kmeans_y = kmeans.fit_resample(im_x,im_y)
    19. print("KMeansSMOTE : ",np.unique(kmeans_y,return_counts = True))
    20. ## 使用过采样算法SMOTE进行数据平衡
    21. smote = SMOTE(random_state=123, k_neighbors=3)
    22. smote_x, smote_y = smote.fit_resample(im_x,im_y)
    23. print("SMOTE : ",np.unique(smote_y,return_counts = True))
    24. ## 使用过采样算法SVMSMOTE进行数据平衡
    25. svms = SVMSMOTE(random_state=123, k_neighbors=3)
    26. svms_x, svms_y = svms.fit_resample(im_x,im_y)
    27. print("SVMSMOTE : ",np.unique(svms_y,return_counts = True))
    28. ## 可视化不同算法下的数据可视化结果,使用二维散点图
    29. colors = ["red","blue","green"]
    30. shapes = ["o","s","*"]
    31. fig = plt.figure(figsize=(14,10))
    32. ## 原始数据分布
    33. plt.subplot(2,2,1)
    34. for ii,y in enumerate(im_y):
    35. plt.scatter(im_x[ii,0],im_x[ii,1],s = 40,
    36. c = colors[y],marker = shapes[y])
    37. plt.title("不平衡数据")
    38. ## 过采样算法KMeansSMOTE
    39. plt.subplot(2,2,2)
    40. for ii,y in enumerate(kmeans_y):
    41. plt.scatter(kmeans_x[ii,0],kmeans_x[ii,1],s = 40,
    42. c = colors[y],marker = shapes[y])
    43. plt.title("KMeansSMOTE")
    44. ## 过采样算法SMOTE
    45. plt.subplot(2,2,3)
    46. for ii,y in enumerate(smote_y):
    47. plt.scatter(smote_x[ii,0],smote_x[ii,1],s = 40,
    48. c = colors[y],marker = shapes[y])
    49. plt.title("SMOTE")
    50. ## 过采样算法SVMSMOTE
    51. plt.subplot(2,2,4)
    52. for ii,y in enumerate(svms_y):
    53. plt.scatter(svms_x[ii,0],svms_x[ii,1],s = 40,
    54. c = colors[y],marker = shapes[y])
    55. plt.title("SVMSMOTE")
    56. plt.show()

    运行结果如下:

    3种过采样算法都是在少样本的数据类周围生成新的样本数量,但是不同的算法生成的样本位置有些差异。

    2.2 基于欠采样算法

    针对数据平衡方法——欠采样,主要介绍CondensedNearestNeighbour、AllKNN和NearMiss共3种方式的使用,这些方式都是使用特定的方法减少样本数量较多类别的样本量,从而使3种数据的样本比例接近1:1:1。

    1. ## 建议使用较高版本的scikit-learn,例如:pip install scikit-learn==0.23.1
    2. from imblearn.datasets import make_imbalance
    3. from imblearn.over_sampling import KMeansSMOTE,SMOTE,SVMSMOTE
    4. from imblearn.under_sampling import AllKNN,CondensedNearestNeighbour,NearMiss
    5. from imblearn.combine import SMOTEENN,SMOTETomek
    6. ## 使用主成分分析对酒数据集进行降维
    7. pca = PCA(n_components = 13,random_state = 123)
    8. pca.fit(wine_x)
    9. ## 可以发现使用数据的前3个主成分较合适
    10. pca_wine_x = pca.transform(wine_x)[:,0:3]
    11. ## 将主成分分析提取的特征处理为类不平衡数据
    12. im_x,im_y = make_imbalance(pca_wine_x,wine_y,
    13. sampling_strategy={0: 30, 1: 70, 2: 20},
    14. random_state=12)
    15. # print(np.unique(im_y,return_counts = True))
    16. ## 使用欠采样算法CondensedNearestNeighbour进行数据平衡
    17. cnn = CondensedNearestNeighbour(random_state=123, n_neighbors=7,n_seeds_S = 20)
    18. cnn_x, cnn_y = cnn.fit_resample(im_x,im_y)
    19. print("CondensedNearestNeighbour : ",np.unique(cnn_y,return_counts = True))
    20. ## 使用欠采样算法AllKNN进行数据平衡
    21. allknn = AllKNN(n_neighbors=10)
    22. allknn_x, allknn_y = allknn.fit_resample(im_x,im_y)
    23. print("AllKNN : ",np.unique(allknn_y,return_counts = True))
    24. ## 使用欠采样算法NearMiss进行数据平衡
    25. nmiss = NearMiss(n_neighbors=3)
    26. nmiss_x, nmiss_y = nmiss.fit_resample(im_x,im_y)
    27. print("NearMiss : ",np.unique(nmiss_y,return_counts = True))

    运行结果如下:

    1. CondensedNearestNeighbour : (array([0, 1, 2]), array([20, 23, 20], dtype=int64))
    2. AllKNN : (array([0, 1, 2]), array([21, 54, 20], dtype=int64))
    3. NearMiss : (array([0, 1, 2]), array([20, 20, 20], dtype=int64))

    从输出结果可以发现,3种数据的比例接近1:1:1,但是只有NearMiss方式的比例是1:1:1。下面将3种方式获得的数据在二维空间中进行可视化,分析其数据分布和原始数据分布之间的差异,如下:

    1. ## 使用欠采样算法CondensedNearestNeighbour进行数据平衡
    2. cnn = CondensedNearestNeighbour(random_state=123, n_neighbors=7,n_seeds_S = 20)
    3. cnn_x, cnn_y = cnn.fit_resample(im_x,im_y)
    4. print("CondensedNearestNeighbour : ",np.unique(cnn_y,return_counts = True))
    5. ## 使用欠采样算法AllKNN进行数据平衡
    6. allknn = AllKNN(n_neighbors=10)
    7. allknn_x, allknn_y = allknn.fit_resample(im_x,im_y)
    8. print("AllKNN : ",np.unique(allknn_y,return_counts = True))
    9. ## 使用欠采样算法NearMiss进行数据平衡
    10. nmiss = NearMiss(n_neighbors=3)
    11. nmiss_x, nmiss_y = nmiss.fit_resample(im_x,im_y)
    12. print("NearMiss : ",np.unique(nmiss_y,return_counts = True))
    13. ## 可视化不同算法下的数据可视化结果,使用二维散点图
    14. colors = ["red","blue","green"]
    15. shapes = ["o","s","*"]
    16. fig = plt.figure(figsize=(14,10))
    17. ## 原始数据分布
    18. plt.subplot(2,2,1)
    19. for ii,y in enumerate(im_y):
    20. plt.scatter(im_x[ii,0],im_x[ii,1],s = 40,
    21. c = colors[y],marker = shapes[y])
    22. plt.title("不平衡数据")
    23. ## 欠采样算法CondensedNearestNeighbour
    24. plt.subplot(2,2,2)
    25. for ii,y in enumerate(cnn_y):
    26. plt.scatter(cnn_x[ii,0],cnn_x[ii,1],s = 40,
    27. c = colors[y],marker = shapes[y])
    28. plt.title("CondensedNearestNeighbour")
    29. ## 欠采样算法AllKNN
    30. plt.subplot(2,2,3)
    31. for ii,y in enumerate(allknn_y):
    32. plt.scatter(allknn_x[ii,0],allknn_x[ii,1],s = 40,
    33. c = colors[y],marker = shapes[y])
    34. plt.title("AllKNN")
    35. ## 欠采样算法NearMiss
    36. plt.subplot(2,2,4)
    37. for ii,y in enumerate(nmiss_y):
    38. plt.scatter(nmiss_x[ii,0],nmiss_x[ii,1],s = 40,
    39. c = colors[y],marker = shapes[y])
    40. plt.title("NearMiss")
    41. plt.show()

    运行结果如下:

     3种欠采样算法都是减少样本数量较多的数据样本,但是不同的算法生成的样本位置有些差异。

    2.3 基于过采样和欠采样的综合算法

    针对数据平衡方法——过采样和欠采样的综合算法,主要介绍SMOTEENN和SMOTETomek两种方式的使用,这两种方式都是使用特定的方法减少样本数量较多类别的数据量,增加样本数量较少类别的数据量,从而使3种数据的样本比例接近1:1:1。

    1. ## 建议使用较高版本的scikit-learn,例如:pip install scikit-learn==0.23.1
    2. from imblearn.datasets import make_imbalance
    3. from imblearn.over_sampling import KMeansSMOTE,SMOTE,SVMSMOTE
    4. from imblearn.under_sampling import AllKNN,CondensedNearestNeighbour,NearMiss
    5. from imblearn.combine import SMOTEENN,SMOTETomek
    6. ## 使用主成分分析对酒数据集进行降维
    7. pca = PCA(n_components = 13,random_state = 123)
    8. pca.fit(wine_x)
    9. ## 可以发现使用数据的前3个主成分较合适
    10. pca_wine_x = pca.transform(wine_x)[:,0:3]
    11. ## 将主成分分析提取的特征处理为类不平衡数据
    12. im_x,im_y = make_imbalance(pca_wine_x,wine_y,
    13. sampling_strategy={0: 30, 1: 70, 2: 20},
    14. random_state=12)
    15. # print(np.unique(im_y,return_counts = True))
    16. ## 使用过采样和欠采样的综合方法SMOTEENN进行数据平衡
    17. smoteenn = SMOTEENN(random_state=123)
    18. smoteenn_x, smoteenn_y = smoteenn.fit_resample(im_x,im_y)
    19. print("SMOTEENN : ",np.unique(smoteenn_y,return_counts = True))
    20. ## 使用过采样和欠采样的综合方法SMOTETomek进行数据平衡
    21. smoteet = SMOTETomek(random_state=123)
    22. smoteet_x, smoteet_y = smoteet.fit_resample(im_x,im_y)
    23. print("SMOTETomek : ",np.unique(smoteet_y,return_counts = True))

    运行结果如下:

    1. SMOTEENN : (array([0, 1, 2]), array([70, 62, 68], dtype=int64))
    2. SMOTETomek : (array([0, 1, 2]), array([70, 70, 70], dtype=int64))

    从输出结果可以发现,3种数据的比例接近1:1:1,但是只有SMOTETomek方式的比例是1:1:1。下面将2种方式获得的数据在二维空间中进行可视化,分析其数据分布和原始数据分布之间的差异,如下:

    1. ## 使用过采样和欠采样的综合方法SMOTEENN进行数据平衡
    2. smoteenn = SMOTEENN(random_state=123)
    3. smoteenn_x, smoteenn_y = smoteenn.fit_resample(im_x,im_y)
    4. print("SMOTEENN : ",np.unique(smoteenn_y,return_counts = True))
    5. ## 使用过采样和欠采样的综合方法SMOTETomek进行数据平衡
    6. smoteet = SMOTETomek(random_state=123)
    7. smoteet_x, smoteet_y = smoteet.fit_resample(im_x,im_y)
    8. print("SMOTETomek : ",np.unique(smoteet_y,return_counts = True))
    9. ## 可视化不同算法下的数据可视化结果,使用二维散点图
    10. colors = ["red","blue","green"]
    11. shapes = ["o","s","*"]
    12. fig = plt.figure(figsize=(12,5))
    13. ## 综合采样算法SMOTEENN
    14. plt.subplot(1,2,1)
    15. for ii,y in enumerate(smoteenn_y):
    16. plt.scatter(smoteenn_x[ii,0],smoteenn_x[ii,1],s = 40,
    17. c = colors[y],marker = shapes[y])
    18. plt.title("SMOTEENN")
    19. ## 综合采样算法SMOTETomek
    20. plt.subplot(1,2,2)
    21. for ii,y in enumerate(smoteet_y):
    22. plt.scatter(smoteet_x[ii,0],smoteet_x[ii,1],s = 40,
    23. c = colors[y],marker = shapes[y])
    24. plt.title("SMOTETomek")
    25. plt.show()

    运行结果如下:

     笔记摘自——《Python机器学习算法与实战》

  • 相关阅读:
    在 C/C++ 中清除输入缓冲区
    网线制作方法
    java计算机毕业设计数据分析星辰网智能手机销售网站(附源码、数据库)
    【大模型应用开发教程】02_LangChain介绍
    Java实现简单的俄罗斯方块游戏
    运算符与运算表达式
    【App自动化测试】(三)使用Appium进行自动化用例录制
    自动驾驶中的人机互相接管问题讨论
    python篇---python 用opencv读取rtsp视频流(二)
    画中画视频剪辑:批量制作画中画视频,让视频更具吸引力和创意
  • 原文地址:https://blog.csdn.net/WHJ226/article/details/125445541