• 猿创征文|机器学习实战(9)——降维


    目录

    1 主成分

    2 低维度投影

    3 方差解释率

    4 选择正确数量的维度

    5 PCA压缩

    6 增量PCA

    7 核主成分分析

    8 选择核函数和调整超参数

    9 局部线性嵌入

    10 其他降维技巧


    数据降维会丢失一些信息(好比压缩图像带来的效果一样),所以,它虽然能够加速训练,但是也会轻微降低系统性能。

    我们简要说一下降维的两种主要方法:投影和流形学习。投影:高维空间的所有训练实例实际上受一个低得多的低维子空间所影响,将训练实例投影到该子空间就是投影。但许多情况下,子空间可能是弯曲的或转动的,就引入了流形学习。流形假设(流形假说)认为大多数现实世界的高维度数据集存在一个低维度的流形来重新表示。我们可以把瑞士卷看做一个二维流形的例子。更概括的说,d维流形就是n维空间的一部分(d

    主成分分析(PCA)是迄今最流行的降维算法。它能识别出最接近数据的超平面,然后将数据投影该平面。同时该超平面也保留了数据最大差异性。

    常规模块的导入以及图像可视化的设置:

    1. # Common imports
    2. import numpy as np
    3. import os
    4. # to make this notebook's output stable across runs
    5. np.random.seed(42)
    6. # To plot pretty figures
    7. %matplotlib inline
    8. import matplotlib as mpl
    9. import matplotlib.pyplot as plt
    10. mpl.rc('axes', labelsize=14)
    11. mpl.rc('xtick', labelsize=12)
    12. mpl.rc('ytick', labelsize=12)

    1 主成分

    主成分分析(PCA)可以在训练集中识别出哪条轴(一维超平面)对差异性的贡献度最高。即下图中由实线表示的轴。同时它也找出了第二条轴,它对剩余差异性的贡献度最高,与第一条轴垂直。

    选择投影的子空间

    定义第i条轴的单位向量就叫作第i个主成分。上图中,第一个主成分是c1,第二个主成分是c2。前两个主成分是平面里正交的箭头所示,第三个主成分则垂直于平面。

    那么我们该怎么找到训练集的主成分呢?我们有一种标准矩阵分解技术,叫作奇异值分解(SVD)。它可以将训练集矩阵X分解成三个矩阵的点积  U\cdot \Sigma \cdot V^{T} ,其中 V^{T} 正包含我们想要的所有主成分,公式如下:

    主成分矩阵

    下面的代码使用NumPy的svd()函数来获取训练集中所有主成分,并提取前两个:

    1. #3D数据集
    2. np.random.seed(4)
    3. m = 60
    4. w1, w2 = 0.1, 0.3
    5. noise = 0.1
    6. angles = np.random.rand(m) * 3 * np.pi / 2 - 0.5
    7. X = np.empty((m, 3))
    8. X[:, 0] = np.cos(angles) + np.sin(angles)/2 + noise * np.random.randn(m) / 2
    9. X[:, 1] = np.sin(angles) * 0.7 + noise * np.random.randn(m) / 2
    10. X[:, 2] = X[:, 0] * w1 + X[:, 1] * w2 + noise * np.random.randn(m)
    11. #获取主成分
    12. X_centered = X - X.mean(axis=0)
    13. U, s, Vt = np.linalg.svd(X_centered)
    14. c1 = Vt.T
  • 相关阅读:
    VScode + opencv + c++ + win配置教程
    Netty入门指南之Reactor模型
    oracle10g的dataguard测试
    对一门不是非常熟悉的语言是怎么面试的
    err = nil,但是被判断为false
    MATLAB BP神经网络 笔记整理
    python办公自动化(九)os模块统计文件名、批量重命名、文件压缩
    C语言指针速成下篇
    成功上岸,刚转行自学Python的小姑娘,每个月入1W+......
    【小程序原生】
  • 原文地址:https://blog.csdn.net/WHJ226/article/details/126651882