经典的降维算法PCA
按列进行标准化
对标准化后的矩阵计算协方差矩阵
当然也可以两步合成一步,直接计算x矩阵的样本相关系数矩阵(在第五章皮尔逊相关系数那讲提过)
学完线性代数一年多了都快忘记啥是特征值和特征向量了
截取:
求特征向量,就是把矩阵A所代表的空间进行正交分解,使得A的向量集合可以表示为每个向量a在各个特征向量上的投影长度。我们通常求特征值和特征向量即为求出这个矩阵能使哪些向量只发生拉伸,而方向不发生变化,观察其发生拉伸的程度。这样做的意义在于,看清一个矩阵在哪些方面能产生最大的分散度(scatter),减少重叠,意味着更多的信息被保留下来
每一个贡献率就是特征值/特征值的和
算累计贡献率
确定主成分:比如前两个主成分累积贡献率超过80%,那就取前两个主成分
主成分的系数是其特征向量
这里其实指标也不算多,就8个,还是可以写全的。如果说太多指标的话,可以像上面一样不写全
主成分分析是对指标进行线性组合,适合对相关性强的指标进行降维
clear;clc
load data1.mat % 主成分聚类
% load data2.mat % 主成分回归
% 注意,这里可以对数据先进行描述性统计
% 描述性统计的内容见第5讲.相关系数
[n,p] = size(x); % n是样本个数,p是指标个数
%% 第一步:对数据x标准化为X
X=zscore(x); % matlab内置的标准化函数(x-mean(x))/std(x)
%% 第二步:计算样本协方差矩阵
R = cov(X);
%% 注意:以上两步可合并为下面一步:直接计算样本相关系数矩阵
R = corrcoef(x);
disp('样本相关系数矩阵为:')
disp(R)
%% 第三步:计算R的特征值和特征向量
% 注意:R是半正定矩阵,所以其特征值不为负数
% R同时是对称矩阵,Matlab计算对称矩阵时,会将特征值按照从小到大排列哦
% eig函数的详解见第一讲层次分析法的视频
[V,D] = eig(R); % V 特征向量矩阵 D 特征值构成的对角矩阵
% rot90函数可以使一个矩阵逆时针旋转90度,然后再转置,就可以实现将矩阵的列颠倒的效果
V=rot90(V)';
diag()函数
计算主成分贡献率和累积贡献率
由于我们要把特征值从大到小排序,使用lambda = lambda(end:-1:1);
使特征向量矩阵也要跟特征值对应(最后一列变为第一列,倒数第二列变为第二列等),进行颠倒,比较巧妙:先逆时针旋转90度,再转置
% rot90函数可以使一个矩阵逆时针旋转90度,然后再转置,就可以实现将矩阵的列颠倒的效果
V=rot90(V)';
cumsum()
是求累加值的函数
%% 第四步:计算主成分贡献率和累计贡献率
lambda = diag(D); % diag函数用于得到一个矩阵的主对角线元素值(返回的是列向量)
lambda = lambda(end:-1:1); % 因为lambda向量是从小大到排序的,我们将其调个头
contribution_rate = lambda / sum(lambda); % 计算贡献率
cum_contribution_rate = cumsum(lambda)/ sum(lambda); % 计算累计贡献率 cumsum是求累加值的函数
disp('特征值为:')
disp(lambda') % 转置为行向量,方便展示
disp('贡献率为:')
disp(contribution_rate')
disp('累计贡献率为:')
disp(cum_contribution_rate')
disp('与特征值对应的特征向量矩阵为:')
% 注意:这里的特征向量要和特征值一一对应,之前特征值相当于颠倒过来了,因此特征向量的各列需要颠倒过来
% rot90函数可以使一个矩阵逆时针旋转90度,然后再转置,就可以实现将矩阵的列颠倒的效果
V=rot90(V)';
disp(V)
%% 计算我们所需要的主成分的值
m =input('请输入需要保存的主成分的个数: ');
F = zeros(n,m); %初始化保存主成分的矩阵(每一列是一个主成分)
for i = 1:m
ai = V(:,i)'; % 将第i个特征向量取出,并转置为行向量
Ai = repmat(ai,n,1); % 将这个行向量重复n次,构成一个n*p的矩阵
F(:, i) = sum(Ai .* X, 2); % 注意,对标准化的数据求了权重后要计算每一行的和
end
这里如果给不出合理的解释,对后续的分析较难进行,所以说主成分分析最难的步骤其实就在于此
像topsis那样不会损失信息,已经有数据了没必要用主成分分析
把指标的属性改了
计算出第一主成分和第二主成分的值,将其视为两个新的指标
(可以在图上直观的展示各样本的分布情况)
将得到的F1,F2导入spss聚类分析
%%主成分聚类 : 将主成分指标所在的F矩阵复制到Excel表格,然后再用Spss聚类
% 在Excel第一行输入指标名称(F1,F2, ..., Fm)
% 双击Matlab工作区的F,进入变量编辑中,然后复制里面的数据到Excel表格
% 导出数据之后,我们后续的分析就可以在Spss中进行。
系统聚类,勾选上谱系图
分为三类:广东、(上海浙江北京)、其他
再系统聚类设定为三类,得到分析结果,更具结果画图(具体操作看第十讲)
本笔记来自清风老师的数学建模,强烈推荐该课程!