笔记内容来源于书籍。
R软件是由统计学家编写,主要用于数据分析,但Python是通用软件,可以完成任何计算机能够完成的任务。相比于R,Python的帮助文档不够丰富,输出的统计结果也不如R软件全面。
[
a
11
a
12
.
.
.
a
14
a
21
a
22
.
.
.
a
24
.
.
.
.
.
.
.
.
.
.
.
.
a
m
1
a
m
2
.
.
.
a
m
n
]
[a11a12...a14a21a22...a24............am1am2...amn]

用初等变换将矩阵变换为行阶梯型矩阵,非零行的数量就是秩。
主成分分析(principal component analysis)是一种降维方法,数据的性质决定能否进行主成分分析,以及使用该分析是否有意义。
R语言代码
library("FactoMineR")
library("factoextra")
u<-w[,-c(12:15)]
row.names(u)=u[,1]
u.r<-PCA(u[,1],scale.unit=TRUE, graph=FALSE)
print(u.r)
fviz_eig(u.r, addlabels=TRUE, ylim=c(0,50))
(u.eigen<-get_eigenvalue(u.r))
fviz_contrib(u。r,choice="var",axes=1)
fviz_pca_var(u.r)
fviz_pca-var(u.r,col.war="cos2",
gradient.cols=c"#00AFBB","#E7B800","#FC4E07",repel=TRUE)
主成分分析在图像处理中的应用:主要进行图像压缩和识别。
和回归分析类似,分类是统计学习中的有指导(或有监督)学习之一。在经典统计中,分类被称为判别分析。而聚类是无指导学习。
对于两水平分类,经典统计主要用Logistic回归方法(二分类)。
分类和聚类看上去很像,但聚类是无监督学习,训练集数据本身的观测值并没有属于某一群的标签。
在分类的算法上,有经典的判别分析。包括线性判别分析和二次判别分析。
二分类因变量的Logistic回归。
判断线性回归的准确性即灵敏性,用ROC曲线很有必要。
机器学习算法:adaboost,随机森林算法,决策树,支持向量机。
降维就是用根据原始变量构造的少数变量来代替多数变量。
主成分分析的在以下条件下无意义:
主成分分析主要为了降维,但是因子分析也可以用于降维。
因子分析主要用于挖掘隐变量,称之为因子。
回归或者分类方法可以用来研究因变量和自变量之间的关系。因子分析则用来研究许多因变量之间的关系,目的是找到影响这些因变量的不可观测的独立变量,而由因子分析得到的结果大督导室假设性的或者实验性的,这是由于人们不能观测到这些自变量。
聚类分析和分类方法没有必然联系。聚类分析涉及到一个重要的计算就是“距离”的计算,常见的包括:
欧氏距离:
∥
x
−
y
∥
2
=
∑
i
=
1
p
(
x
i
−
y
i
)
2
‖x−y‖
平方欧氏距离、Manhattan距离、Chebychev距离、Mahalanobis距离等。
除了点之间的距离之外,聚类分析的某些方法还需要定义类间距离。
分层聚类有两种形式,一种是聚合形式,另一种是拆分形式。例如聚合形式是先把每一个观测值看成1类,在根据点间距离逐步合并。
library("cluster")
(z<-clusGap(w,FUN=Means,5))
plot(z,main="Gap statistic")
轮廓法
轮廓值中较高的值便是该对象与自己的集群很好地匹配。
NbClust程序包
可以直接生成聚类数目的推荐个数。
library("NbClust")
a<-NbClust(scale(w1),distance="euclidean",min.nc=2,max.nc=8,method="complete",index="all")
第8章 典型相关分析
典型相关分析用于识别和测量两组变量之间的关联。
属于可视化探索性数据分析,可描述二维和多维列联表数据。
多维尺度变换也成为多维标度或多维缩放,是一组对象之间的距离或者不相似度的直观表示,最典型的对象是地理位置,当然也可以是观点、颜色、面孔或者任何种类的实体或者抽象的概念。