中列数:(max+min)/2
四分位数极差:IQR=Q3-Q1
离群点:大于Q3有1.5倍IQR,小于Q1有1.5倍IQR
最大,最小(不超过1.5倍IQR)(没有的话以最大观察值为准)
中位数
因可以说分位数和分位数图是相关的概念,但并不完全相同。分位数是描述数据集中某个位置的值,而分位数图则是以图形方式展示了数据集的整体分布情况。
数据矩阵:两张相同长宽的表来实现对象-属性
相异性矩阵:存放n个对象两两之间的邻近度(任意两个之间的距离)
d(i,j)=(p-m)/p
p:总属性个数
m:i,j相同的属性个数
列出列联表
算出q,r,s,t
对称二元相异性:
非对称二元相异性(正匹配比度匹配有意义的多,因此负匹配数t忽略不计):
欧式距离、曼哈顿距离(差值相加)、上确界距离(max|xi1-xi2|)(差值最大)
闵可夫斯基距离:是对欧几里得距离的推广,可以理解为不同维度考察下的距离
混合类型相异度计算的思想:按不同类型的属性(如数值型,二元变量,名义变量等),根据各自类型的计算方法计算之后再加权求和。
关于指示符(即 权重):指示符为0有两种情况