用户画像,广告推荐,Data Segmentation,搜索引擎的流量推荐,恶意流量识别
基于位置信息的商业推送,新闻聚类,筛选排序
图像分割,降维,识别;离群点检测;信用卡异常消费;发掘相同功能的基因片段
一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中
聚类算法是无监督的学习算法,而分类算法属于监督的学习算法
n_clusters:开始的聚类中心数量
由于每次都要计算所有的样本与每一个质心之间的相似度,故在大规模的数据集上,K-Means算法的收敛速度比较慢

SSE图最终的结果,对图松散度的衡量
SSE随着聚类迭代,其值会越来越小,直到最后趋于稳定

优点
缺点

降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程
特征选择
数据中包含冗余或无关变量(或称特征、属性、指标等),旨在从原有特征中找出主要特征
方法
Filter(过滤式):主要探究特征本身特点、特征与特征和目标值之间关联
方差选择法:低方差特征过滤
删除低方差的一些特征
特征方差小:某个特征大多样本的值比较相近
特征方差大:某个特征很多样本的值都有差别
API
相关系数
实现方式
皮尔逊相关系数
反映变量之间相关关系密切程度的统计指标
API
斯皮尔曼相关系数
反映变量之间相关关系密切程度的统计指标
API
Embedded (嵌入式):算法自动选择特征(特征与目标值之间的关联)
主成分分析PCA
高维数据转化为低维数据的过程,在此过程中可能会舍弃原有数据、创造新的变量
作用
应用
API
sklearn.decomposition.PCA(n_components=None)
将数据分解为较低维数空间
n_components
PCA.fit_transform(X) X:numpy array格式的数据[n_samples,n_features]
返回值:转换后指定维度的array
