import numpy as np
X = np.array([65, 72, 78, 65, 72, 70, 65, 68])
Y = np.array([72, 69, 79, 69, 84, 75, 60, 73])
np.corrcoef(X, Y)
array([[1. , 0.64897259],
[0.64897259, 1. ]])
主要用于两个或两个以上的样本;比较理论频次和实际频次的吻合程度
下面代码为使用iris数据集来演示卡方筛选与目标变量相关的特征
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
iris = load_iris()
X,y = iris.data, iris.target
chiValues = chi2(X, y)
X_new = SelectKBest(chi2, k = 2).fit_transform(X, y)
小提琴图可以展示在分析变量不同类别时,另外一个变量的分布情况
下图为考虑在low、med、high三个变量时连续变量price的分布情况

# 使用 Seaborn包中的violinplot()函数
删除
List Wise Deletion
Pair Wise Deletion
数值填充
平均值、众数、中值填充
预测模型填充
通过简历预测模型
异常值使得模型增加错误方差、降低模型的拟合能力、降低正态性、影响回归、方差假设
箱线图、直方图、散点图
不在-1.5IQR和1.5IQR之间的样本可以认为是异常值

四分位距(interquartile range, IQR),又称四分差。
其中位数必然等于第三四分位数与第一四分位数的算术平均数,
四分位数(Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。
认为在第5和第95百分位数范围之外的任值都是异常值

两组分别建立模型、输出两组的合并
目的:在使用直方图、核密度等工具估计时,我们可能会发现一些变量的取值分布不均匀,会影响估计
我们使用一些函数对变量进行映射、使其分布在合理的范围内

几种常用的转换方法
目的:新的变量可能与目标变量相关,有助于数据分析

各位看官,都看到这里了,麻烦动动手指头给博主来个点赞8,您的支持作者最大的创作动力哟!
才疏学浅,若有纰漏,恳请斧正
本文章仅用于各位作为学习交流之用,不作任何商业用途,若涉及版权问题请速与作者联系,望悉知