根据阈值将数据二值化(将特征值设置为0、1),用于处理连续型变量。大于阈值的值映射为1,小于或等于的为0。默认情况下阈值为0,此时特征中所有的正值都映射到1.
- import pandas as pd
- data = pd.read_csv(r"D:\本科\kaggle数据挖掘\titanic\train.csv", index_col = 0)
- from sklearn.preprocessing import Binarizer #Binarizer类是特征专用的,不能使用一维数组,所以下面要reshape
- X = data.iloc[:,8].values.reshape(-1,1) #因为别的列有缺失值,这选了Fare这列,这样就不会报错。
- transformer = Binarizer(threshold = 30).fit_transform(X) #threshold是阈值
- transformer#高于30的是1,低于是0
array([[0.], [1.], [0.], [1.], [0.], [0.], [1.], [0.], 此处省略。。。 [0.], [0.]])
将连续型变量排序,按顺序分箱,编码的类
参数:
n_bins 箱数
encode 编码方式
strategy 箱宽的方式
- import pandas as pd
- data = pd.read_csv(r"D:\本科\kaggle数据挖掘\titanic\train.csv", index_col = 0)
- from sklearn.preprocessing import KBinsDiscretizer
- X = data.iloc[:,1].values.reshape(-1,1) #选用Pclass列
- est = KBinsDiscretizer(n_bins = 3, encode = 'ordinal', strategy = 'uniform')
- est.fit_transform(X) #0,1,2分别代表3个不同的箱子
array([[2.], [0.], [2.], [0.], [2.], 省略 [1.], [0.], [2.], [0.], [2.]])
set(est.fit_transform(X).ravel()) #ravel=降维
{0.0, 1.0, 2.0}
- est = KBinsDiscretizer(n_bins = 3, encode = 'onehot', strategy = 'uniform')
- est.fit_transform(X).toarray()
array([[0., 0., 1.], [1., 0., 0.], [0., 0., 1.], ..., [0., 0., 1.], [1., 0., 0.], [0., 0., 1.]])