• sklearn快速入门教程:处理连续型特征


    二值化与分段

    根据阈值将数据二值化(将特征值设置为0、1),用于处理连续型变量。大于阈值的值映射为1,小于或等于的为0。默认情况下阈值为0,此时特征中所有的正值都映射到1.

    1. import pandas as pd
    2. data = pd.read_csv(r"D:\本科\kaggle数据挖掘\titanic\train.csv", index_col = 0)
    1. from sklearn.preprocessing import Binarizer #Binarizer类是特征专用的,不能使用一维数组,所以下面要reshape
    2. X = data.iloc[:,8].values.reshape(-1,1) #因为别的列有缺失值,这选了Fare这列,这样就不会报错。
    3. transformer = Binarizer(threshold = 30).fit_transform(X) #threshold是阈值
    4. transformer#高于30的是1,低于是0
    array([[0.],
           [1.],
           [0.],
           [1.],
           [0.],
           [0.],
           [1.],
           [0.],
          此处省略。。。
           [0.],
           [0.]])
    

    分箱preprocessing.KBinsdiscretizer

     将连续型变量排序,按顺序分箱,编码的类

    参数:

    n_bins 箱数

    encode 编码方式

    strategy 箱宽的方式

    1. import pandas as pd
    2. data = pd.read_csv(r"D:\本科\kaggle数据挖掘\titanic\train.csv", index_col = 0)
    1. from sklearn.preprocessing import KBinsDiscretizer
    2. X = data.iloc[:,1].values.reshape(-1,1) #选用Pclass列
    3. est = KBinsDiscretizer(n_bins = 3, encode = 'ordinal', strategy = 'uniform')
    4. est.fit_transform(X) #0,1,2分别代表3个不同的箱子
    array([[2.],
           [0.],
           [2.],
           [0.],
           [2.],
    省略
           [1.],
           [0.],
           [2.],
           [0.],
           [2.]])

    查看分箱:

    一、

    set(est.fit_transform(X).ravel()) #ravel=降维
    {0.0, 1.0, 2.0}

     二、

    1. est = KBinsDiscretizer(n_bins = 3, encode = 'onehot', strategy = 'uniform')
    2. est.fit_transform(X).toarray()

     

    array([[0., 0., 1.],
           [1., 0., 0.],
           [0., 0., 1.],
           ...,
           [0., 0., 1.],
           [1., 0., 0.],
           [0., 0., 1.]])
  • 相关阅读:
    安全运营和应急响应详解
    流媒体分析之srt 协议srs 服务器实现
    国际版阿里云/腾讯云免费开户:什么是DDos攻击?
    栈和队列的基本使用
    图的基本知识
    51单片机使用两个按钮控制LED灯不同频率的闪烁
    数据库_外键foreign key
    JAVA之Spring MVC 请求与响应 REST风格 SSM整合(注解版)
    【算法题】翻转对
    数据结构:详细的说明链表的一系列操作
  • 原文地址:https://blog.csdn.net/ykrsgs/article/details/126389221