• 【ML】机器学习数据集:sklearn中回归数据集介绍



    在机器学习的教程中,我们会看到很多的demo,这些demo都是基于python中自带的数据集。今天我们将介绍三个用于回归预测的数据集。

    1. Boston房价预测数据集

    该数据集将在scikit-learn 1.2版本移除,也就是说,scikit-learn1.2版本及以后,该数据集将不存在,且用且珍惜吧。

    数据集加载代码:

    # boston房价预测数据集
    from sklearn.datasets import load_boston
    
    housing_boston = load_boston()
    X = housing_boston.data     # data
    y = housing_boston.target   # label
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    为了便于方便查看加载的数据集,我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例:

    运行加载数据集的代码,右侧会出现变量;

    在这里插入图片描述

    其中X就是输入模型的数据:

    在这里插入图片描述

    y是数据对应的标签:

    在这里插入图片描述

    双击点开变量“housing_boston”:

    在这里插入图片描述

    data: 506条数据,每条数据13维,即每条数据13个特征,这13个特征的名称存储在feature_names变量中,分别为[‘CRIM’, ‘ZN’, ‘INDUS’, ‘CHAS’, ‘NOX’, ‘RM’, ‘AGE’, ‘DIS’, ‘RAD’,
    ‘TAX’, ‘PTRATIO’, ‘B’, ‘LSTAT’]

    CRIM: 各城镇的人均犯罪率
    ZN: 超过25,000平方英尺的住宅用地比例
    INDUS: 城镇非零售业态面积比例
    CHAS: Charles River虚拟变量
    NOX: 一氧化氮浓度(千万分之一)
    RM: 每套住宅的平均房间数
    AGE: 1940年以前建造的自住单位的比例
    DIS: 到五个波士顿就业中心的加权距离
    RAD: 径向公路可达性指数
    TAX: 每1万美元的全值财产税税率
    PTRATIO: 按城镇划分的学生教师比例
    B: 城镇中黑人的比例
    LSTAT: 人口地位下降率

    2. California房价预测数据集

    该数据集是Boston房价预测数据集替代数据集,随着scikit-learn版本的更新,以后我们将使用该数据集进行回归预测任务的练习。

    数据集加载代码:

    # california房价预测数据集
    from sklearn.datasets import fetch_california_housing
    
    housing_california = fetch_california_housing()
    X = housing_california.data    # data
    y = housing_california.target   # label
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    为了便于方便查看加载的数据集,我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例:

    在这里插入图片描述

    其中X就是输入模型的数据:

    在这里插入图片描述

    y是数据对应的标签:

    在这里插入图片描述

    双击点开变量“housing_california”:

    在这里插入图片描述

    feature_names变量中,分别为[‘MedInc’, ‘HouseAge’, ‘AveRooms’, ‘AveBedrms’, ‘Population’, ‘AveOccup’, ‘Latitude’, ‘Longitude’]

    MedInc: 街区组收入中位数
    HouseAge: 街区组房屋年龄中位数
    AveRooms: 每户平均房间数
    AveBedrms: 每户平均卧室数量
    Population: 人口数量
    AveOccup: 家庭成员的平均人数
    Latitude: 纬度
    Longitude: 经度

    3. 糖尿病预测数据集

    该数据集是sklearn中自带的一个用于预测1年后糖尿病进展的定量测量(换句话说,一个连续变量的预测)。

    数据集加载代码:

    # 糖尿病数据集
    from sklearn.datasets import load_diabetes
    diabetes = load_diabetes()
    
    X = diabetes.data           # data
    y = diabetes.target         # label
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    为了便于方便查看加载的数据集,我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例:

    运行加载数据集的代码,右侧会出现变量;

    在这里插入图片描述

    其中X就是输入模型的数据:

    在这里插入图片描述

    y是数据对应的标签:

    在这里插入图片描述

    双击点开变量“diabetes”:

    在这里插入图片描述

    data: 442条数据,每条数据10维,即每条数据10个特征,这10个特征的名称存储在feature_names变量中,分别为[‘age’, ‘sex’, ‘bmi’, ‘bp’, ‘s1’, ‘s2’, ‘s3’, ‘s4’, ‘s5’, ‘s6’]

    age: 年龄
    sex: 性别
    bmi: 身体质量指数
    bp: 平均血压
    s1: 血清总胆固醇
    s2: 低密度脂蛋白
    s3: 高密度脂蛋白
    s4: 总胆固醇/高密度脂蛋白
    s5: 血清甘油三酯水平的对数
    s6: 血糖水平

    参考
    https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets

  • 相关阅读:
    Linux系统中curl命令用法详解
    ubuntu中使用 vscode 连接docker开发环境
    read commited(RC) 与 repeatable read(RR)的异同
    C. Peaceful Rooks(并查集找环)
    流调溯源 腾讯接口实现批量地址转换
    七、监听器
    SpringMvc中的@RequestMapping的用法简介说明
    【swagger】springboot项目中配置Swagger的两种方式以及swagger权限验证、安全控制
    Android请求网络报错:not permitted by network security policy
    高考学计算机专业的小白指南,一些比较实用的软件,快速入手计算机
  • 原文地址:https://blog.csdn.net/AugustMe/article/details/126178209