• 每天五分钟机器学习:数据和特征决定机器学习的上限(特征工程)


    本文重点

    本文将了解机器学习的特征工程,有一句话是说:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”,这句话充分说明了特征工程的作用,如果将特征工程做好,那么模型的效果是不会差的。

    特征工程的四个关键步骤

    1、数据预处理

    2、特征选择

    3、特征降维

    4、特征构造

    数据预处理

    数据预处理是特征工程的第一步。

    我们需要将数据进行统一化处理,举一个例子,比如房子的特征有房屋面积还有房屋的数量这两个特征,那么面积可能是100平米,而房屋数量也能就3个,这两个特征相差三倍,所以没有在同一规格,需要将二者进行归一化处理,将数据统一到同一个个规格中。

    有的数据还会存在缺失值,那么此时我们需要对其进行处理,常用的方式有以下几种:

    1、均值

    2、就近填补

    3、K近邻法

    4、将缺失值也作为一种特征,有缺失为1,无缺失为0

    5、舍弃该缺失值

    6、训练一个模型,预测缺失值

    特征选择

    数据处理完成之后,我们需要进行特征选择,因为一开始没有必要使用所有的特征,我们可以通过下面的方法找到最合适的特征。
    1、方差选择法:如果某个特征的方差特别小,那么说明这个特征变化很小,有可能对模型的影响力很小。

    2、使用相关系数(连续变量)和统计检验(离散变量)来对特征进行评估。
    3、互信息法可以用来检测自变量对因

  • 相关阅读:
    韩顺平-多态
    react-redux开发者工具的使用
    基础篇——基础项目解析
    我的十年编程路 2018篇
    计算机网络(二、物理层)
    大学毕业去什么样的公司工作不后悔?
    异步方法、async/await逃离回调地狱(Callback Hell)
    通过 urllib 结合代理IP下载文件实现Python爬虫
    Shell脚本简明教程
    Windows io完成端口
  • 原文地址:https://blog.csdn.net/huanfeng_AI/article/details/127605868