机器学习分类、回归、聚类、特征工程区别

一、分类和回归的区别

简单理解分类和回归的区别在于输出变量的类型不同。

定量输出称为回归，或者说是连续变量预测；
定性输出称为分类，或者说是离散变量预测。

举个例子：
预测明天的气温是多少度，这是一个回归任务；
预测明天是阴、晴还是雨，就是一个分类任务。

二、回归和聚类的区别
二者解决的具体问题不一样

**分类算法的基本功能是做预测。**我们已知某个实体的具体特征，然后想判断这个实体具体属于哪一类，或者根据一些已知条件来估计感兴趣的参数。比如：我们已知某个人存款金额是10000元，这个人没有结婚，并且有一辆车，没有固定住房，然后我们估计判断这个人是否会涉嫌信用欺诈问题。这就是最典型的分类问题，预测的结果为离散值，当预测结果为连续值时，分类算法可以退化为计量经济学中常见的回归模型。分类算法的根本目标是发现新的模式、新的知识，与数据挖掘数据分析的根本目标是一致的。

**聚类算法的功能是降维。**假如待分析的对象很多，我们需要归归类，划划简，从而提高数据分析的效率，这就用到了聚类的算法。很多智能的搜索引擎，会将返回的结果，根据文本的相似程度进行聚类，相似的结果聚在一起，用户就很容易找到他们需要的内容。聚类方法只能起到降低被分析问题的复杂程度的作用，即降维，一百个对象的分析问题可以转化为十个对象类的分析问题。聚类的目标不是发现知识，而是化简问题，聚类算法并不直接解决数据分析的问题，而最多算是数据预处理的过程。

三、什么是特征工程？

将原始数据转换为数据集的任务称为特征工程。

我们没办法将原始数据直接调用模型进行fit

flink ML 提供的：

在这里插入图片描述

相关阅读:
_Linux进程控制
使用C语言实现散列表中的冲突处理方法
SHAP解释模型（二）
本地数仓网络设备迁移实录
scala解析命令行参数详解
Java基础简单整理
Linux文件系统
报错处理：Nginx端口被占用
在Linux操作系统中，修改文件目录权限常用的命令操作
R 语言基于关联规则与聚类分析的消费行为统计

原文地址：https://blog.csdn.net/weixin_43889841/article/details/128167666

机器学习 分类、回归、聚类、特征工程区别

机器学习分类、回归、聚类、特征工程区别