算法金 | 统计学的回归和机器学习中的回归有什么差别？ - 码农知识堂

算法金 | 统计学的回归和机器学习中的回归有什么差别？
合集 - 机器学习(33)
1.算法金 | 通透！！十大回归算法模型最强总结05-29 2.算法金 | 吴恩达：机器学习的六个核心算法！05-30 3.算法金 | 详解过拟合和欠拟合！性感妩媚 VS 大杀四方05-30 4.算法金 | 突破最强算法模型，决策树算法！！05-31 5.算法金 | 突破最强算法模型！！学会随机森林，你也能发表高水平SCI06-01 6.算法金 | 机器学习模型评价、模型与算法选择（综述）06-02 7.算法金 | 你真的完全理解 Logistic 回归算法了吗06-03 8.算法金 | 再见，PCA 主成分分析！06-05 9.算法金 | 一文读懂K均值（K-Means）聚类算法06-05 10.算法金 | 再见！！！KNN06-06 11.算法金 | 读者问了个关于深度学习卷积神经网络（CNN）核心概念的问题06-06 12.算法金 | 不愧是腾讯，问基础巨细节。。。06-07 13.算法金 | LSTM 原作者带队，一个强大的算法模型杀回来了06-08 14.算法金 | AI 基石，无处不在的朴素贝叶斯算法06-10 15.算法金 | A - Z，115 个数据科学机器学习江湖黑话（全面）06-24 16.算法金 | 一文彻底理解机器学习 ROC-AUC 指标06-11 17.算法金 | 一个强大的算法模型，多项式回归！！06-12 18.算法金 | 一个强大的算法模型，GP ！！06-13 19.算法金 | 再见！！！K-means06-14 20.算法金 | 选择最佳机器学习模型的 10 步指南06-15 21.算法金 | 一文看懂人工智能、机器学习、深度学习是什么、有什么区别！06-16 22.李沐：用随机梯度下降来优化人生！06-17 23.算法金 | 一个强大的算法模型：t-SNE ！！06-18 24.算法金 | 再见！！！梯度下降（多图）06-19 25.审稿人：拜托，请把模型时间序列去趋势！！06-20 26.算法金 | 奇奇怪怪的正则化06-21
27.算法金 | 统计学的回归和机器学习中的回归有什么差别？06-22
28.算法金 | K-均值、层次、DBSCAN聚类方法解析06-23 29.算法金 | 决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost 算法大全06-25 30.资深博导：我以为数据预处理是常识，直到遇到自己的学生06-26 31.算法金 | 必会的机器学习评估指标06-28 32.算法金 | 协方差、方差、标准差、协方差矩阵06-29 33.算法金 | 线性回归：不能忽视的五个问题06-30
收起

大侠幸会，在下全网同名「算法金」 0 基础转 AI 上岸，多个算法赛 Top 「日更万日，让更多人享受智能乐趣」

统计学中的回归
1. 目标：
- 主要用于解释和推断自变量（independent variables）和因变量（dependent variables）之间的关系。
- 强调模型的解释性，了解各个自变量对因变量的影响。
- 假设：
- 假设数据符合特定统计假设，如正态分布、独立性和同方差性。
- 需要满足严格的模型假设。
- 模型复杂性：
- 通常使用简单模型，如线性回归。
- 模型形式固定，主要是线性或加性模型。
- 数据量：
- 通常处理较小的数据集。
- 评估方法：
- 强调参数的显著性检验（significance tests）。
- 使用 R 平方（(R^2)）和 P 值（P-value）等统计指标。
机器学习中的回归
1. 目标：
- 主要用于预测，关注模型的预测性能。
- 更关注模型的泛化能力（generalization ability），即在新数据上的表现。
- 假设：
- 对数据分布和模型形式的假设较少。
- 灵活性更大，不需要满足严格的统计假设。
- 模型复杂性：
- 使用复杂模型，如决策树回归（decision tree regression）、随机森林回归（random forest regression）、支持向量回归（support vector regression）和神经网络（neural networks）等。
- 模型可以是非线性的，适应复杂数据模式。
- 数据量：
- 通常处理大规模的数据集。
- 评估方法：
- 使用交叉验证（cross-validation）等方法评估模型性能。
- 强调预测误差，如均方误差（Mean Squared Error, MSE）和均绝对误差（Mean Absolute Error, MAE）。
总结
- 统计学中的回归：用于解释和推断变量之间的关系，假设严格，模型简单，适用于小数据集。重点在于理解数据和变量关系，模型解释性强。
- 机器学习中的回归：用于预测和优化，假设少，模型复杂，适用于大数据集。重点在于提高模型的预测性能，模型灵活性高。
图示解释
1. 统计学中的线性回归：
- 图示：数据点分布在图上，一条直线（回归线）穿过数据点，显示自变量与因变量之间的线性关系。
- 解读：这条直线表示最小二乘法（Least Squares Method）拟合出的最佳线性关系，用于解释 (X) 和 (Y) 之间的关系。
- 机器学习中的非线性回归：
- 图示：数据点分布在图上，一条曲线穿过数据点，显示自变量与因变量之间的复杂非线性关系。
- 解读：这条曲线可能是通过复杂模型（如决策树、神经网络）拟合出的，显示出自变量和因变量之间更复杂的模式和关系。
这两者的差别主要体现在模型的目标、假设、复杂性、数据量和评估方法上，各有其应用场景和优势。

统计学中的回归主要强调模型的解释性和简洁性，因此通常采用简单的线性模型。下面是一些具体原因：

假设和解释性
1. 解释性：
- 统计学中的回归模型强调解释变量对因变量的影响。
- 线性回归模型的系数具有明确的解释意义，可以直接说明每个自变量对因变量的线性贡献。
- 简洁性：
- 线性模型较为简单，易于理解和解释。
- 在变量关系相对简单的情况下，线性模型能有效地捕捉主要趋势。
- 假设检验：
- 统计学中的回归依赖于一定的假设，如正态分布、独立性和同方差性。
- 这些假设在简单的线性模型中更容易满足和检验。
数据量和计算复杂度
1. 数据量：
- 统计学方法通常用于较小的数据集。
- 简单模型在小数据集上表现更好，因为复杂模型容易过拟合。
- 计算复杂度：
- 线性回归计算简单，适用于快速分析和建模。
- 非线性模型（如决策树）计算复杂度较高，训练和预测时间更长。
过拟合和泛化能力
1. 过拟合：
- 复杂模型（如右图的决策树回归）容易过拟合，即在训练数据上表现很好，但在新数据上表现不佳。
- 线性模型的简单性有助于避免过拟合，提升模型的泛化能力。
应用场景
1. 应用场景：
- 统计学中的回归主要用于变量关系的探索和解释，如社会科学和经济学研究。
- 在这些领域，理解变量间的关系和影响是主要目标，而不是追求复杂模型的预测性能。
图示解读
1. 统计学中的线性回归（左图）：
- 适用于数据关系较简单、主要目标是解释和推断的场景。
- 线性回归线展示了自变量和因变量之间的线性关系，便于解释。
- 机器学习中的决策树回归（右图）：
- 适用于数据关系复杂、主要目标是预测和优化的场景。
- 决策树回归曲线展示了自变量和因变量之间的复杂非线性关系，但解释性较差。
[ 抱个拳，总个结 ]

统计学中的回归更关注模型的简洁性和解释性，适用于变量关系较为简单、数据量较小的场景。因此，通常采用线性回归模型。而机器学习中的回归更多用于预测复杂关系，模型复杂性更高，适用于大数据集和需要高预测性能的应用。- 科研为国分忧，创新与民造福 -

日更时间紧任务急，难免有疏漏之处，还请大侠海涵内容仅供学习交流之用，部分素材来自网络，侵联删

[ 算法金，碎碎念 ]

全网同名，日更万日，让更多人享受智能乐趣

如果觉得内容有价值，烦请大侠多多分享、在看、点赞，助力算法金又猛又持久、很黄很 BL 的日更下去；

同时邀请大侠关注、星标算法金，围观日更万日，助你功力大增、笑傲江湖
相关阅读:
从0开始python学习-28.selenium 需要图片验证的登录
 python 虚拟环境管理
 前端使用github pages 部署自己的网站
 阿里云ASK试用心得(避坑贴)
加速老化测试目的是什么？
Mac电脑强大的字体管理 RightFont for Mac
Codeforces Round #821 (Div. 2) A~C（模拟、构造）
matplotlib绘制曲线图
 vue返回上一页(后退)的几种方法与区别
 拆离褶皱（Detachment Fold）
原文地址：https://www.cnblogs.com/suanfajin/p/18262815

算法金 | 统计学的回归和机器学习中的回归有什么差别？

统计学中的回归

机器学习中的回归

总结

图示解释

假设和解释性

数据量和计算复杂度

过拟合和泛化能力

应用场景

图示解读

[ 抱个拳，总个结 ]

[ 算法金，碎碎念 ]

全网同名，日更万日，让更多人享受智能乐趣