[机器学习]西瓜书&南瓜书学习（更新中）

什么是机器学习

概念介绍

人工智能：让机器变得像人一样拥有智能的学科
机器学习：让计算机像人一样能从数据中学习出规律的一类算法
深度学习：神经网络类的机器学习算法
人工智能>机器学习>深度学习

具体应用领域

计算机视觉（computer vision, CV）：让计算机拥有视觉能力
自然语言处理（Natural language processing, NLP）：让计算机拥有语言能力
推荐系统（Recommender system, RS）：让计算机精确分析出人的喜好

西瓜书学习笔记

第1章绪论

基本术语

泛化能力（generalization）：模型适用于新样本的能力

监督学习（supervised learning）

分类（classification）：预测的是离散值

二分类（binary classification）：正类（positive class）和负类（negative class）
多分类（multi-class classification）

回归：预测的是连续值

无监督学习（unsupervised learning）

聚类（clustering）：分组，每组称为簇（cluster）

归纳偏好

任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上“等效”的假设所迷惑，而无法产生确定的学习结果。
奥卡姆剃刀原则：若有多个假设与观察一致，则选最简单的那个。算法的归纳偏好是否与问题本身匹配，大多时候直接决定了算法能够取得好的性能。
脱离具体问题，空泛地谈论“什么学习算法更好”毫无意义，因为若考虑潜在的问题，则所有学习算法都一样好。

发展历程

20世纪50-70年代初：推理期
代表：逻辑理论家程序、通用问题求解程序
20世纪70年代中期：知识期
代表：专家系统
20世纪80年代：机器学习成为一个独立的学科领域、各种机器学习技术百花初绽的时期
该时期以来，被研究最多、应用最广的是“从样例中学习”（也就是广义的归纳学习），涵盖了监督学习、无监督学习等。
其中的一大主流技术是符号主义学习，包括决策树（decision tree）和基于逻辑的学习。另一主流是基于神经网络的连接主义学习。
与符号学习能产生明确的概念表示不同，连接主义学习产生的是“黑箱”模型，因此从知识获取的角度来看，连接主义学习技术有明显弱点。
连接主义学习的最大局限是其“试错性”，其学习过程涉及大量参数，而参数的设置缺乏理论知道，主要靠手工“调参”。
20世纪90年代中期：“统计学习”迅速占领主流舞台，代表技术是支持向量机（support vector machine，SVM）。
21世纪初：深度学习掀起热潮
深度学习虽然缺乏严格的理论基础，但它显著降低了机器学习应用这的门槛。

第2章模型评估与选择

误差与过拟合

训练误差（training error）/经验误差（empirical error）：学习在训练集上的误差
泛化误差（generalization error）：在新样本上的误差
测试误差（test error）：测试集上的误差，作为泛化误差的近似
欠拟合
过拟合：过拟合是机器学习面临的关键障碍，且无法彻底避免

评估方法

留出法（hold-out）：直接将数据集分为两个互斥的集合，一个作为训练集S，一个作为测试集T。
单次使用留出法往往不够稳定可靠，一般采用若干次随即划分、重复进行实验评估后取平均值作为留出法的评估结果。
交叉验证法（cross validation）：将数据集划分为 $k$ 个大小相似的互斥子集，每个子集都尽可能保持数据分布的一致性。每次用 $k - 1$ 个子集的并集作为训练集，余下的那个子集作为测试集，进行k次循环和测试，返回k次测试结果的均值。
交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值。
特例：留一法（leave-one-out）
自助法（bootstrapping）：以自助采样法（bootstrp sampling）为基础。有放回地从数据集 $D$ 中获取样本放入 $D^{'}$ 。因此 $D$ 中一部分样本会多次出现，另一部分样本不出现。
以 $D^{'}$ 作为训练集 $D - D^{'}$ 作为测试集。
该方法在数据集较小，难以有效划分训练集/测试集时很有用。但是它改变了初始数据集的分布

调参

通常针对每个参数选定一个范围和变化步长及逆行调参。
在参数评估与选择的过程中需要留出一部分数据进行评估测试，事实上我们只使用了一部分数据训练模型。因此在模型选择完成之后，学习算法和参数配置已选定，应该用数据集 $D$ 的全集重新训练模型。

性能度量（performance measure）

均方误差
错误率/精度
查准率/查准率

查准率和查全率是一对矛盾的度量。
P-R曲线：以查准率为纵轴、查全率为横轴的曲线。如果一个学习器的P-R曲线被另一个学习器的完全包住，则可以断言后者的性能优于前者，或可以直接比较下面积的大小，但这并不好计算。
平衡点（break-even point）：查准率=查全率的取值
F1度量
ROC（受试者工作特征，receiver operating characteristics）：根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测，以“真正例率（true positive rate）”为纵轴，以“假正例率（false positive rate）”为纵轴。
AUC（area under ROC curve）：ROC曲线下面积

相关阅读:
手动数字哈希表-C语言
notepad++中文出现异体汉字，怎么改正
在线代码编辑器CodePen和CodeSandbox
原码反码补码疑惑解答记录：127+1=-128
pytorch-09.多分类问题
linux中的inode文件编号和软硬链接
目标检测——行人和骑自行车者数据集
LeetCode 209. 长度最小的子数组
C语言 L1-016 查验身份证
Java中JCP, JEP, JLS, JSR是什么

原文地址：https://blog.csdn.net/weixin_44230172/article/details/127265768