• 机器学习_个人笔记_周志华(停更中......)


    第1章 绪论

    1.1 引言

    形成优秀的心理表征,自然能成为领域内的专家。
    系统1 & 系统2。

    机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。主要研究计算机从数据中产生model的算法,即“learning algorithm”。
    “经验”通常的存在形式——“数据”。

    1.2 基本术语

    数据集
    每条记录——示例——样本
    属性
    属性值
    属性空间——样本空间——输入空间
    一个示例——特征向量(feature vector)
    训练样本——训练示例(training instance)——训练例

    学得模型亦称hypothesis,学习过程是为了逼近ground-truth。本书有时称模型为“学习器”(learner)。

    标记空间(label space)——输出空间
    分类(classificatioin):离散值预测类的学习任务。
    回归(regression): 连续值预测类任务。
    binary classification任务:includes positive class & negative class。
    multi-class classification

    预测类任务是希望建立输入空间x到输出空间y的映射f

    testing:使用学得模型进行预测的过程。
    testing sample:被预测的样本。
    clustering
    cluster

    据training data是否拥有label information,划分为supervised learning & unsupervised learning,classification和regression是前者的代表,而clustering是后者的代表。

    “泛化(generalization)”能力

    1.3 假设空间

    科学推理的两大基本手段:induction(归纳)& deduction(演绎)。
    induction: 从特殊到一般。
    deduciton: 从generalization到specialization。

    inductive learning(归纳学习)——从样例中学习。分为广义和狭义。

    version space

    1.4 归纳偏好

    inductive bias:机器学习算法在学习过程中对某种类型假设的偏好。任何一个有效的机器学习算法必有其归纳偏好,否则无法产生确定的学习结果。

    Attention!!!
    在这里插入图片描述
    NFL定理:No Free Lunch Theorem!
    NFL定理的重要前提:…
    NFL Theorem的寓意:具体问题具体分析。学习算法自身的induction bias与problems是否相配,往往起决定性作用。

    1.5 发展历程

    20世纪50年代到70年代初:AI研究处于“推理期”。
    20世纪70年代中期开始,”知识期“。
    20世纪80年代,ML成为一个独立的学科领域,各种ML技术百花初绽——学习期。

    本书大部分内容均属于广义的induction learning范畴,涵盖supervised learning and unsupervised learning等等。

    ILP:Inductive Logic Programming(归纳逻辑程序设计)。

    参数调节上失之毫厘,学习结果可能谬之千里。

    statistical learning(统计学习)
    Support Vector Machine(SVM,支持向量机)

    深度学习:狭义地说是“很多层”的神经网络。

    ML已发展为一个相当大的学科领域,本节仅管中窥豹。耐心读完本书会有更全面的了解。

    1.6 应用现状

    在CV及NLP等“计算机应用技术”领域,ML已成为最重要的技术进步源泉之一。ML也为许多交叉学科提供重要的技术支撑。
    “数据分析”是ML技术的舞台。

    ML提供数据分析能力,云计算提供数据处理能力,众包(crowdsourcing)提供数据标记能力。

    数据挖掘(data mining)。
    数据挖掘与机器学习的联系。
    数据库领域研究为数据挖掘提供数据管理技术。ML和统计学的研究为data mining提供数据分析技术。

    ML技术是建立输入与输出之间联系的内核。

    奥巴马的“竞选核武器”——R.Ghani领导的机器学习团队。

    如何学习?《刻意练习》《认知天性》《考试脑科学》有所介绍

    1.7 阅读材料

    在这里插入图片描述

    第2章 模型评估与选择

    2.1 经验误差与过拟合

    error rate: E = a/m;
    accuracy: = 1 - E
    error(误差)
    在这里插入图片描述

    training error——empirical error
    generalization error
    overfitting(过拟合): 学习器把训练样本学得“太好”,且将一些的训练样本自身的特点“当作”所有潜在样本具有的一般性质,导致generalization性能下降的现象。亦称“过配”。
    underfitting(欠拟合):亦称“欠配”。

    underfitting比较容易克服,overfitting的则很麻烦,且overfitting的问题无法避免,只能“缓解”。
    在这里插入图片描述

    model selection
    理想的解决方案,即选择generaliztion error最小的model.

    2.2 评估方法

    在这里插入图片描述
    在这里插入图片描述

    2.2.1留出法(hold-out)

    hold-out: 直接将数据集D划分为两个互斥的集合,训练集S和测试集T。
    在这里插入图片描述
    “分层采样(stratified sampling)”:保留类别比例的采样方式。

    保真性(fidelity)。
    解决留出法的窘境问题,常见做法是将大约2/3 ~ 4/5的样本用于训练,剩余样本用于测试。

    2.2.2 交叉验证法(cross validation)

    cross validation: 将数据集D划分为k个大小相似的互斥子集。每个子集都尽可能保持数据分布的一致性,即从D中通过分层采样得到。

    cross validation通常被称为“k折交叉验证(k-fold cross validation)”。
    在这里插入图片描述
    在这里插入图片描述
    留一法(Leave-One-Out,简称LOO):假定数据集D中包含m个样本,若令k = m,则得到cross validation的一个特例。
    LOO优点:评估结果往往被认为比较准确;LOO缺点:数据集比较大时,训练的计算开销将会非常大,且NTF定理对实验评估方法同样适用。

    2.2.3 自助法(bootstrapping)

    bootstrapping: 是一个比较好的解决方案,它直接以bootstrap sampling为基础。

    D’作为训练集,D \ D’用作测试集。
    “\”表示集合减法。
    “out-of-bag estimate(包外估计)”。

    bootstrapping在数据集较小、难以有效划分训练/测试集时很有用。其产生训练集的方式对集成学习等方法有很大帮助。但bootstrapping会引入估计偏差。故hold-out和cross validation在初始数据量足够时,更常用一些。

    2.2.4 调参与最终模型

    大多数学习算法都需设定某些parameter,parameter配置不同,学得model的性能往往有显著差别。

    “参数调节”简称“调参(parameter tuning)”。
    在这里插入图片描述

    2.3 性能度量(performance measure)

    model的"好坏"是相对的,不仅取决于algorithm和data,还决定于任务需求。

    2.3.1 错误率与精度

    2.3.2 查准率(precision)、查全率(recall)与F1

    TP + FP + TN + FN = 样例总数

    confusion matrix(混淆矩阵)
    在这里插入图片描述
    在这里插入图片描述
    Precision: 给一批定好瓜和坏瓜,能分辨好瓜的能力。
    Recall:将好瓜挑全的能力,FN属于把好瓜判为坏瓜,进而将其放回瓜堆。

    在这里插入图片描述
    “平衡点(Break-Event Point,简称BEP)”:是Precision = Recall时的取值。
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    2.3.3 ROC与AUC

    threshold(分类阈值)
    cut point(截断点)
    ROC(Receiver Operating Characteristic)曲线,源于“二战”中检测检测敌机的雷达信号分析技术。
    AUC(Area Under ROC Curve)

    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述

    2.3.4 代价敏感错误率与代价曲线

    unequal cost(非均等代价): 为权衡不同类型错误所造成的不同损失,可为错误赋予“unequal cost”。
    cost matrix
    total cost
    cost-snesitive

    在这里插入图片描述

    2.4 比较检验

    本小节涉及的基础知识为《概率论与数理统计》。

    hypothesis test

    二项(binomial)分布
    binomial test(二项检验)
    confidence(置信度)

    在这里插入图片描述

    2.4.1 假设检验

    2.4.2 交叉验证 t 检验

    2.4.3 McNemar检验

    2.4.4 Friedman检验与Nemenyi后续检验

    F检验

    2.5 偏差与方差

    偏差-方差分解(bias-variance decomposition)
    泛化误差可分解为偏差、方差与噪声之和。

    bias-variance dilemma(偏差-方差窘境)

    在这里插入图片描述

    2.6 阅读材料

    第3章 线性模型

    第4章 决策树

    第5章 神经网络

    第6章 支持向量机

  • 相关阅读:
    2022重庆自考本科怎么考?
    JDBC中的Connection的sql语句
    领域驱动设计
    【C语言刷LeetCode】658. 找到 K 个最接近的元素(M)
    Java面试必知必会八股文210题,看完offer拿到手软
    10个python爬虫入门实例
    Golang的性能优化
    数据库根据某个字段分组,然后取每个分组的最大的记录的函数
    k8s之配置资源管理
    云原生架构设计理论与实践
  • 原文地址:https://blog.csdn.net/Sjoqwdk/article/details/132808599