• 机器学习基本知识(1)


    目录

    1、总述

    2、基本概念

     2.1 特征空间

    2.2 样本表达

    3、机器学习三要素

    3.1 模型

    3.2 策略

    3.3 算法


    1、总述

            1).机器学习的对象是:具有一定的统计规律的数据。
            2).机器学习根据任务类型,可以划分为:
                监督学习任务:从已标记的训练数据来训练模型。 主要分为:分类任务、回归任务、序列标注任务。
                无监督学习任务:从未标记的训练数据来训练模型。主要分为:聚类任务、降维任务。
                半监督学习任务:用大量的未标记训练数据和少量的已标记数据来训练模型。
                强化学习任务:从系统与环境的大量交互知识中训练模型。
            3)机器学习根据算法类型,可以划分为:
                传统统计学习:基于数学模型的机器学习方法。包括 SVM 、逻辑回归、决策树等。
                这一类算法基于严格的数学推理,具有可解释性强、运行速度快、可应用于小规模数据集的特点。
                深度学习:基于神经网络的机器学习方法。包括前馈神经网络、卷积神经网络、递归神经网络等。
                这一类算法基于神经网络,可解释性较差,强烈依赖于数据集规模。但是这类算法在语音、视觉、自然语言等领域非常成功。
            4)没有免费的午餐 定理( No Free Lunch Theorem:NFL ):对于一个学习算法 A ,如果在某些问题上它比算法 B好,那么必然存在另一些问题,在那些问题中 B 比 A 更好。因此不存在这样的算法:它在所有的问题上都取得最佳的性能。因此要谈论算法的优劣必须基于具体的学习问题。

    2、基本概念

     2.1 特征空间

            1)输入空间 :所有输入的可能取值;输出空间 :所有输出的可能取值。 特征向量表示每个具体的输入, 所有特征向量构成特征空间。
            2) 特征空间的每一个维度对应一种特征。
            3)可以将输入空间等同于特征空间,但是也可以不同。绝大多数情况下,输入空间等于特征空间。模型是定义在特征空间上的。

    2.2 样本表达

    1) 通常输入实例用\vec{x}表示,真实标记用\tilde{y} 表示,模型的预测值用\hat{y}表示。
    具体的输入取值记作\vec{x_{_{1}}},\vec{x_{_{2}}},\vec{x_{_{3}}},... ;具体的标记取值记作\tilde{y_{1}},\tilde{y_{2}},\tilde{y_{3}},... ;具体的模型预测取值记作 \hat{y_{1}},\hat{y_{2}},\hat{y_{3}},...
    2. 所有的向量均为列向量,其中输入实例\vec{x}的特征向量记作 :(假设特征空间为n维)

    \vec{x}=\begin{bmatrix} x^{(1))} x^{(2))} x^{(3))} .... \end{bmatrix}^{T}

    3) 训练数据由输入、标记对组成。通常训练集表示为:

    D=\begin{Bmatrix} (\vec{x_{1}},\tilde{y_{1}})\\ (\vec{x_{2}},\tilde{y_{2}})\\ ...\\ (\vec{x_{N}},\tilde{y_{N}})\\ \end{Bmatrix}


    输入、标记对又称作样本点。假设每对输入、标记对是独立同分布产生的。
    4)  输入\vec{x}和标记\tilde{y}可以是连续的,也可以是离散的。 
    \vec{x}为连续的:这一类问题称为回归问题。
    \vec{x}为离散的,且是有限的:这一类问题称之为分类问题。
     输入\vec{x}和标记\tilde{y} 均为序列:这一类问题称为序列标注问题。

    3、机器学习三要素

            机器学习三要素:模型、策略、算法。

    3.1 模型

     1)模型定义了解空间。监督学习中,模型就是要学习的条件概率分布或者决策函数。模型的解空间包含了所有可能的条件概率分布或者决策函数,因此解空间中的模型有无穷多个。
    模型为一个条件概率分布,解空间为条件概率的集合:F=\begin{Bmatrix} p|p(y|\vec{x})) \end{Bmatrix} 。其中:x\in \chi ,y\in \Upsilon为随机变量, \chi为输入空间,\Upsilon为输出空间。
    通常F是由一个参数向量 \vec{\theta }=[\theta _{1},\theta _{2},...,\theta _{r}]决定的概率分布族:F=\left \{ p|p_{\vec{\theta }} (y|\vec{x}),\vec{\theta }\in R^{r}\right \} 。其中: p_{\vec{\theta }}只与 有关\vec{\theta },称 \vec{\theta }为参数空间。
    模型为一个决策函数:
    解空间为决策函数的集合F=\left \{ f|y=f(\vec{x})) \right \}: 。其中: x\in \chi ,y\in \Upsilon为变量, \chi为输入空间,\Upsilon为输出空间。
    通常 F是由一个参数向量 \vec{\theta }=[\theta _{1},\theta _{2},...,\theta _{r}]决定的函数族:F=\left \{ f|y=f_{\vec{\theta }} (\vec{x}),\vec{\theta }\in R^{r}\right \} 。其中:  f_{\vec{\theta }}只与 有关\vec{\theta },称 \vec{\theta }为参数空间。
    2)解的表示一旦确定,解空间以及解空间的规模大小就确定了。
    如:一旦确定解的表示为:f(y)=\sum \theta _{i}x_{i}=\vec{\theta }.\vec{x} ,则解空间就是特征的所有可能的线性组合,其规模大小就是所有可能的线性组合的数量。
    3)将学习过程看作一个在解空间中进行搜索的过程,搜索目标就是找到与训练集匹配的解。

    3.2 策略

            策略考虑的是按照什么样的准则学习,从而定义优化目标。

    1)损失函数: 对于给定的输入\vec{x} ,由模型预测的输出值\hat{y}与真实的标记值\tilde{y}可能不一致。此时,用损失函数度量错误的程度,记作 \iota (\hat{y},\tilde{y}),也称作代价函数。

    常用损失函数:

    ①0-1损失函数:

    ②平方损失函数:\l (\tilde{y},\hat{y})=\left \| \tilde{y} -\hat{y}\right \|^{2}

    ③绝对损失函数:\l (\tilde{y},\hat{y})=\left | \tilde{y} -\hat{y}\right |

    ④对数损失函数:\l (\tilde{y},\hat{y})=-logp(\tilde{y}|\vec{x})其物理意义是:二分类问题的真实分布与模型分布之间的交叉熵。

            训练时采用的损失函数不一定是评估时的损失函数。但通常二者是一致的。因为目标是需要预测未知数据的性能足够好,而不是对已知的训练数据拟合最好。

    2)风险函数

            通常损失函数值越小,模型就越好。但是由于模型的输入、标记都是随机变量,遵从联合分布 , 因此定义风险函数为损失函数的期望。学习的目标是选择风险函数最小的模型。

    3)经验风险

            经验风险也叫经验损失, 经验风险是模型在训练集D上的平均损失:

    R=\frac{1}{N}\sum \l (\tilde{y},\hat{y})(基于损失函数求取)。

            经验风险最小化 ( empirical risk minimization:ERM ) 策略认为:经验风险最小的模型就是最优的模型。经验风险是模型在训练集D上的平均损失。结构风险是在经验风险上叠加表示模型复杂度的正则化项(或者称之为罚项),它是为了防止过拟合而提出的,结构风险最小化 ( structurel risk minimization:SRM ) 策略认为,结构风险最小的模型是最优的模型。

            模型关于D的结构风险定义为:

      

            其中: J(f)标准模型复杂度,f越复杂,则J(f)越大。

      4)极大似然估计

            极大似然估计就是经验风险最小化的例子,已知训练集 D,根据 出现概率最大,有:

    定义损失函数为\iota (\hat{y},\tilde{y})=-logp(\tilde{y}|\vec{x})(对数损失函数),则有:

     即:极大似然估计 = 经验风险最小。

    5)最大后验估计

            最大后验估计就是结构风险最小化的例子,已知训练集D,根据D出现概率最大:

    定义损失函数为\iota (\hat{y},\tilde{y})=-logp(\tilde{y}|\vec{x})(对数损失函数),则有:

    即:最大后验估计 = 结构风险最小化

    3.3 算法

            算法指学习模型的具体计算方法。通常采用数值计算的方法求解,如:梯度下降法

        

  • 相关阅读:
    docker 部署Redis集群(三主三从,以及扩容、缩容)
    VBA学习(17):使用条件格式制作Excel聚光灯
    香港服务器ssh连接失败怎么处理?
    分享一个网站实现永久免费HTTPS访问的方法
    如何用神经网络预测数据,神经网络预测的软件有
    微服务效率工具 goctl 深度解析(上)
    快手自研Spark向量化引擎正式发布,性能提升200%
    C#上位机——根据命令发送
    Java基于Vue+SpringBoot的酒店客房管理系统
    WMS可以为制造企业解决什么问题?
  • 原文地址:https://blog.csdn.net/m0_61363749/article/details/126178679