• 【秋招基础】【2】笔试笔记


    1. L1正则化能够起特征选择的作用

    L1范数:在正则化的过程中会趋向于产生少量的特征,而其他的特征都是0(因为L1会使得参数矩阵变得稀疏,参数尽可能地接近0)。因此L1不仅可以起到正则化的作用,还可以起到特征选择的作用(类似Dropout)。

    2. 判别模型与生成模型定义与联系

    监督学习可划分为判别式模型和生成式模型。简单地说,判别式模型是针对条件分布建模,而生成式模型则针对联合分布进行建模。换句话说,二者目的都是在使后验概率最大化,判别式是直接对后验概率建模,但是生成模型通过贝叶斯定理这一“桥梁”使问题转化为求联合概率。

    给定训练数据(X,Y),X为特征集合,Y为类别标签,对于想要预测的一个样本x,我们要预测它的类别y,通过求得最大的条件概率P(y|x)作为x的预测类别。

    • 判别式模型得到P(y|x)方法
      根据训练数据直接确定分类分界面,直接拟合决策函数y=f(x)(设定阈值分类)或条件概率P(y|x),即计算P(y|x),直接取得最大的概率作为预测类别。
    • 生成式模型得到P(y|x)方法
      对每一类都建立一个模型,学习出每个类别的联合分布P(X,Y),最后通过贝叶斯公式P(y|x)=P(xy)/P(x)求出所需要的条件概率P(y|x)取最大作为预测类别。

    不管是生成式模型还是判别式模型,它们最终的判断依据都是条件概率 P(y|x),但是生成式模型先计算了联合概率P(x,y),再由贝叶斯公式计算得到条件概率。因此,生成式模型可以体现更多数据本身的分布信息,其普适性更广。

    在实际分类问题中,判别式模型可以直接用来判断特征的类别情况;而生成式模型需要加上贝叶斯公式,然后应用到分类中。但是,生成式模型的概率分布可以有其他应用,就是说生成式模型更一般更普适。不过判别式模型更直接,更简单。两种方法目前交叉较多。由生成式模型可以得到判别式模型,但由判别式模型得不到生成式模型。

    常见判别模型:KNN,感知机,决策树,逻辑回归,随机森林、Boosting系列(GBDT梯度提升数、AdaBoost、XGBoost),最大熵模型,SVM,条件随机场,神经网络等。
    常见生成模型:朴素贝叶斯法(Naive Bayiss)、隐马尔科夫模型(HMM)、混合高斯模型(Mixtures of Guassian)、AODE分类器、Latent Dirichlet Allocation(隐式狄利克雷分配模型,LDA)、Restricted Boltzmann Machine(受限玻尔兹曼机)。
    在这里插入图片描述
    举个例子:
    四个样本
    在这里插入图片描述
    判别式模型
    一个样本对所有类的后验概率和为1。
    在这里插入图片描述
    生成式模型
    所有联合概率和为1.
    在这里插入图片描述

    3. 偏差、方差、过拟合、欠拟合

    欠拟合 训练集测试集偏差大
    正常拟合 训练集测试集偏差小 训练集测试集方差小
    过拟合 测试集方差大
    在这里插入图片描述
    偏差与方差对应的解决方法:

    1. 高偏差(无法拟合训练数据,欠拟合):换一个更大的模型或网络,模型训练久一点
    2. 高方差(过拟合):增大数据集,正则化

    Bagging方法:通过合并多个模型降低泛化误差的方法(故每个模型都希望是欠拟合的,高偏差低方差),Bagging方法中所有分类器权重相同,能够降低模型的方差,即总分类器对数据扰动的承受能力更好,从而改善模型过拟合问题。
    boosting方法:能够降低模型的偏差,改善模型的欠拟合问题

    4. 均值方差协方差

    E[X+Y] = E[X] + E[Y]
    E[XY]=E[X]E[Y] XY独立时成立
    Var[X+Y] = Var[X]+Var[Y]+2Cov[X,Y]
    Cov[X,Y] = Cov[Y,X]=E[(X-E[X])(Y-E(Y))] 大于0 X,Y正相关 小于0X,Y负相关 等于0不相关

    5. 为什么SVM不采用01损失(交叉熵损失)而采用Hinge损失?

    Hingeloss只需要正确类的预测概率和其他类的预测概率差值超过Δ,而不需要概率越大越好,能够很好地防止过拟合地发生。
    CrossEntropyLoss要求尽可能地得分高,可能会造成一定程度的过拟合,模型不太会兼顾全部的样本。
    Hinge loss会把更多的注意力放在没有分类分的很好的那些样本上,不会再注意分类好的样本了,类似Focal Loss。
    在这里插入图片描述

    6. 重采样(欠采样和过采样) 上采样和下采样

    重采样中的欠/过采样是对于整个数据集而言,而上下采样是针对单个图像而言。
    重采样用于解决数据集不同类别样本不均衡问题。

    • 欠采样:减少样本较多的类别数据量以保证样本均衡。
    • 过采样:欠采样在一定程度上防止过拟合,但是牺牲了数据。过采样是一种增加样本少的类别样本的采样方法,如SMOTE采样。
      SMOTE算法的基本思想是对每个少数类样本 xi ,从它的最近邻中随机选择一个样本,然后在xi和其k近邻内一个样本之间的连线上随机选择一点作为新合成的少数类样本。
      上、下采样是针对单个图像样本而言的。
      下采样: 缩小图像(或称为下采样(subsampled)或降采样(downsampled))的主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图。
      **上采样(upsampling)**原理:图像放大几乎都是采用内插值方法,即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。

    7. 传统特征提取方法

    HoG
    Harris
    SIFT
    SURF

  • 相关阅读:
    “豫”见超融合,私有云浪潮开启新一线
    AI从入门到精通,什么是LLMs大型语言模型?
    机器学习案例(十一):水质分析与预测
    1-8Vmware中的文件共享
    Java网络编程——NIO三大组件Buffer、Channel、Selector
    ES6 入门教程 10 对象的扩展 10.6 对象的扩展运算符
    ORB-SLAM2从理论到代码实现(九):LocalMapping程序详解
    C++模板
    DES 加解密--JAVA 实现
    好物,旅游,带货,门店,宣传怎么做批量混剪视频?视频闪闪视频批量剪辑软件帮你实现批量替换素材进行裂变
  • 原文地址:https://blog.csdn.net/qq_29380039/article/details/126013506