L1范数:在正则化的过程中会趋向于产生少量的特征,而其他的特征都是0(因为L1会使得参数矩阵变得稀疏,参数尽可能地接近0)。因此L1不仅可以起到正则化的作用,还可以起到特征选择的作用(类似Dropout)。
监督学习可划分为判别式模型和生成式模型。简单地说,判别式模型是针对条件分布建模,而生成式模型则针对联合分布进行建模。换句话说,二者目的都是在使后验概率最大化,判别式是直接对后验概率建模,但是生成模型通过贝叶斯定理这一“桥梁”使问题转化为求联合概率。
给定训练数据(X,Y),X为特征集合,Y为类别标签,对于想要预测的一个样本x,我们要预测它的类别y,通过求得最大的条件概率P(y|x)作为x的预测类别。
不管是生成式模型还是判别式模型,它们最终的判断依据都是条件概率 P(y|x),但是生成式模型先计算了联合概率P(x,y),再由贝叶斯公式计算得到条件概率。因此,生成式模型可以体现更多数据本身的分布信息,其普适性更广。
在实际分类问题中,判别式模型可以直接用来判断特征的类别情况;而生成式模型需要加上贝叶斯公式,然后应用到分类中。但是,生成式模型的概率分布可以有其他应用,就是说生成式模型更一般更普适。不过判别式模型更直接,更简单。两种方法目前交叉较多。由生成式模型可以得到判别式模型,但由判别式模型得不到生成式模型。
常见判别模型:KNN,感知机,决策树,逻辑回归,随机森林、Boosting系列(GBDT梯度提升数、AdaBoost、XGBoost),最大熵模型,SVM,条件随机场,神经网络等。
常见生成模型:朴素贝叶斯法(Naive Bayiss)、隐马尔科夫模型(HMM)、混合高斯模型(Mixtures of Guassian)、AODE分类器、Latent Dirichlet Allocation(隐式狄利克雷分配模型,LDA)、Restricted Boltzmann Machine(受限玻尔兹曼机)。

举个例子:
四个样本

判别式模型
一个样本对所有类的后验概率和为1。

生成式模型
所有联合概率和为1.

欠拟合 训练集测试集偏差大
正常拟合 训练集测试集偏差小 训练集测试集方差小
过拟合 测试集方差大

偏差与方差对应的解决方法:
Bagging方法:通过合并多个模型降低泛化误差的方法(故每个模型都希望是欠拟合的,高偏差低方差),Bagging方法中所有分类器权重相同,能够降低模型的方差,即总分类器对数据扰动的承受能力更好,从而改善模型过拟合问题。
boosting方法:能够降低模型的偏差,改善模型的欠拟合问题
E[X+Y] = E[X] + E[Y]
E[XY]=E[X]E[Y] XY独立时成立
Var[X+Y] = Var[X]+Var[Y]+2Cov[X,Y]
Cov[X,Y] = Cov[Y,X]=E[(X-E[X])(Y-E(Y))] 大于0 X,Y正相关 小于0X,Y负相关 等于0不相关
Hingeloss只需要正确类的预测概率和其他类的预测概率差值超过Δ,而不需要概率越大越好,能够很好地防止过拟合地发生。
CrossEntropyLoss要求尽可能地得分高,可能会造成一定程度的过拟合,模型不太会兼顾全部的样本。
Hinge loss会把更多的注意力放在没有分类分的很好的那些样本上,不会再注意分类好的样本了,类似Focal Loss。

重采样中的欠/过采样是对于整个数据集而言,而上下采样是针对单个图像而言。
重采样用于解决数据集不同类别样本不均衡问题。
HoG
Harris
SIFT
SURF