分类模型
SVM
在特征空间上找到最佳的分离超平面,使得训练集上的正负样本间隔最大。是用来解决二分类问题的有监督学习算法,在引入核方法后也可以解决非线性问题。 逻辑回归
二分类任务 求解参数
极大似然估计(对式子取对数、极值对应的参数) 损失函数(交叉熵损失 与极大似然一致、平方损失)、梯度下降/牛顿法 集成学习
bagging
bagging采用了一种有放回 的抽样方法来生成训练数据。通过多轮有放回的对初始训练集进行随机采样,多个训练集被并行 化生成,对应可训练出多个基学习器(基学习器间不存在强依赖关系 ),再将这些基学习器结合,构建出强学习器 Random forest(多数投票):属于bagging ,采用Bootstrap的随机有放回 的抽样,抽样出N份数据集,训练出N个决策树。然后根据N个决策树输出的结果决定最终结果。 boosting
训练基分类器时采用串行 的方法,各个基分类器有依赖,每一层训练时,对前一层分错的样本给与更高的权重,测试时,根据各层分类器的结果的加权 得到最终结果 xgboost():通过boosting 的思想,由一堆cart树 ,将每棵树的预测值加在一起就得到了最后的预测值。在GBDT的基础上,新增正则项,并求解损失函数的二阶导数。 stacking
通常考虑的是异质弱学习器,并行地学习它们,并通过训练一个「元模型」将它们组合起来,根据不同弱模型的预测结果输出一个最终的预测结果。
聚类模型
K-Means
步骤:随机选取k个样本作为初始化的k个簇的质心,然后计算所有样本到这k个质心的距离,对于每个样本,将其划分到距离最近的质心所在簇类,并更新簇的质心。 优点:原理简单,容易实现。 缺点:确定K值、初始敏感,常以局部最优解结束,对孤立点敏感度不高 DBSCAN 模糊C均值聚类
降维方法
PCA
思想: 通过线性变化将特征组合到各个正交的坐标轴,并根据信息量(方差)进行排序,选取信息量最大的前几个线性组合变量作为新特征。 作用: PCA主要用于降维与评价(有些文章说不可以用与评价)与指标权重。 步骤: 1,计算协方差矩阵 2,计算协方差矩阵的特征值(方差)与特征向量(线性组合变量的数据) 3,根据特征值进行排序,选取前K个(通过累积贡献率或碎石图确定) 4,完成降维
抑制过拟合 = 数据集方面 + 模型参数方面 + 惩罚 + 集成学习
数据集
增加训练样本(数据集增强)
解决过拟合的根本性 方法 让机器学习或深度学习模型泛化能力更好的办法就是使用更多的数据进行训练。但是,在实践中,我们拥有的数据量是有限的。解决这个问题的一种方法就是创建“假数据”并添加到训练集中——数据集增强 。通过增加训练集的额外副本来增加训练集的大小,进而改进模型的泛化能力。 数据清洗:检查数据一致性,处理无效值和缺失值等。
模型参数
选择合适的迭代停止条件 迭代过程中进行权值衰减(L2正则化) 降低特征的数量(特征降维)
基于树的算法可以剪枝(决策树)
增加惩罚
Dropout(修改神经网络本身结构) 加入L1/L2正则项
原理:L1正则化和L2正则化都是在目标函数的后面添加一个正则项用来防止过拟合 L1正则
L1正则是基于L1范数,即在目标函数后面加上参数的L1范数和项,即参数绝对值和与参数的积项。 L1更加倾向于稀疏权重,常用L1做特征筛选。 L2正则
L2正则是基于L2范数,即在目标函数后面加上参数的L2范数和项,即参数的平方和与参数的积项。 L2更加倾向于平滑权重,常用L2做过拟合处理。
集成学习
随机森林 和Bagging算法是通过多分类器投票实现的,可以很好的防止过拟合。其他分类器的组合也属于组合分类器。
评价标准
分类指标
Accuracy:准确率=分类正确样本数/总样本数 Precision:精确率=分类正确正样本数/总样本例数 Recall:召回率=分类正确正样本数/总正样本数 F1 score:F1分数=Precision与Recall的调和平均数 AUC:横坐标为FPR,纵坐标为TPR的曲线(AUC曲线)下面积
回归指标
SSE:残差平方和 MSE:均方误差 RMSE:均方根误差 R方:拟合优度 MAE:平均绝对误差
聚类指标
常用的深度学习方法
YOLO
YOLO的名字You only look once正是自身特点的高度概括。YOLO的核心思想在于将目标检测作为回归问题解决 ,YOLO首先将图片划分成SxS个区域,注意这个区域的概念不同于上文提及将图片划分成N个区域扔进detector这里的区域不同。上文提及的区域是真的将图片进行剪裁,或者说把图片的某个局部的像素扔进detector,而这里的划分区域,只的是逻辑上的划分。
不定期更新!