决策树构造:伪代码,一般流程,信息增益,划分数据集,递归构造决策树;
测试和存储决策树:使用决策树执行分类,决策树存储;
基于贝叶斯决策理论的分类方法:贝叶斯准则,使用条件概率进行分类;
使用朴素贝叶斯进行文档分类:朴素贝叶斯一般过程,假设条件;
使用Python进行文本分类:从文本中构建词向量,从词向量中计算概率,根据现实情况修改分类器,文档词袋模型;
示例:使用朴素贝叶斯过滤垃圾邮件;
逻辑回归一般过程;
基于逻辑回归和Sigmod函数的分类;
基于最优化方法的最佳回归系数确定:梯度上升法,使用梯度上升寻找最佳参数,绘制决策边界,随机梯度上升,处理数据中的缺失值的方法,模型预测;
基于最大间隔分隔数据;
寻找最大间隔;
SMO高效优化算法:SMO算法,应用简版SMO算法处理小规模数据集;
基于数据集多重采样的分类器:集成方法的多种形式,bagging,boosting,Adaboost算法流程;
基于单层决策树构建弱分类器:构建数据集,构建单层决策树;
完整Adaboost实现;
基于Adaboost的分类;
在马疝病数据集上应用AdaBoost:加载数据;训练集训练Adaboost,测试集预测,观察随着分类器的个数的增加,算法的训练和测试效果;
非均衡分类问题:其他分类性能度量指标(正确率、召回率、ROC曲线),基于代价函数的分类器决策控制,处理非均衡问题的数据抽样方法(欠采样,过采样);
用线性回归找到最佳拟合直线:回归的一般方法,最小二乘法求解回归方程,python实现线性回归;
局部加权线性回归:训练,测试,评估拟合效果;
缩减数据来理解数据:岭回归;Lasso回归,前向逐步回归;
权衡偏差与方差:
树回归:优点,缺点,一般流程;
将CART算法用于回归:加载数据,查看数据分布,二元切分法,构建数据集切分函数,构建回归树,查看切分后数据集分布,测试其他数据集;
树剪枝:预剪枝,后剪枝;
模型树:分段线性数据集,模型树的叶节点生成函数,生成模型树,绘制数据集划分边界,使用模型树对新数据集进行预测;
K-means算法:工作流程,伪代码,一般流程,加载数据,构建k-means支持函数,构建k-means算法,查看簇分布;
使用后处理提升聚类性能:如何才能直到生成的簇比较好?k选择多少才合适?
二分k-means算法:加载数据,构建二分k-means算法,查看树分布;
关联分析:频繁项集,关联规则,支持度,可信度或置信度;
Apriori原理:一般过程,Apriori原理;
使用 Apriori 算法来发现频繁项集:生成候选项集,组织完整的Apriori算法;
从频繁项集中挖掘关联规则:可信度,一个频繁项集可以产生多少条关联规则,生成关联规则,示例:发现毒蘑菇的相似特征;
《机器学习实战》笔记十一:使用 FP-growth 算法来高效发现频繁项集
FP树用于编码数据集的有效方式:FP树,FP树示例说明,FP-growth 算法工作流程,FP-growth 一般流程;
构建FP树:FP树类的定义,构建FP树;
从一棵FP树中挖掘频繁项集:抽取条件模式基,创建条件 FP 树;
降维技术:主成分分析,因子分析,独立成分分析;
PCA:移动坐标系,在 numpy 中实现 PCA(数据准备,PCA 算法),示例:利用 PCA 对半导体制造数据降维(加载数据,使用 PCA 对数据降维,分析特征值结果,绘制总方差的百分比);
SVD的应用:隐性语义索引,推荐系统;
矩阵分解;
利用 Python 实现 SVD:使用numpy直接对矩阵进行奇异值分解,在更大的数据集上进行更多的分解,使用奇异值信息重构原始矩阵;
基于协同过滤的推荐引擎:相似度计算,基于物品的相似度还是基于用户的相似度,推荐引擎评价;
示例:餐馆菜肴推荐引擎:推荐未尝过的菜肴,利用 SVD 提高推荐的效果,构建推荐引擎面临的挑战;
基于 SVD 的图像压缩;