方法=模型+策略+方法
输入可以离散或连续,输出是有限个离散值
准确率:分类器正确分类与样本总数之比
精确率:TP/TP+FP
召回率:TP/TP+FN
输入观测序列,输出标记序列或状态序列
预测输入变量和输出变量之间的关系
最常用的损失函数是平方损失函数,用最小二乘法求解
感知机(perceptron)是二分类的线性分类模型,输入特征向量,输出实例类别,取+1和-1二值,划分正负两类的分离超平面,属于判别模型。利用梯度下降法对损失函数进行极小化,求得感知机模型。分为原始形式和对偶形式。
f(x)=sign(w·x+b)
w为权值,b为偏置,w·x为内积
对应于特征空间Rn中的一个超平面S,w是超平面的法向量,b是超平面的截距,超平面被划分为两个部分,两部分的点为正负两类。
感知机算法对偶形式(例题)
k近邻法(k-nearest neighbor) 是一种基本分类与回归方法。本次只讨论分类问题。
输入实例的特征向量,对应于特征空间的点,输出为实例的类别,可多类,通过多数表决等方式进行预测。
三要素:k值选择(一般选较小),距离度量,分类决策规则(多数表决)
k近邻法的实现:kd树
朴素贝叶斯(naive Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。
基于特征条件独立假设学习输入输出的联合概率分布,用此模型对输入x利用贝叶斯定理求出后验概率最大的输出y。
决策树(decision tree)是一种基本的分类与回归方法,本次只讨论分类问题
利用if-then规则,或特征空间与类空间上的条件概率分布。
优点:模型可读性,分类速度快
决策树学习:特征选择,决策生成,决策树修剪
逻辑斯谛回归(logistic regression)是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则,都属于对数线性模型。
逻辑斯谛回归由条件概率P(Y|X)表示,随机变量X取实数,Y取1或0,通过监督学习估计模型参数。
最大熵模型(maximum entropy model)由最大熵原理推导实现。最大熵原理认为学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型时最好的模型,也用约束条件来确定概率模型的集合。
支持向量机(support vector machines,SVM)是一种二分类模型,基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它区别于感知机。
支持向量机的学习策略就是间隔最大化
支持向量机的学习算法时求解凸二次规划的最优化算法
训练数据线性可分时,通过硬间隔最大化,即线性可分支持向量机,又称硬间隔支持向量机。
通过软间隔最大化,即线性支持向量机,又称软间隔支持向量机。
训练数据线性不可分时,使用核技巧及软间隔最大化,即飞线性支持向量机。
提升(boosting)方法在分类问题中,通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。
AdaBoost算法从训练数据中学习一系列弱分类器或基本分类器,并将这些弱分类器线性组合成为一个强分类器。
提升树算法:以决策树为基函数的提升方法称为提升树,对分类问题决策树是二叉分类树。
EM算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。
EM算法每次迭代由两步组成,E求期望,M求极大,所以也称为期望极大算法。
EM算法的一个重要应用是使用高斯混合模型的参数估计。
隐马尔可夫模型(hidden Markov model,HMM)是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。
隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测从而产生观测随机序列的过程。
前向算法举例
十种主要统计学系方法:
无监督学习是从无标注数据中学习模型的机器学习问题。主要包括
聚类是针对给定样本,依据他们特征的相似度或距离,将其归并到若干个“类”或“簇”。一个类是给定样本集合的一个子集。样本间相似度或距离起重要作用。
层次聚类:聚合(自下而上),每个样本一个类,不断与最近合并;分裂(自上而下)一个类,不断与最远分开。
k均值聚类(k-means clustering):基于中心,通过迭代将样本分到k个类,是得每个样本与其所属类的中心或均值最近,得到k个划分。
k均值聚类是基于样本集合划分的聚类算法。分k类,每个样本到其所属类的中心距离最小,每个样本只能属于一个类,则k均值聚类是硬聚类。
例题:
使用曼哈顿距离作为度量标准,用均值作为每次聚类后的中心点;
初始化时, A类中心为(0,0),表示为:A/(0,0),B类中心为(1,0)表示为:B/(1,0)。
在以下的表格中,(1)-(8)填写距离值;(9)-(12)填写A或B;(13)-(14)填写新中心点,如“(100,110)”,(15)-(16)填写类和新中心点,如“A/(100,100)”。
奇异值分解(singular value decomposition,SVD)是一种矩阵因子分解方法。主成分分析会用到奇异值分解。
主成分分析(principal component analysis,PCA)是一种常用的无监督学习方法,利用正交变换吧线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据,线性无关变量称为主成分。
潜在语义分析(latent semantic analysis,LSA)无监督学习方法,主要用于文本的话题分析,通过矩阵分解发现文本与单词之间的基于话题的语义关系。
概率潜在语义分析(probabilistic latent semantic analysis,PLSA)也称概率潜在语义索引,是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。
蒙特卡罗法(Monte Carlo method)也称为统计模拟方法,是通过从概率模型的随机抽样进行近似数值计算的方法
马尔可夫链(Markov chain)为概率模型的蒙特卡罗法。
马尔可夫链蒙特卡罗法构建一个马尔可夫链,使其平稳分布就是要进行抽烟的分布,先给予马尔可夫链进行随机游走,产生样本序列,之后用平稳分布的样本进行近似数值计算。
潜在狄利克雷分配(latent Dirichlet allocation,LDA)基于贝叶斯学习的话题模型,是潜在语义分析,概率潜在语义分析的扩展。
PageRank算法是图的链接分析的代表性算法,属于图数据上的无监督学习方法。
八种常用统计机器学习方法