naive Bayes
先验概率和后验概率:
事情还没有发生,要求这件事情发生的可能性的大小,是先验概率。事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率
概率与统计:
概率,是已知模型、参数、公式,求数据结果
统计,是已知数据结果,求模型、参数、公式
概率函数和似然函数:
p(c|x):如果结果c未知,条件特征x已知,求不同的结果c(c1、c2、cn)出现的概率,称为概率函数
p(x|c):如果结果c已知,条件特征x未知,求不同的特征x(x1、x2、xn)使得结果为c的概率,称为似然函数
贝叶斯公式:
就是求特征x划分到类别c的概率,对于多个类别c(c1、c2、cn),求出p(ci|x)的max,则将x划分到ci类

极大似然:
因为p(x|c),如果结果c已知,条件特征x未知,求不同的特征x(x1、x2、xn)使得结果为c的概率,称为似然函数。在似然函数里,如果能找到一个特征x使得“当特征为x时,结果c出现的概率最大”,即p(c|x)取极值时,称为特征x条件下“c出现的概率”的极大似然估计值。直接求导取极值得到x和p(c|x)
似然函数:
![]()
然后取对数似然:

直接求导取极值即可,更直观简单的二项分布的似然函数:
![]()
贝叶斯与极大似然之间的关系:
贝叶斯函数想解决分类问题,即已知特征x想得出类别c。转化为求类c的先验概率p(c)、以及样本x对于类别c的似然p(x|c)。类x的先验概率p(c)很好求,如果训练样本中包含足够多的独立同分布的样本则直接统计c出现的频率即可计算。但类条件概率p(x|c)不好求,对应特征x(x1、x2、xn)来说p(x|c)等于p(x1,x2,...,xn|c),首先训练样本不可能包含全部的特征即不能直接用频率来代替概率,所以使用极大似然估计值来代替类条件概率p(x|c)
朴素贝叶斯:
基于贝叶斯公式来估计后验概率p(c|x)的主要困难在于,训练样本不可能包含全部的特征x取值,频率和概率不相等,“未被观测到”不等于“出现概率为0”。所以使用极大似然估算的条件在于需要提前知道大概的概率分布模型(二项?正太?离散?),且需要保持特征之间相互独立(正式情况几乎不可能)。所以朴素贝叶斯假设“对已知类别,假设所有属性相互独立,即特征之间不相关,能独立地对分类结果产生影响”,得出朴素贝叶斯模型
![]()