大概从下面几个部分学习:
1.EM算法
变分贝叶斯深度学习综述 - 知乎 (zhihu.com) 【未看完】
👌🏻(5 条消息) EM算法存在的意义是什么? - 知乎 (zhihu.com)【八种境界,还是没坚持看完,境界不到,但是较第一次看,有些进步,下次再来】
k-均值用的hard EM算法, 而我们说的EM算法是soft EM算法。 所谓hard 就是要么是,要么不是0-1抉择。 而Soft是0.7比例是c1,0.3比例是c2的情况。
EM 算法具备收敛性,但并不保证找到全局最大值,有可能找到局部最大值。
2.指数族分布
3.高斯混合模型
多元高斯和混合高斯分布不是一回事儿,多元高斯分布是指数据在每个维度上均成高斯分布,而混合高斯分布是多个高斯模型的混合,其分模型也可以是多元的
👌🏻 高斯混合模型与EM算法的数学原理及应用实例 - 知乎 (zhihu.com) 【将高斯混合模型推广到K-Means,挺不错的】
GMM(Gaussian Mixture Model, 高斯混合模型)被誉为万能分布近似器, 其拥有强悍的数据建模能力. GMM使用若干个高斯分布的加权和作为对观测数据集进行建模的基础分布, 而由中心极限定理我们知道, 大量独立同分布的随机变量的均值在做适当标准化之后会依分布收敛于高斯分布, 这使得高斯分布具有普适性的建模能力, 继而奠定了使用高斯分布作为主要构成部件的GMM进行数据建模的理论基础. GMM是典型的概率图模型, GMM与其变种k-means(k均值)算法都是工业实践中经常使用的聚类工具. 由于GMM在建模时引入了隐变量的概念, 致使我们无法直接使用MLE(Maximum Likelihood Estimate, 极大似然估计)进行参数估计,进而引入了EM(Expectation Maximization algorithm, 最大期望算法)算法来对含有隐变量的模型进行训练. EM算法通过迭代地构造似然函数下限的方式不断地提升似然函数的取值, 从而完成对含有隐变量模型的参数估计, 其典型的应用包括GMM、HMM(Hidden Markov Model, 隐马尔可夫模型)的参数估计
GMM模型对不完全数据分布的建模是通过求完全数据的边缘分布求得的
4.变分推断
如何简单易懂地理解变分推断(variational inference)? - 知乎 (zhihu.com) 【写的比较通俗】
如何简单易懂地理解变分推断(variational inference)? - 知乎 (zhihu.com) 【都是些优美的公式】
在贝叶斯统计中,所有的对于未知量的推断(
inference
)问题可以看做是对后验概率(posterior
)的计算。因此提出了Variational Inference
来计算posterior distribution
。
黑盒变分推断(BBVI) 没有看
这个还没有深刻体会
最后一句话的意思应该是将有关联(不相互独立的)搞成联合分布,各个联合分布之间来看做独立的。
坐标上升变分推断( Coordinate Ascent Variational Inference, CAVI) - 知乎 (zhihu.com)【还未看】
MCMC
方法是利用马尔科夫链取样来近似后验概率,变分法是利用优化结果来近似后验概率 。
MCMC
相较于变分法计算上消耗更大,但是它可以保证取得与目标分布相同的样本,而变分法没有这个保证:它只能寻找到近似于目标分布一个密度分布,但同时变分法计算上更快
当数据量较小时,我们可以用MCMC
方法消耗更多的计算力但得到更精确的样本。当数据量较大时,我们用变分法处理比较合适。
另一方面,后验概率的分布形式也影响着我们的选择。比如对于有多个峰值的混合模型,MCMC
可能只注重其中的一个峰而不能很好的描述其他峰值,而变分法对于此类问题即使样本量较小也可能优于MCMC
方法。