用最大似然估计或者map导出能量模型
参考
假设有个服从未知分布的随机变量,类似黑盒子,它产生了很多能看得见的样本。那这时候,我们可以通过最大化看到这些样本的概率来反推出模型最优的参数,这种方法叫做最大似然估计。
核心思想:根据观测到的结果预测未知参数
最大似然本身是不可能把先验知识考虑进去的
maximum posterior probability 考虑的是如何把已知的经验放到模型里面去
总体来讲MAP要比MLE多出了一个项,就是P(θ),也叫作先验概率,而且这个概率是我们可以指定的。
可以通过先验的方式来给模型灌输一些信息。 比如模型的参数[公式]可能服从高斯分布,我们就可以假定先验就是高斯分布。
A Tutorial on Energy-Based Learning
有些可视化以及清晰的见解来自ICLR 2020: Yann LeCun and Energy-Based Models。
量函数通常写作E(x,y) ,用于衡量 x,y 的 compatibility,也可以理解为x,y是否匹配,能量越小匹配度越高。
前边的是MAP,后边的是能量模型,包括保真项和先验项