• 【论文学习】变分推导


    来源于CVPR2022的GroupNet,CAVE-based算是一个全新的东西,值得深入研究一下。其中变分推导的理解在下方。以及来源地址
    在这里插入图片描述
    *b站上有一个up主关于这个问题讲得很清晰(视频地址),本文是该视频的文字总结。

    Problem Definition
    给定observation variable (比如RGB图片)和latent variable (比如是RGB图片经过encoder得到的latent feature), 假设我们想知道(学习)后验概率 ,但发现 在实际中不好或者没法求解,那么我们该怎么求解这个后验概率呢?
    High-level Introduction of VI Solution

    先看这个蓝色笔记部分。最外圈的大圆代表的是整个概率分布空间,我们要求的后验概率 是此空间里的一个点,大圆内部还有个小圆Q,Q是这个空间里的一个概率分布family,VI要做的就是找到Q中的一个最优的替代概率分布 (此分布比后验分布好求解),其是整个Q中离 最近的分布。假设L是此空间上的距离函数,则我们要找的这个概率分布就可以表示为

    如果我们能找到这样的分布 ,那么我们就可以用 去估计原来不好计算的 。

    1. ELBO

    当我们取L为KL divergence(经常用于度量两个概率分布之间的距离)的时候,此问题变成Variational Bayes (VB) 问题。(划重点,我们的目标变成了最小化以下KL散度。)

    展开KL项,

    (题外话,KL散度数值上是always大于等于0的,那么在没有其他约束的条件下,。)

    问题来了。。。因为 不好算,我们想通过 去估计 ,但计算 又需要用到 ,这不就套娃了吗。。。

    不着急,我们先试着单独看一下KL项。

    这里关于 对z积分,其实就是关于 的期望,即 ,那么上式能表示成期望形式:

    第二项可以用条件概率公式继续展开:

    此时,变成了三项,观察各项,发现第三项里面 与期望的对象 是无关的,所以期望符号可以直接去掉,于是得到:

    此时,我们把前两项称之为 (Evidence Lower Bound)。(注意这里是负的ELBO)

    那么,关于 的 为:

    实际计算中,ELBO可以表示成以下形式进行计算:

    我们再观察 (其为常数,因为是关于数据集本身的统计信息,我们称之为Evidence):

    因为等式左边是常数,我们的目标又是最小化KL项,那么我们要做的其实就是最大化 ,既

    到此,我们可以总结说:想要找到 只要最大化 的ELBO就可以了。

    BTW,为啥叫Evidence Lower Bound,因为KL散度always大于等于0,所以有以下不等式:

    ELBO其实就是数据Evidence 的下界。

  • 相关阅读:
    网络安全-终端防护设备
    基础算法学习|高精度
    基于SpringBoot设计模式之结构型设计模式·适配器模式
    Linux——进程概念
    数据分析报告常见步骤
    mybatis全局配置文件详解
    tiktok直播websocket序列化与反序列化
    Java多线程:Thread类常用API
    [附源码]java毕业设计大学生日常行为评价管理系统
    线程本地存储 ThreadLocal
  • 原文地址:https://blog.csdn.net/qq_44459787/article/details/126744813