• 论文笔记: 度量学习之 ITML (理解ing)


    摘要: 分享对论文的理解. 原文见 Jason Davis, Brian Kulis, Suvrit Sra and Inderjit Dhillon, Information-Theoretic Metric Learning, ICML 2007. 只有可怜的 5 页, 但引用达到 2000 余次.

    1. 论文贡献

    • 证明信息理论度量学习与低轶核学习的等价性

    2. 基本符号

    符号含义说明
    x i ∈ R d \boldsymbol{x}_i \in \mathbb{R}^{d} xiRd i i i 个对象默认为列向量
    X = [ x 1 x 2 … x n ] ∈ R d × n \boldsymbol{X} = [\boldsymbol{x}_1 \boldsymbol{x}_2 \dots \boldsymbol{x}_n] \in \mathbb{R}^{d \times n} X=[x1x2xn]Rd×n数据矩阵没有逗号
    K 0 = X T X \boldsymbol{K}_0 = \boldsymbol{X}^{\mathsf{T}}\boldsymbol{X} K0=XTXGram 矩阵
    u u u距离上界, 小于它表示相似
    l l l距离下界, 大于它表示相似 u < l u < l u<l
    m ∈ R d \boldsymbol{m} \in \mathbb{R}^{d} mRd多个高斯分布的均值为一个向量
    y i ∈ { 1 , 2 , … , C } y_i \in \{1, 2, \dots, C\} yi{1,2,,C} x i \boldsymbol{x}_i xi 的标签不限于二分类
    A ∈ R d × d \boldsymbol{A} \in \mathbb{R}^{d \times d} ARd×d正定矩阵
    Z Z Z归一化常数
    S \boldsymbol{S} S相似点对集合
    D \boldsymbol{D} D不相似点对集合

    3. 方案

    新的马氏距离为:
    KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 3: d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…
    理解:

    • 如果 A = I \boldsymbol{A} = \boldsymbol{I} A=I, 则退化为欧氏距离.
    • 如果 A = U T U \boldsymbol{A} = \boldsymbol{U}^{\mathsf{T}}\boldsymbol{U} A=UTU, 那么 KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 3: d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…, 与 度量学习之 LMNN 的表达式一致.

    多变量高斯的概率密度函数为
    KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 91: …-\frac{1}{2} d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…

    两个马氏度量的距离为
    K L ( p ( x ; m , A 1 ) ∥ p ( x ; m , A 2 ) ) = ∫ p ( x ; m , A 1 ) log ⁡ p ( x ; m , A 1 ) p ( x ; m , A 2 ) d x (3) \mathrm{KL}(p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_1) \| p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_2)) = \int p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_1) \log \frac{p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_1)}{p(\boldsymbol{x}; \boldsymbol{m}, \boldsymbol{A}_2)} \mathrm{d} \boldsymbol{x} \tag{3} KL(p(x;m,A1)p(x;m,A2))=p(x;m,A1)logp(x;m,A2)p(x;m,A1)dx(3)

    优化目标为:
    KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 168: …bject to } & d_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{A}(\boldsymbol…

    解释:

    • 这里使用了 KL 散度.

    疑问:

    • (3) 式的积分表示什么? 对整个数据集的对象? 如果是这样, 右边是否应将 x \boldsymbol{x} x 改为 x i \boldsymbol{x}_i xi?
    • (4) 式中的 S \boldsymbol{S} S D \boldsymbol{D} D 是指从数据集中可以构造的所有相似点/不相似点对的集合, 还是部分?

    理论证明与算法还没弄会.

    4. 小结

    继续努力!

  • 相关阅读:
    OpenCV实现“蓝线挑战“特效
    论文笔记:ViTGAN: Training GANs with Vision Transformers
    最新AI智能系统ChatGPT网站源码V6.3版本,GPTs、AI绘画、AI换脸、垫图混图+(SparkAi系统搭建部署教程文档)
    【送书福利-第二十八期】《AIGC:让生成式AI成为自己的外脑》
    如何从一个美术变成程序员?
    华为OD机试 - 求最多可以派出多少支团队 - 双指针(Java 2023 B卷 100分)
    Elasticsearch学习系列【2】- 批量获取与批量写入文档
    “拳头”重拳出击,Valorant监控来袭,网络环境改善?隐私安全?
    一文带您了解什么是渲染农场
    第03章_用户与权限管理
  • 原文地址:https://blog.csdn.net/minfanphd/article/details/126600059