• LIRA: Learnable, Imperceptible and Robust Backdoor Attacks 论文笔记


    论文信息

    论文名称LIRA: Learnable, Imperceptible and Robust Backdoor Attacks
    作者Khoa Doan(Baidu Research)
    会议/出版社ICCV 2021
    pdf📄在线pdf
    代码
    💻pytorch
    其他该作者还有一篇攻击的论文,在线pdf

    介绍

    本文提出了一种新的攻击框架 LIRA,该框架可以学习一种隐形的后门以及带有该后门的优化器。本文将后门的学习过程视为一个非凸约束优化问题,通过交替优化的方同时训练后门注入函数 T T T 以及带有后门的分类器 f f f

    之前的文章的 backdoor trigger 在视觉上有了改进,但是仍能被检测到。

    在这里插入图片描述

    可以由上图看出,本文方法生成的 trigger 更加隐蔽。

    本文的方法不同之处:

    • 将攻击问题视为约束优化的问题,并且采用了交替优化的方式去解决。
    • 先前的文章是先训练 transformation function T,再训练 f f f ,本文让 T T T f f f 同时训练。这样的优点是,不同图像的 trigger 是不同的,难以被检测。

    威胁模型:

    • 攻击者可以可以访问数据,模型结构和模型参数
    • 返回一个训练好的模型

    模型

    整个模型的训练过程:

    在这里插入图片描述

    • optimization problem

      min ⁡ θ ∑ i = 1 N α L ( f θ ( x i ) , y i ) + β L ( f θ ( T ξ ∗ ( θ ) ( x i ) ) , η ( y i ) ) \min _{\theta} \sum_{i=1}^{N} \alpha \mathcal{L}\left(f_{\theta}\left(x_{i}\right), y_{i}\right)+\beta \mathcal{L}\left(f_{\theta}\left(T_{\xi^{*}(\theta)}\left(x_{i}\right)\right), \eta\left(y_{i}\right)\right) minθi=1NαL(fθ(xi),yi)+βL(fθ(Tξ(θ)(xi)),η(yi))

      s.t. (i) ξ ∗ = arg ⁡ min ⁡ ξ ∑ i = 1 N L ( f θ ( T ξ ( x i ) ) , η ( y i ) ) \xi^{*}=\underset{\xi}{\arg \min } \sum_{i=1}^{N} \mathcal{L}\left(f_{\theta}\left(T_{\xi}\left(x_{i}\right)\right), \eta\left(y_{i}\right)\right) ξ=ξargmini=1NL(fθ(Tξ(xi)),η(yi))
      (ii) d ( T ( x ) , x ) ≤ ϵ d(T(x), x) \leq \epsilon d(T(x),x)ϵ

      • α \alpha α β \beta β 为超参数,文中设置为 0.5,0.5
    • two-stage training

      • Stage I:train f and T with the proposed alternating scheme for a fixed number of trials
      • Stage II:we fine-tune only the classifier f with both clean and backdoor data generated by the learned transformation T in Stage I.
    • Algorithm

      “Algorithm 1 LIRA Backdoor Attack Algorithm” 具体算法可以看文章

    实验

    • 模型结构

      • Generator:U-Net
      • classifier:Resnet-18
    • 数据集

      • MNIST, CIFAR10, GTSRB and Tiny ImageNet (T-ImageNet)
    • 实验

      • Human Inspection Test:使用人去检测 trigger 的视觉效果
      • Attack Experiments:验证了攻击的效果
      • Defense Experiments:分别对防御模型,Neural Cleanse,STRIP,GradCam 进行了测试
  • 相关阅读:
    C语言 深度探究C语言中的预处理器
    Vue开发历程---音乐播放器的继续
    毕业设计选题之Java+springboot线上蔬菜销售与配送系统(源码+调试+开题+lw)
    验证NIO的非阻塞模型
    (三十三)geoserver源码&添加新的数据存储
    oracle创建表空间及查看表空间和使用情况
    史上最细,Jenkins插件Allure生成自动化测试报告详细...
    Python基础之列表,元组,字典,集合,推导式,迭代器
    Flink动态业务规则的实现
    Notion 又一开源替代品,诞生了!
  • 原文地址:https://blog.csdn.net/weiyuxin107/article/details/127982735