• clean-label backdoor attacks 论文笔记


    #论文笔记#

    1. 论文信息

    论文名称Clean-Label Backdoor Attacks
    作者Alexander Turner(MIT)
    会议/出版社ICLR 2019
    pdf本地pdf 在线pdf
    代码
    trojanzoo-clean-label**** Label-Consistent
    其他这篇文章和 Label-Consistent Backdoor Attacks 基本相同

    简介:这篇文章是最早做干净标签下的后门攻击的文章。作者在 BadNets 上进行了一系列的实验证明在以往的方法中直接使用 clean-label 会导致攻击的失败。为了实现在 clean-label 下的攻击,作者使用了 GAN-based interpolation 和 adversarial p-bounded perturbations 来增加分类器的训练难度,让分类器学习到更多 backdoor 的信息。

    2. introduction

    以往的后门攻击方法是在数据上加入 backdoor trigger,并且更改该数据的标签。这种做法存在的问题是,通过人工检查可以轻易识别出异常的标签。所以本文提出了一种无需改变加毒数据集即可实现后门攻击的方法,称之为 clean-label attack。

    因为是进行 target attack,最简单的想法就是在 target 类中加入 backdoor trigger。但是作者目标类中加入 badnet 的 backdoor trigger 进行实验。发现这种进攻是无效的。

    在这里插入图片描述

    • 由上图可以看出,当 Posion rate 达到 25% 时也只有 50% 的攻击成功率
    • 本文选择的 trigger 是来源于 badnet 的攻击方法

    这是因为模型在学习时,只有一小部分图像存在 trigger ,并且模型更倾向于学习图片中的自然特征,所以 trigger 很容易被忽略。无法与 target label 建立起强的关联。

    这篇文章为了解决这个问题,提了要让模型学习目标类的特征更加困难,使得模型学习目标类时更加依赖于 trigger,使得 trigger 更容易与 target label 关联。

    文章提出了两种方法,第一种是基于 GAN 的方法,一种是基于 Adversarial examples 的方法

    3. method

    方法一:Latent space interpolation using GANs

    通过生成模型去生成一些带有噪声目标类的样本,增大目标类的学习难度。

    首先在训练集上训练一个生成器,生成模型可以学习到样本分布的 latent space

    选取目标类 x 1 x_1 x1 , 非目标类 x 2 x_2 x2,通过插值的方法生成带有噪声的目标类图片

    I G ( x 1 , x 2 , τ ) = G ( τ z 1 + ( 1 − τ ) z 2 ) , I_{G}\left(x_{1}, x_{2}, \tau\right)=G\left(\tau z_{1}+(1-\tau) z_{2}\right), \quad IG(x1,x2,τ)=G(τz1+(1τ)z2), where z 1 = E G ( x 1 ) , z 2 = E G ( x 2 ) z_{1}=E_{G}\left(x_{1}\right), z_{2}=E_{G}\left(x_{2}\right) z1=EG(x1),z2=EG(x2).

    在这里插入图片描述

    通过实验得出 τ \tau τ 的最佳值,既能让目标类难以学习,又能让人眼难以察觉

    方法二:Adversarial examples bounded in lp-norm

    最大化目标类样本和目标类标签,优化对抗扰动。使得目标类更难学习

    x a d v = argmax ⁡ ∥ x ′ − x ∥ p ≤ ϵ ( x ′ , y , θ ) x_{a d v}=\underset{\left\|x^{\prime}-x\right\|_{p} \leq \epsilon}{\operatorname{argmax}}\left(x^{\prime}, y, \theta\right) xadv=xxpϵargmax(x,y,θ)

    在这里插入图片描述

    不同情况下的 backdoor image 的视觉效果对比

    在这里插入图片描述

    4. experiments

    • 数据集:cifar-10
    • 实验结果:
      在这里插入图片描述
  • 相关阅读:
    AWS Lambda 操作 RDS 示例
    基于 Python 的音乐流派分类
    【C++11】lambda表达式 | 包装器
    基于HTML+CSS+JavaScript仿车蚂蚁网页设计与实现 (24页)
    VMware 虚拟机图文安装和配置 AlmaLinux OS 8.6 教程
    学习ASP.NET Core Blazor编程系列十——路由(中)
    C#操作GridView控件绑定数据实例详解(二)
    OpenAI放出的ChatGPT 4的多模态语音和图像更新
    Arcpy入门教程02:计算两景影像或DEM的差值并输出差值大于给定阈值的像素位置
    如何进行复盘?
  • 原文地址:https://blog.csdn.net/weiyuxin107/article/details/127983541