论文名称 | LIRA: Learnable, Imperceptible and Robust Backdoor Attacks |
---|---|
作者 | Khoa Doan(Baidu Research) |
会议/出版社 | ICCV 2021 |
📄在线pdf | |
代码 | 💻pytorch |
其他 | 该作者还有一篇攻击的论文,在线pdf |
本文提出了一种新的攻击框架 LIRA,该框架可以学习一种隐形的后门以及带有该后门的优化器。本文将后门的学习过程视为一个非凸约束优化问题,通过交替优化的方同时训练后门注入函数 T T T 以及带有后门的分类器 f f f。
之前的文章的 backdoor trigger 在视觉上有了改进,但是仍能被检测到。
可以由上图看出,本文方法生成的 trigger 更加隐蔽。
本文的方法不同之处:
威胁模型:
整个模型的训练过程:
optimization problem
min θ ∑ i = 1 N α L ( f θ ( x i ) , y i ) + β L ( f θ ( T ξ ∗ ( θ ) ( x i ) ) , η ( y i ) ) \min _{\theta} \sum_{i=1}^{N} \alpha \mathcal{L}\left(f_{\theta}\left(x_{i}\right), y_{i}\right)+\beta \mathcal{L}\left(f_{\theta}\left(T_{\xi^{*}(\theta)}\left(x_{i}\right)\right), \eta\left(y_{i}\right)\right) minθ∑i=1NαL(fθ(xi),yi)+βL(fθ(Tξ∗(θ)(xi)),η(yi))
s.t. (i)
ξ
∗
=
arg
min
ξ
∑
i
=
1
N
L
(
f
θ
(
T
ξ
(
x
i
)
)
,
η
(
y
i
)
)
\xi^{*}=\underset{\xi}{\arg \min } \sum_{i=1}^{N} \mathcal{L}\left(f_{\theta}\left(T_{\xi}\left(x_{i}\right)\right), \eta\left(y_{i}\right)\right)
ξ∗=ξargmin∑i=1NL(fθ(Tξ(xi)),η(yi))
(ii)
d
(
T
(
x
)
,
x
)
≤
ϵ
d(T(x), x) \leq \epsilon
d(T(x),x)≤ϵ
two-stage training
Algorithm
“Algorithm 1 LIRA Backdoor Attack Algorithm” 具体算法可以看文章
模型结构
数据集
实验