Detecting Pretraining Data from Large Language Models
http://arxiv.org/abs/2310.16789
这篇文章正式提出了Min-k%方法来实现成员推理攻击
动态评估基准
数据构建:通过时间上的不同来界定成员和非成员。
简单的无参考预训练数据检测方法

它利用文本的最小标记概率进行检测。Min-k% Prob 基于以下假设:非成员示例更有可能包含一些具有高负对数似然(或低概率)的异常值单词,而成员示例不太可能包含具有高负对数似然的单词。

其中 E 是 Min-K%( x ) 集的大小。我们只需对这个 Min-k% Prob 结果进行阈值处理,就可以检测预训练数据中是否包含一段文本
我们采用现有的基于参考和无参考的 MIA 方法作为基线方法,并评估它们在 WikiMIA 上的性能。这些方法仅考虑句子级概率。
具体来说,我们使用 LOSS Attack 方法(Yeom et al., 2018a),该方法在将示例作为输入时,根据目标模型的损失来预测示例的成员身份。在 LM 的上下文中,这种损失对应于示例的困惑度 (PPL)。
我们考虑的另一种方法是邻域攻击(Mattern et al., 2023),它利用概率曲率来检测隶属度(Neighbor)。这种方法与最近提出的 DetectGPT(Mitchell et al., 2023)方法相同,该方法用于对机器生成的文本与人类编写的文本进行分类。
最后,我们将与(Carlini等 人,2021 年)中提出的隶属度推理方法进行了比较,包括将示例困惑与 zlib 压缩熵 (Zlib)、小写示例困惑(小写)和在相同数据上预训练的较小模型下的示例 perplexity 进行比较(较小的参考文献).对于较小的参考模型设置,我们采用 LLaMA-7B 作为 LLaMA-65B 和 LLaMA-30B 的较小模型,GPT-NeoX-20B 的 GPT-Neo-125M,OPT-66B 的 OPT-350M 和 Pythia-2.8B 的 Pythia-70M。
其余的有用内容:
LOSS ATTACK、PPL困惑度、邻域攻击、DeteceGPT、zlib等MIA方法
看到了没见过的评估指标:SimCSE 分数