Trajectory Data Collection with Local Differential Privacy（论文翻译）

6.1 Experimental Setting

在实验中，我们使用了三个真实世界和一个合成数据集，即NYC、CHI、CLE和CPS。NYC由从Foursquare数据集[43]中提取的纽约市的入住轨迹组成，而从Gowalla数据集[12]中提取的CHI和CLE分别由芝加哥和克利夫兰的入住轨迹构成。1我们将1000个最受欢迎的点视为P来生成CHI和CLE，并将2000个纽约最受欢迎POI视为P。为了进行公平的比较，我们采用了与先前研究[14]中相同的预处理步骤。我们随机删除每个轨迹中10分钟内出现的点，直到只剩下一个点。如果轨迹中任何两个相邻点之间的时间间隔超过三个小时，我们将其分为两个轨迹。在这些预处理步骤之后，我们分别在NYC、CHI和CLE中获得7951、3162和2794个轨迹。对于CPS，我们遵循之前的研究[14]在不列颠哥伦比亚大学校园内生成轨迹2。我们将262栋校园建筑作为P，并生成4000条轨迹。

唯一满足纯ε-LDP的研究是NGRAM机制[14]，该机制通过结合外部知识来扰动POI轨迹。如上所述，在实践中往往很难获得这些外部知识，这是我们论文的主要动机。因此，我们将没有任何额外知识的NGRAM机制视为基线，并将不同数据集的网格粒度设置为3或4。另一个基线是指数机制（称为EXP）的直接应用。它通过使用本研究中提出的机制中使用的相同效用函数，即−dist（·），来扰动轨迹中的每个点。最后一个基线是CGM[3]，这是一种在（ε，δ）-LDP下进行流式数据收集的最新机制。我们以与先前研究[3]中相同的方式对每个点的纬度和经度进行归一化，方法是设置δ=10−2或10−1，C=0.1。对于所有机制，我们使用Haversine距离作为距离度量。

对于ATP机制中的隐私预算分配方案，分别使用ε′=ε＊=ε2来扰动τ′和τ＊。对于ε′，ε′4用于确定区域。由于区域大小在确定轨迹区域中起着更重要的作用，ε′4的四分之一用于扰动轨迹锚，而其他四分之三用于扰动半径。剩余预算（即3ε′4）用于扰动τ′中的方向和点。由于方向对轨迹的扰动有较大的影响，3ε′4的四分之三被均匀划分以扰动方向，而另四分之一被均匀划分来扰动点。扰动τ的ε的分配与τ′相同。对于TP机制，我们对ATP机制中的方向和点的扰动使用相同的预算分配策略。所有机制执行5次，并绘制平均值。

相关阅读:
【C++Primer---C++知识点记录*V---IO库】
信奥赛一本通：数据排序（合影效果、病人排队、明明的随机数、单词排序、出现次数超过一半的数、统计字符数）
Spring Aop问题汇总
Sentinel微服务流量治理组件实战上
mysql只copy数据库文件而不copy系统表文件到另一个数据库，新库可以正常使用该库和表吗？
【使用Cpolar将Tomcat网页传输到公共互联网上】
中科柏诚与知名上市公司南天信息（000948）签署战略合作协议
linux下的文本处理工具awk学习
30天Python入门（第五天：深入了解Python中的列表）
python数学建模--时间序列模型--指数平滑

原文地址：https://blog.csdn.net/qq_45034517/article/details/133892522