差分隐私是能够提供严谨数学证明的隐私保护模型,针对传统差分隐私保护方法在混合型数据集中应用效果差、处理后破坏数据可用性等问题,提出一种面向混合型数据集自适应聚类的差分隐私保护算法。结合快速聚类及k-prototype聚类算法的特点,首先根据混合数据集的不同数据类型属性,采用不同的相异度计算方式实现对不同数据类型属性的距离计算;然后针对聚类后簇中心分别采用Laplace机制及指数机制进行分类处理,最后结合差分隐私的组合性质实现对混合型数据集的差分隐私保护。实验结果表明,该方法相较于传统方法处理混合型数据集时,在相同隐私预算下数据误差率下降15%,证明处理结
0 引言
大数据时代,数据处理方式不断优化,数据处理量迎来了井喷式增长。越来越多的研究机构投入到这些数字资源研究分析中,通过合理的数据挖掘分析方式[1],获得高价值度的有效信息,从而支持各行各业紧密融合发展,推动实现企业、政府部门等组织的管理决策高效化。然而在提供巨大潜在利益的同时,无差别地将个人数据暴露在公共视野中