Multi-Party Threshold Private Set Intersection with Sublinear Communication-2021:解读

记录阅读论文的笔记。

摘要#

总结：
（1）CRYPTO 2019:The Communication Complexity of Threshold Private Set Intersection-2019：解读提出任何阈值PSI得通信复杂度为Ω(T)；基于FHE的两方阈值PSI通信复杂度为O(T)，但计算消耗很大么；基于GC的了；两方阈值PSI得通信复杂度为O(T3)，并给出了一个通信复杂度为O(T2)的基于AHE的两方阈值PSI协议。

（2）本文和Multiparty Cardinality Testing for Threshold Private Set-2021：解读在同一年提出，难免相似。
（3）在本文中，研究多方阈值PSI的通信复杂度，分为两个功能：
第一，参与方检测数据集与交集的最大相差是否为T？
即对于I=S∩，判断|Si∖I|≤T，或|I|≥m−T是否成立？（m是数据集大小）
关注的是交集（相同数据的个数）是否足够大！，记做FTPSI−int。

第二，参与方检测并集与交集的最大相差是否为T？
即判断|⋃ni=1Si∖I|≤T是否成立？
关注的是差集（不同数据的个数）是否足够小！记做FTPSI−diff

这两个功能在两方下是等效的，在多方下不是。
因为在两方中，要求|⋃ni=1Si∖I|=2|Si∖I|，所以不用区分。在多方中，我们知道2|Si∖I|≤|⋃ni=1Si∖I|≤n.|Si∖I|，因此和两方的不同！

（4）本文中，给出任何协议的通信复杂度为Ω(nT)；在阈值FHE下的协议最大通信复杂度为O(nT)，本文设计的协议的通信复杂度只依赖于（only数据），而不依赖集合的输入。
（5）在本文中，给出以上两个功能函数的通信复杂度的上限和下限。

其中TFHE是全同态加密方案，TAHE是加法同态性的加密方案；安全性是半诚实的。
下面是对通信复杂度的上限分析，阈值PSI一般分为两个阶段：
第一阶段：

主要就是进行cardinality testing，判断交集是否足够大，详细点说可以分为两种：
对于FTPSI−int，即判断|I|≥m−T是否成立？，记做FCTest−diff。

对于FTPSI−diff，即判断|⋃ni=1Si∖I|≤T是否成立？，记做FCTest−diff。

第二阶段：
如果交集足够大，即通过了cardinality testing，就会进入第二阶段，各方找到他们的差集Si∖I。
该阶段只使用TAHE，通信复杂度为O(nT)，再结合第一阶段（表2）就会得到最终的通信复杂度（表1）。

介绍#

1、PSI的应用：
（1）DNA测试和模式识别
（2）远程诊断
（3）僵尸网络检测
（4）在线广告
2、PSI模式：
（1）两方
（2）多方
（3）云辅助
3、PSI安全模型：
（1）半诚实
（2）恶意

设计结构#

这里也是多方参与的协议，使用的是星型拓扑结构（star network），即一个leader方（designated party）和其他方交互，该结构的优点就是，无需所有方都同时在线。用于分析通信复杂度上限时。

点对点结构（point-to-point），这是星型拓扑的扩展，在本文中用于分析通信复杂度下限时。

另外还有广播型场景：
。。。待补充

其他介绍#

两方阈值PSI#

在CRYPTO 2019中已经介绍很清晰了，使用的是AHE构造的两方阈值PSI，通信复杂度为O˜(T2)。

亚线性通信PSI#

本文设计的多方阈值PSI可以用于设计多方PSI，其通信复杂度只与差值大小相关。具体说，对于多方阈值PSI，阈值T=20,...,2k，其通信复杂度是单个实例的logT倍，所以实现了通信复杂度为亚线性（对于集合大小）的多方PSI。

单个实例是啥？

紧凑型MPC#

紧凑型的MPC，即通信复杂度不随函数的输入增长而增长。

当前发展#

1、CRYPTO 2019中最后给出扩展为多方的构想，但只要考虑了FTPSI−int，首次使用TFHE用于cardinality testing，通信复杂度为O(nT)，在求交阶段使用 MPC 协议来计算随机多项式，其中通信复杂度取决于 MPC 。
2、Multiparty Cardinality Testing for Threshold Private Set-2021：解读中给出了多方阈值PSI的方案，也同样没有介绍FCTest−diff。

基础知识#

符号#

1、λ是安全参数；poly(λ)是关于λ的多项式函数；negl(λ)是不可忽略函数，即对于一个函数f(.)、任意的多项式p(.)和足够大的λ，使得f(λ)<1/p(λ)成立。
2、[x]，表示加密的x。
3、O˜(x)=O(x.poly(x))：隐藏polylog因子。

多方计算的安全性#

UC安全参考：安全性证明

下面做简单描述：
Π是协议，n个参与者，F是理想函数。
1、真实世界执行
各方执行协议Π，可以调用功能函数G，环境Z选择各方的输入，代替敌手，可以破坏参与方的任何集合以获得额外信息。[Z,Π,G]是真实世界中Z的输出

2、理想世界执行
n个参与方将输入发送给理想函数F，返回计算结果，其中SIM作为理想世界中的敌手，可以模仿真实世界中执行中的环境Z，能够完全控制被腐败的参与者并模仿参与者对Z的view。[Z,SIM,F]是理想世界中Z的输出

协议Π是安全的，需满足：对于任意的PPT的Z，都存在PPT的SIM，满足：

TFHE#

本文中使用的是【Threshold cryptosystems from threshold fully homomorphic encryption-2018】

方案如下：

总结：
（1）这里的公钥和私钥都是多个
（2）这里的解密是部分解密，然后通过聚合全部解密结果才能完全恢复明文。

紧凑性#

如果一个同态加密方案的解密电路是独立于计算函数的，即密文的长度与计算电路的深度无关，则称该同态加密方案是紧凑的。

总结：
（1）这里的Eval和ParticalDec都是同态计算，输出的计算密文与电路深度无关。

正确性#

正确性，就是检测计算后的密文解密和对明文计算一样。

安全性#

分为语义安全（Semantic Security）和模拟安全（Simulation Security）

1、语义安全

语义安全就是任意PPT的敌手不能区分任意两个明文的密文。

具体来讲：
（1）敌手任意模拟一个参与者Si，对于两个任意明文(m0,m1)，发送(Si,pki,ski,(m0,m1)给挑战者
（2）挑战者任选一个mb加密发给敌手
（3）敌手输出猜测值b′，若b=b′，则敌手获胜，输出1，否则，相反。

2、模拟安全

模拟安全，是存在一个模拟器SIM，对于任意PPT的敌手，使得两个方案和在计算上是不区分的。

TAHE#

1、和TFHE不同之处：
（1）中的计算电路是线性的，即只能进行之类的计算
（2）只有加法同态性
2、给出常用的TAHE方案：

来源于：Scalable multi-party private set-intersection

（1）Paillier变体：https://github.com/niclabs/tcpaillier
（2）ElGamal变体：https://github.com/aistcrypt/Lifted-ElGamal

3、密文具有随机性，不可区分

引理#

总结：
（1）2.3说的是在计算时，所选的和编码后的多项式时互素的。
（2）2.4说的是若是互素的，那么也是互素的，其中。
（3）2.5说的是若是互素的，且，则对于随机选取的（其），那么也是随机的。

主要技术#

这里选用作为leader方（designated party）

基于TFHE的#

即使用TFHE去判断交集是否足够大！

（1）这里的分子分母（消去后的）的degree为，如果，则，即可以用个点值对插值出。
（2）求出后，就可以求出其分母，其根就是集合

下面是具体的两方协议：

（1）通过个数组成个点值对，从而插值出有理函数
（2）这里使用的是FHE，通过同态的判断是否和相等，决定两方数据集是否相似。为什么呢？因为若，则，从而，则差集最大为，两集合相似。

以上两方协议是CRYPTO 2019:The Communication Complexity of Threshold Private Set Intersection-2019：解读中给出的，下面根据这个两方协议，扩展为多方。

（1）扩展为多方后，就需要使用TFHE了
（2）决定多方数据集是否相似，还是通过判断是否和相等。
（3）注意这里是方加密，发给，在两方中，是加密，发送给其他方。

这样简单改造为多方是有问题的：分子分母中不属于交集的项也能消去！

（1）这里元素不属于交集，但还是消去了。

如何解决呢？CRYPTO 2019中给出的方法是，加随机数！

这里给出的方法是加入随机数构成的随机项：

（1）在每一个多项式中加入一个随机项，这样不相同的元素就不会通过某些计算结合消去了。

基于TFHE的#

即使用TFHE判断差集是否足够小！

（1）与其他参与方交互后都会插值出一个，从而可以得到和，所以能计算出差集和。
（2）这里存在一个等价关系：。
（3）因为中的数据，存在两种情况，所以不仅需要计算出差集，还要判断和的大小。

基于TAHE的#

即使用TAHE判断差集是否足够小！
本文给出的方法能将两方的通信复杂度降为。

1、两方场景下：

（1）现在cardinality testing的问题是，判断是否成立？CRYPTO 2019给出的方法判断是否是“稀疏”的（该思想来自【A local decision test for sparse
polynomials】），即通过判断汉克尔矩阵的奇异性（判断方法来自【Secure linear algebra using linearly recurrent sequences】）
（2）该方法的通信复杂度为。

2、该文中给出的方法：

（1）使用另外一种方法（half-GCD）去检测汉克尔矩阵奇异性（来自【Fast solution of Toeplitz
systems of equations and computation of pad´e approximants】），能将通信复杂度降低为。
（2）如何使用：Alice和Bob各自计算出矩阵的分享份，然后通过2PC或者GC联合计算出，再去判断奇异性。

3、扩展为多方的思路：

（1）首先要设计一个多项式，使其。
（2）然后在各方运算是线性的，各方可以从这个多项式中获取矩阵的分享份。
（3）最后各方执行MPC，检测矩阵的奇异性。

计算交集#

这部分是在cardinality testing通过后，如何计算交集。

1、两方场景

这是CRYPTO 2019中给出的方法

（1）Alice根据个点插值出。
（2）再根据，恢复出分母
（3）但是不安全：Alice不仅可以恢复出分母，也能恢复出分子，泄漏Bob的数据。正如上面介绍的，这里给出的解决办法是加入噪音多项式：

这样，这里给出个点插值出，此时Alice就不能从分子中得到额外的Bob信息了。
（4）重要的就是是如何构造出的来的！

2、多方场景

这部分是沿着CRYPTO 2019两方扩展为多方的思想构造的。

（1）这里要求各方选取degree为的个随机多项式
（2）然后也根据个点插值出，进而得到分母，这样由于足够随机，不会泄漏其他方的数据，能得到交集。

3、存在的问题

（1）上述介绍多方场景，其通信复杂度为，存在的消耗主要是，各方选取degree为的个随机多项式。
（2）经过分析，各方只需要选取两个随机多项式就能达到效果，第一个多项式用于随机化自己插值出来的多项式，第二个用于随机化其他方插值出来的多项式。
（3）下面根据该思想，基于TFHE设计的协议通信复杂度可以降低为

低通信量#

（1）在点对点网络模型下，多方阈值PSI的通信复杂度的下限为
（2）在广播模型下，多方阈值PSI的通信复杂度的下限为

下面分析在点对点模型下的两种情况的通信复杂度下限。

1、求交集

（1）意思是在一个能抵抗半诚实攻击的多方阈值PSI中，两两交互的通信复杂度为

（1）很明显，多个一起交互的总通信复杂度为
2、求差集

这里说，和不同之处是，前者是当时，各方才会求交。【嗯，，为什么呢。。】

（1）意思是在一个能抵抗半诚实攻击的多方阈值PSI中，两两交互的通信复杂度为

（1）很明显，多个一起交互的总通信复杂度为

基于TFHE的测试#

这部分，给出关于cardinality testing的两种协议，即测试交集是否足够大(大于)，和测试差集是否足够小（小于）！

#

判断交集是否足够大！

（1）各方编码得到自己的多项式后，乘以一个随机项，以随机化分子分母，解决“分子分母可以相互消去不相同的项”的问题。
（2）leader方（）选取一个随机值共享给其他方
（3）各方（不含leader）将个点和带入到各自的多项式中，在加密得到得到和发给leader
（4）leadre根据：

计算出个点值对：

然后leader根据这些点插值出。
（5）若，则，所以这里需要判断是否成立，这里是判断
和是否相等？