
摘要
差分隐私的洗牌模型在去中心化、隐私保护的数据分析中提供了有前景的隐私效用平衡。 然而,目前通过洗牌来放大隐私的分析既缺乏严密性,也缺乏普遍性。 为了解决这个问题,我们提出将变化率降低作为单消息和多消息洗牌协议中隐私放大的综合框架。 它利用两个新的参数化:本地消息的总变化范围和总消息的概率比范围,来确定不可区分性级别。 我们的理论结果表明,我们的框架提供了更严格的界限,特别是对于具有极值概率设计的局部随机发生器,我们的界限非常严格。 此外,变化比减少补充了洗牌模型中的并行组合,为统计查询(例如范围查询、边缘查询和频繁项集挖掘)中使用的流行的基于采样的随机发生器提供了增强的隐私核算。 实证结果表明,我们的数值放大范围超越了现有的范围,为单消息协议节省了高达 30% 的预算,为多消息协议节省了 75% 的预算,为并行组合节省了惊人的 75%-95% 的预算。 我们的界限还产生了一种非常高效的 𝑂(𝑛) 算法,该算法可以在不到 10 秒的时间内为 𝑛 = 10^8 个用户提供数字化的隐私保护。
1 INTRODUCTION
在当前的数字化时代,数据隐私保护成为一个至关重要的议题,尤其是在人口普查(如参考文献[46])、医疗健康(参考文献[67])和电子商务(参考文献[11])等敏感领域。随着包含可识别个人信息的数据被广泛收集,隐私泄露的风险逐渐成为威胁个人和组织的重要问题(参考文献[60, 67])。为了应对这种挑战,并符合日益严格的数据隐私法规(如参考文献[16, 72]),研究界和工业界迫切需要在数据分析和学习任务中应用强大的隐私保护措施。
差分隐私概述
差分隐私(Differential Privacy, DP) 是一个提供隐私保护的数学框架,在确保数据隐私的同时维持数据实用性。DP有两个传统的工作模型:
- 中央模型(Curator Model)
在该模型中,可信的中央实体(称为“数据管理员”)对数据应用隐私保护机制后再发布数据。这种模式广泛用于:- 计数查询(如参考文献[18, 19, 56, 57]);
- 数据挖掘(如参考文献[15, 47, 59]);
- 一般化的SQL查询引擎(如参考文献[49, 55])。
- 本地模型(Local Model)
该模型在数据源级别(即用户端)提供隐私保护,无需依赖可信的中央实体。适用于多种查询任务:- 直方图查询(如参考文献[9, 50]);
- 区间查询(如参考文献[23, 25, 68]);
- 边际查询(如参考文献[22, 90, 91]);
- 频繁项集挖掘(如参考文献[82, 85]);
- 机器学习(如参考文献[26, 71, 73, 74])。
然而,这两种模型在去中心化的环境中(例如数据分布在多个参与者之间)难以在隐私保护和数据实用性之间取得良好平衡。
Shuffle 模型的引入
为解决上述问题,Shuffle模型 被提出(参考文献[13, 30])。它是一种能够在去中心化场景中提供更佳隐私保护和数据实用性平衡的模型,应用场景包括:
- 联邦分析(Federated Analytics,如参考文献[8, 21, 32, 38, 39]);
- 联邦学习(Federated Machine Learning,如参考文献[35, 41, 42, 70])。
在Shuffle模型中:
- 每位用户首先通过本地机制(如ϵ0\epsilon_0ϵ0-LDP机制)对其数据进行随机化,将其转化为一个或多个消息。
- 这些消息被发送到一个**洗牌器(Shuffler)**进行混淆,打乱后再发送给统计分析方(如服务器或分析者)。
- 洗牌器的核心作用 是模糊每条数据的来源,使分析方无法追溯数据至特定用户。这种过程被称为通过洗牌的隐私增强(Privacy Amplification via Shuffling),显著提升了隐私保护的效果。
隐私增强的挑战
分析洗牌所带来的隐私增强水平至关重要,因为它影响了隐私保护与数据实用性之间的权衡。然而,这种分析面临以下两大挑战:
- 消息空间庞大
洗牌操作涉及庞大的消息空间,增加了计算复杂度。 - 洗牌操作的非线性特性
洗牌是一种复杂的非线性操作,与传统DP中使用的简单操作(如求和)形成对比。
当前研究成果
为了应对上述挑战,学术界提出了一些重要的研究成果:
- Erlingsson等人的研究(参考文献[30])
- 在每条洗牌消息由ϵ0\epsilon_0ϵ0-LDP机制随机化的情况下,整体隐私增强水平为:
O(ϵ0log(1/δ)/n)\mathcal{O}(\epsilon_0 \sqrt{\log(1/\delta)/n})O(ϵ0log(1/δ)/n),其中概率为1−δ1-\delta1−δ。 - 假设ϵ0\epsilon_0ϵ0为常数级别(O(1)\mathcal{O}(1)O(1)),则可以提供差分隐私保护。
- 在每条洗牌消息由ϵ0\epsilon_0ϵ0-LDP机制随机化的情况下,整体隐私增强水平为:
- “隐私屏障”方法(参考文献[7])
- 视其他用户的消息为“隐私屏障”,隐藏每个用户的敏感信息。
- 提出的放大界为:
O(min{ϵ0,1}eϵ0log(1/δ)/n),δ\mathcal{O}(\min\{\epsilon_0, 1\}e^{\epsilon_0}\sqrt{\log(1/\delta)/n}), \deltaO(min{ϵ0,1}eϵ0log(1/δ)/n),δ-DP。
- “克隆”概念(参考文献[32, 33])
- 基于消息的不可区分性,提出了“克隆”机制,得到隐私增强界为:
O(eϵ0/2log(1/δ)/n),δ\mathcal{O}(e^{\epsilon_0/2}\sqrt{\log(1/\delta)/n}), \deltaO(eϵ0/2log(1/δ)/n),δ-DP,适用于ϵ0=Θ(1)\epsilon_0 = \Theta(1)ϵ0=Θ(1)。
- 基于消息的不可区分性,提出了“克隆”机制,得到隐私增强界为:
现有方法的局限性
尽管上述研究成果具有重要意义,但在精确性和通用性方面仍有以下局限:
- 隐私屏障方法
- 针对特定ϵ0\epsilon_0ϵ0-LDP机制提供更紧密的参数,但在隐私损失变量的尾部界定上缺乏精确性。
- 克隆机制
- 对通用ϵ\epsilonϵ-LDP机制近乎最优,但对于常见的本地机制(如Hadamard响应、子集选择和PrivUnit)缺乏精确性。
此外,这些方法大多仅适用于单消息的洗牌协议,而在多消息场景下可能具有更大的实用性潜力。
多消息洗牌模型中的进展与不足
多消息洗牌模型利用用户贡献的多个随机消息,通过数值分享(如参考文献[37, 38])或分类分享(如参考文献[8, 58, 61])来保护隐私。然而,现有协议主要存在以下问题:
- 逐案分析
当前研究通常基于具体协议逐案分析DP保证,导致结果缺乏通用性。 - 实用性不足
现有分析往往提供近似或松散的界定,难以满足实际应用对数据实用性的需求。
1.1 我们的贡献
针对现有研究的局限性,我们的研究在差分隐私数据处理的隐私增强分析中做出了两大创新贡献:
1. 提出了一个统一、紧凑且可扩展的隐私增强分析框架
- 适用范围广泛
我们设计的框架适用于本地差分隐私(LDP)随机化器、度量LDP随机化器和多消息协议。- 该框架被称为变异率约简(Variation-Ratio Reduction),通过两个新颖且直观的参数化方式将DP级别关联起来:
- 成对总变差(Pairwise Total Variation)
- 单向概率比(One-Direction Probability Ratio)
- 这些参数化方式为一类具有极端性质的随机化器家族(包括许多最先进的ϵ0\epsilon_0ϵ0-LDP随机化器)提供了精确且紧凑的分析。
- 覆盖范围广
此框架能够紧密分析诸如以下的随机化器和协议:- 单消息随机化器:本地哈希(Local Hash, [83])、Hadamard响应([1])、PrivUnit机制([12]);
- 多消息协议:包括参考文献[5, 21, 58, 61]中提出的协议。
- 计算复杂度低
该框架在计算复杂度上表现优越,达到了O~(n)\widetilde{O}(n)O(n)级别。这使其特别适合于大规模数据分析场景,例如涉及数百万乃至数十亿用户的遥测数据(Telemetry Data)。
2. 提出针对并行本地随机化器的紧密隐私增强界限
- 并行随机化器
并行随机化器是差分隐私协议中广泛使用的一类随机化器,常用于用户数据的收集和查询任务:- 计数查询(如参考文献[24, 69, 84])
- 热门项标识(Heavy Hitter Identification,如参考文献[10, 66, 86])
- 频繁项集挖掘(Frequent Itemset Mining,如参考文献[85])
- 机器学习任务(如参考文献[34, 48])
- 新见解
在变异率约简框架中,我们的分析发现,并行随机化器的成对总变差界限不会超过其单个基础随机化器的期望界限。这一发现揭示了并行组合特性的独特规律,并构成了我们在Shuffle模型中提出的**高级并行组合定理(Advanced Parallel Composition Theorem)**的基础。 - 紧密的增强界限
与传统方法相比,我们的并行组合定理能够提供更为紧密的隐私增强界限,在精度和实用性上具有显著优势。
这使得我们的框架不仅在理论分析中更加通用和精确,也能在实际应用中帮助优化隐私参数,从而提升数据实用性。
总结
我们的研究在差分隐私增强分析中提出了新的框架和理论,为本地随机化器和多消息协议提供了统一且精确的隐私保证分析工具。这些进步不仅拓宽了Shuffle模型的应用范围,还显著提升了数据分析中的实用性和计算效率。
2 RELATEDWORK
1. LDP随机化器的隐私放大
- 经典研究与局限
- 文献[30]利用抽样隐私放大机制分析了混洗隐私放大,证明了对于nnn条混洗消息,隐私满足(ϵ0144log(1/δ)/n,δ)(\epsilon_0 \sqrt{144 \log(1/\delta) / n}, \delta)(ϵ0144log(1/δ)/n,δ)-DP。
- 后续的隐私“毛毯”方法(Privacy Blanket) [7],通过从输出分布中提取与输入无关的部分作为“毛毯”,进一步增强隐私性。该方法指出,对于一般的LDP随机化器,用户采样输入无关部分的概率至少为e−ϵ0e^{-\epsilon_0}e−ϵ0。对于特定LDP随机化器(如Laplace机制[29]和广义随机响应[88]),这一概率可能更高。
- 克隆减缩方法
- 文献[32]和[33]引入克隆的概念,将用户消息视为受害用户的克隆,以此分解输出分布并提供近似最优的放大界限(相对于ϵ0\epsilon_0ϵ0的依赖)。然而,这种方法需要显式构造混合分布并计算克隆概率,对常用随机化器(如Laplace机制、子集选择机制[77, 92]、PrivUnit机制[14]以及基于采样的复合随机化器)而言过于复杂。
- 我们的创新
- 我们提出了基于新参数化(即成对总变差)的框架,能够隐式推导更紧凑的克隆概率。
- 此外,我们的框架不仅适用于LDP随机化器,还推广到了基于度量的LDP随机化器和多消息协议。即便在LDP随机化器的混洗模型中,我们的渐近放大界限也比现有结果更紧(参见Table 1)。
2. 基于度量的LDP随机化器的隐私放大
- 背景
基于度量的LDP[17]允许在输入对(a,b∈X)(a, b \in X)(a,b∈X)之间定义灵活的不可区分性水平(表示为dX(a,b)d_X(a, b)dX(a,b)),广泛应用于具有大域范围的数据(如位置数据[3]和非结构化数据[94])。 - 现有研究的不足
文献[78]首次研究了基于度量的DP在混洗模型中的放大效应,但其界限依赖于maxc∈XedX(a,c)+edX(b,c)\max_{c \in X} e^{d_X(a, c)} + e^{d_X(b, c)}maxc∈XedX(a,c)+edX(b,c)。 - 我们的改进
- 我们的框架将这一依赖改进为:
(1−e−dX(a,b))⋅maxc∈Xmax{edX(a,c),edX(b,c)} (1 - e^{-d_X(a, b)}) \cdot \max_{c \in X} \max\{e^{d_X(a, c)}, e^{d_X(b, c)}\} (1−e−dX(a,b))⋅c∈Xmaxmax{edX(a,c),edX(b,c)}
- 该改进具有更低的值,表明更强的放大效果(详见第4.3节)。
3. 多消息随机化器的隐私放大
- 现状
混洗模型中的多消息协议(如[21, 58, 61])中,局部随机化器可能既不满足LDP也不满足基于度量的LDP,因此往往需要专门的隐私分析。 - 我们的贡献
我们提出的框架相比于这些专门分析,能够大幅缩减隐私预算,减少幅度达70%-85%(详见第7节)。
4. 混洗与组合下的隐私放大
- 现有方法
- 为分析混洗模型在顺序组合下的累积隐私损失,通常使用集中差分隐私模型中的分析/数值工具,如强组合定理[28]、Rényi差分隐私[62]和傅里叶会计法[54]。
- 文献[43]分析了混洗消息的Rényi差分隐私,[40]进一步将混洗与抽样相结合分析隐私性。
- 我们的贡献
我们是首个针对常见的并行组合提供紧密隐私放大结果的研究(详见第6节)。
通过以上分析,我们的框架不仅填补了现有研究在理论和实践中的空白,还显著提升了隐私放大的适用性和有效性。
3 PRELIMINARIES
Hockey-stick Divergence
定义 3.1 (Hockey-stick Divergence):
参数为 eϵe^\epsiloneϵ 的 Hockey-stick divergence,用于度量两个随机变量 PPP 和 QQQ 之间的差异,其定义为:
Deϵ(P∥Q)=∫max{0,P(x)−eϵQ(x)} dx, D_{e^\epsilon}(P \| Q) = \int \max\{0, P(x) - e^\epsilon Q(x)\} \, dx, Deϵ(P∥Q)=∫max{0,P(x)−eϵQ(x)}dx,
其中 PPP 和 QQQ 既可表示随机变量,也可表示其概率密度函数。
若两个变量 PPP 和 QQQ 满足以下条件,则称它们是 (ϵ,δ)(\epsilon, \delta)(ϵ,δ)-不可区分的:
max{Deϵ(P∥Q),Deϵ(Q∥P)}≤δ. \max\{D_{e^\epsilon}(P \| Q), D_{e^\epsilon}(Q \| P)\} \leq \delta. max{Deϵ(P∥Q),Deϵ(Q∥P)}≤δ.
对于具有相同规模、仅在单个用户数据上不同的数据集,称之为相邻数据集。差分隐私通过约束查询输出在相邻数据集上的发散性来确保隐私(见定义3.2)。
差分隐私 (Differential Privacy)
定义 3.2 (差分隐私 [29]):
一个算法 R:Xn→ZR : X^n \to ZR:Xn→Z 满足 (ϵ,δ)(\epsilon, \delta)(ϵ,δ)-差分隐私,当且仅当对于所有相邻数据集 X,X′∈XnX, X' \in X^nX,X′∈Xn,R(X)R(X)R(X) 和 R(X′)R(X')R(X′) 是 (ϵ,δ)(\epsilon, \delta)(ϵ,δ)-不可区分的。
局部差分隐私 (Local Differential Privacy, LDP)
定义 3.3 (局部差分隐私 [52]):
一个算法 R:X→YR : X \to YR:X→Y 满足局部 (ϵ,δ)(\epsilon, \delta)(ϵ,δ)-差分隐私,当且仅当对于所有 x,x′∈Xx, x' \in Xx,x′∈X,R(x)R(x)R(x) 和 R(x′)R(x')R(x′) 是 (ϵ,δ)(\epsilon, \delta)(ϵ,δ)-不可区分的。
若 δ=0\delta = 0δ=0,则记为 ϵ\epsilonϵ-LDP。
基于度量的差分隐私 (Metric Differential Privacy)
基于度量的差分隐私通过定义一个距离度量 dX:X×X→Rd_X : X \times X \to \mathbb{R}dX:X×X→R,描述任意元素对 a,b∈Xa, b \in Xa,b∈X 之间的距离。满足以下性质的 dXd_XdX 被视为度量:
- 自反性 (Self-identity): 对任意 a∈Xa \in Xa∈X,dX(a,a)=0d_X(a, a) = 0dX(a,a)=0。
- 正性 (Positivity): 对任意 a,b∈Xa, b \in Xa,b∈X 且 a≠ba \neq ba=b,dX(a,b)>0d_X(a, b) > 0dX(a,b)>0。
- 对称性 (Symmetry): 对任意 a,b∈Xa, b \in Xa,b∈X,dX(a,b)=dX(b,a)d_X(a, b) = d_X(b, a)dX(a,b)=dX(b,a)。
- 三角不等式 (Triangle Inequality): 对任意 a,b,c∈Xa, b, c \in Xa,b,c∈X,dX(a,b)+dX(b,c)≥dX(a,c)d_X(a, b) + d_X(b, c) \geq d_X(a, c)dX(a,b)+dX(b,c)≥dX(a,c)。
基于度量的差分隐私扩展了传统差分隐私的概念,使不可区分性约束能够根据元素间的相似性进行调整。
定义 3.4 (基于度量的 (dX,δ)(d_X, \delta)(dX,δ)-差分隐私 [17]):
一个随机机制 RRR 满足 (dX,δ)(d_X, \delta)(dX,δ)-差分隐私,当且仅当对于任意相邻数据集 X,X′∈XnX, X' \in X^nX,X′∈Xn(即 xi=ax_i = axi=a 在 XXX 中,xi=bx_i = bxi=b 在 X′X'X′ 中),R(X)R(X)R(X) 和 R(X′)R(X')R(X′) 是 (dX(a,b),δ)(d_X(a, b), \delta)(dX(a,b),δ)-不可区分的。
局部基于度量的差分隐私 (Local Metric Differential Privacy)
在局部设置中,每个用户在本地对自己的数据进行随机化。将定义3.4中的数据集 SSS 替换为单个数据项,可得以下定义:
定义 3.5 (局部基于度量的 dXd_XdX-差分隐私 [2, 3]):
设 DRD_RDR 表示输出域,一个随机机制 RRR 满足局部基于度量的 dXd_XdX-隐私,当且仅当对于任意 a,b∈Xa, b \in Xa,b∈X,R(a)R(a)R(a) 和 R(b)R(b)R(b) 是 (dX(a,b),0)(d_X(a, b), 0)(dX(a,b),0)-不可区分的。
3.1 The Shuffle Model of Differential Privacy
- 协议定义:
- 单一消息协议 P 由一个算法列表组成,表示为 P=(Ri)i∈[n],AP = ({R_i})_{i \in [n]}, AP=(Ri)i∈[n],A,其中:
- Ri:X→YR_i: X \to YRi:X→Y 是用户 iii 使用的局部随机化器,它将用户的数据点 xix_ixi(来自集合 XXX)随机化为消息 yiy_iyi(来自集合 YYY)。
- A:Yn→ZA: Y^n \to ZA:Yn→Z 是分析器,它接收所有用户的随机化消息,并进行进一步处理,输出结果 zzz。
- 单一消息协议 P 由一个算法列表组成,表示为 P=(Ri)i∈[n],AP = ({R_i})_{i \in [n]}, AP=(Ri)i∈[n],A,其中:
- 协议流程:
- 每个用户 iii 拥有一个数据记录 xix_ixi 和一个局部随机化器 RiR_iRi,然后计算消息 yi=Ri(xi)y_i = R_i(x_i)yi=Ri(xi)。
- 所有用户的消息 y1,…,yny_1, \dots, y_ny1,…,yn 被随机打乱(shuffle)并提交给分析器。我们用 S(y1,…,yn)S(y_1, \dots, y_n)S(y1,…,yn) 来表示这个随机打乱步骤,其中 S:Yn→YnS: Y^n \to Y^nS:Yn→Yn 是一个均匀随机的排列操作。
- 最终协议的输出是 A∘S∘R[n](X)=A(S(R1(x1),…,Rn(xn)))A \circ S \circ R[n](X) = A(S(R_1(x_1), \dots, R_n(x_n)))A∘S∘R[n](X)=A(S(R1(x1),…,Rn(xn))),即分析器在接收到打乱后的消息后进行处理得到最终结果。
- 隐私保证:
- 在shuffle模型中,假设所有参与者都严格遵守协议,且没有出现串通行为。从隐私角度看,目标是保证输出 P(x1,…,xn)P(x_1, \dots, x_n)P(x1,…,xn) 对任何分析器 AAA 都是差分隐私的。
- 利用霍基棒散度(Hockey-stick divergence)的后处理性质,只需要确保打乱后的消息 S∘R[n](X)=S(R1(x1),…,Rn(xn))S \circ R[n](X) = S(R_1(x_1), \dots, R_n(x_n))S∘R[n](X)=S(R1(x1),…,Rn(xn)) 是差分隐私的。
- 差分隐私定义:
- 协议 P 满足**(ε, δ)-差分隐私**,如果对于所有相邻数据集 X,X′∈XnX, X' \in X^nX,X′∈Xn,打乱后的消息 S∘R[n](X)S \circ R[n](X)S∘R[n](X) 和 S∘R[n](X′)S \circ R[n](X')S∘R[n](X′) 是 (ε,δ)(ε, δ)(ε,δ)-不可区分的。
- 多消息协议:
- 与单一消息协议相比,多消息协议提供了更高的效用潜力。每个用户可以提交多个消息,所有这些消息会随机打乱。差分隐私的定义在这种情况下与单一消息协议相似,是基于输入数据集的单一变动来确保隐私。
通过这种方式,shuffle模型提供了一种有效的隐私保护机制,确保了在数据分析过程中即使存在多个参与者,也能有效防止泄露个体信息。
4 THE VARIATION-RATIO FRAMEWORK
在本节中,我们提出了一种基于变化率的隐私放大框架,用于通过混洗实现隐私增强。我们的方法利用了局部随机化器的混合分解,这一概念在隐私保护罩(privacy blanket)[7] 和克隆减缩(clone reduction)[32, 33] 的相关研究中首次引入。局部随机化器的混合分解揭示了以下两个关键事实:
- 混洗消息的匿名性与随机性使得其他用户的消息可以以某种概率模仿某个特定用户(“受害者用户”)的消息。这些模仿的消息在[7]中称为“保护罩消息”(blanket messages),在[32, 33]中称为“克隆”(clones),从而可以放大隐私;
- 针对具有某些特性(如 (ϵ,0)(\epsilon, 0)(ϵ,0)-LDP)的受害者用户的局部随机化器,给定任意输入条件下的输出概率分布具有某种相似性。
为实现更紧密的混洗隐私放大分析,我们的框架提出了:
- 使用 (0,δ)(0, \delta)(0,δ)-LDP 和 (ϵ0,0)(\epsilon_0, 0)(ϵ0,0)-LDP 的性质,精确捕捉受害者用户在不同输入条件下输出概率的相似性;
- 引入概率比率(probability ratio)作为衡量其他用户模仿能力的简单但有效的指标。
邻近数据集的设定
为了建立这一框架,我们在不失一般性的情况下,考虑两个仅在第一个用户数据上不同的邻近数据集 XXX 和 X′X'X′:
X={x1=x10,x2,…,xn},X′={x1=x11,x2,…,xn}, X = \{x_1 = x_1^0, x_2, \dots, x_n\}, \quad X' = \{x_1 = x_1^1, x_2, \dots, x_n\}, X={x1=x10,x2,…,xn},X′={x1=x11,x2,…,xn},
其中 x10,x11,x2,…,xn∈Xx_1^0, x_1^1, x_2, \dots, x_n \in Xx10,x11,x2,…,xn∈X。
设有独立的局部随机化器 {Ri}i∈[n]\{R_i\}_{i \in [n]}{Ri}i∈[n],并定义以下参数与性质:
- 参数 p>1p > 1p>1、β∈[0,p−1p+1]\beta \in [0, \frac{p-1}{p+1}]β∈[0,p+1p−1]、q≥1q \geq 1q≥1。
关键性质定义
- (p,β)(p, \beta)(p,β)-变化性质
若以下条件成立,则称满足 (p,β)(p, \beta)(p,β)-变化性质:
Dp(R1(x10)∥R1(x11))=0,De0(R1(x10)∥R1(x11))≤β, D_p(R_1(x_1^0) \| R_1(x_1^1)) = 0, \quad D_{e^0}(R_1(x_1^0) \| R_1(x_1^1)) \leq \beta, Dp(R1(x10)∥R1(x11))=0,De0(R1(x10)∥R1(x11))≤β,
对所有可能的 x10,x11∈Xx_1^0, x_1^1 \in Xx10,x11∈X 均成立。
- qqq-比率性质
若以下条件成立,则称满足 qqq-比率性质:
Dq(R1(x1)∥Ri(xi))=0, D_q(R_1(x_1) \| R_i(x_i)) = 0, Dq(R1(x1)∥Ri(xi))=0,
对所有可能的 x1,…,xn∈Xx_1, \dots, x_n \in Xx1,…,xn∈X 和 {Ri}i∈[2:n]\{R_i\}_{i \in [2:n]}{Ri}i∈[2:n] 均成立。
参数意义
- 参数 β\betaβ:表示成对的总变差距离,指示 R1R_1R1 满足 (0,β)(0, \beta)(0,β)-LDP 的程度。
- 参数 ppp:表示散度比率,指示 R1R_1R1 满足 (logp,0)(\log p, 0)(logp,0)-LDP 的程度。
- 参数 qqq:反映 Ri(xi)R_i(x_i)Ri(xi) 模仿 R1(x1)R_1(x_1)R1(x1) 的能力。
根据 [95, Proposition 8],对于任何随机化器 R1R_1R1,总存在一对主导分布(dominating pair of distributions),可以直接推导散度上界,包括 (p,β)(p, \beta)(p,β) 参数。
具体而言,若 R1R_1R1 满足 ϵ0\epsilon_0ϵ0-LDP,则总有:
p≤exp(ϵ0),β≤eϵ0−1eϵ0+1 [51]。 p \leq \exp(\epsilon_0), \quad \beta \leq \frac{e^{\epsilon_0} - 1}{e^{\epsilon_0} + 1} \, [51]。 p≤exp(ϵ0),β≤eϵ0+1eϵ0−1[51]。
混合分解的优化
大多数常用的 ϵ0\epsilon_0ϵ0-LDP 随机化器的总变差下界 β\betaβ 通常低于最坏情况下的 eϵ0−1eϵ0+1\frac{e^{\epsilon_0} - 1}{e^{\epsilon_0} + 1}eϵ0+1eϵ0−1(见表2)。这允许对其混洗输出进行更紧凑的混合分解,从而实现更有效的隐私放大。
4.1 Main Results
- 目标描述:
- 对比两组经过局部随机器生成并打乱后的消息:
S(R1(x10),…,Rn(xn))S(R_1(x_1^0), \dots, R_n(x_n))S(R1(x10),…,Rn(xn)) 和 S(R1(x11),…,Rn(xn))S(R_1(x_1^1), \dots, R_n(x_n))S(R1(x11),…,Rn(xn))。 - 目的是建立这两者之间散度的上界。
- 对比两组经过局部随机器生成并打乱后的消息:
- 分析方法:
- 混合分解:对局部随机器(local randomizers)使用混合分解隐式分析。
- 数据处理不等式:用数据处理不等式引入一个支配的二项分布对(binomial counts)。
- 霍基棒散度(Hockey-stick divergence)表示:
- 散度被表示为二项随机变量 ccc 累积概率的期望。
- 利用了霍基棒散度中积分的单调性。
- 关键符号与计算:
- 累积概率 CDFc,1/2[c1,c2]\text{CDF}_{c,1/2}[c_1, c_2]CDFc,1/2[c1,c2]:
表示范围 [c1,c2][c_1, c_2][c1,c2] 内的累积概率:
- 累积概率 CDFc,1/2[c1,c2]\text{CDF}_{c,1/2}[c_1, c_2]CDFc,1/2[c1,c2]:
∑i∈[c1,c2](ci)/2c \sum_{i \in [c_1, c_2]} \binom{c}{i} / 2^c i∈[c1,c2]∑(ic)/2c
- 通过两次调用正则化不完全贝塔函数(regularized incomplete beta function)快速计算。
- 算法复杂度:通过 Theorem 4.1,可以实现计算霍基棒散度的高效算法,时间复杂度为 O~(n)\tilde{O}(n)O~(n)。
定理 4.1
定理背景与目标
定理 4.1 提供了 shuffle 模型中两组独立协议运行结果之间 Hockey-stick divergence 的一个上界。这一结果旨在分析 局部随机化器(Local Randomizers) 经 shuffle 模型处理后的隐私增强效果。通过分析局部随机化器的分布特性和分解结构,定理 4.1 推导出一个可以有效计算的散度上界。
Hockey-stick divergence
- 定义:给定两个分布 PPP 和 QQQ,Hockey-stick divergence 定义为:
Deϵ(P∥Q)=∫{x ∣ P(x)>eϵQ(x)}(P(x)−eϵQ(x))dx D_{e^\epsilon}(P \| Q) = \int_{\{x \,|\, P(x) > e^\epsilon Q(x)\}} \big(P(x) - e^\epsilon Q(x)\big) dx Deϵ(P∥Q)=∫{x∣P(x)>eϵQ(x)}(P(x)−eϵQ(x))dx
- 含义:衡量分布 PPP 和 QQQ 的差异性,主要关注 P(x)P(x)P(x) 明显大于 eϵQ(x)e^\epsilon Q(x)eϵQ(x) 的部分。
- 在 shuffle 模型中的作用:Hockey-stick divergence 用于量化在局部扰动(Local Differential Privacy, LDP)基础上,shuffle 操作带来的额外隐私增强效果。
定理描述
假设局部随机化器 RiR_iRi 满足以下两个性质:
- (p,β)(p, \beta)(p,β)-变动性(variation property):表示随机化器的输出在概率上的波动程度由 ppp 和 β\betaβ 控制。
- qqq-比例性(ratio property):控制多消息协议中每条消息的分布比例。
对任意输入数据 x10,x11,x2,…,xnx_1^0, x_1^1, x_2, \ldots, x_nx10,x11,x2,…,xn,shuffle 后的分布之间的 Hockey-stick divergence 满足以下上界:
Deϵ(S(R1(x10),…,Rn(xn))∥S(R1(x11),…,Rn(xn)))≤Ec∼Binom(n−1,2r)[A⋅CDFc,1/2[⌈lowc+1⌉,c]+B⋅CDFc,1/2[⌈lowc+1⌉,c]+C⋅CDFc,1/2[⌈lowc⌉,c]] D_{e^\epsilon}\big(S(R_1(x_1^0), \ldots, R_n(x_n)) \| S(R_1(x_1^1), \ldots, R_n(x_n))\big) \leq \mathbb{E}_{c \sim \text{Binom}(n-1, 2r)} \bigg[ A \cdot \text{CDF}_{c, 1/2}[\lceil \text{low}_c+1 \rceil, c] + B \cdot \text{CDF}_{c, 1/2}[\lceil \text{low}_c+1 \rceil, c] + C \cdot \text{CDF}_{c, 1/2}[\lceil \text{low}_c \rceil, c] \bigg] Deϵ(S(R1(x10),…,Rn(xn))∥S(R1(x11),…,Rn(xn)))≤Ec∼Binom(n−1,2r)[A⋅CDFc,1/2[⌈lowc+1⌉,c]+B⋅CDFc,1/2[⌈lowc+1⌉,c]+C⋅CDFc,1/2[⌈lowc⌉,c]]
公式解释
- 随机变量 ccc:
- c∼Binom(n−1,2r)c \sim \text{Binom}(n-1, 2r)c∼Binom(n−1,2r):ccc 是一个服从二项分布的随机变量,表示 n−1n-1n−1 条消息中有多少条被随机分配到某个槽中。
- 参数 2r2r2r 是一个克隆概率,与局部随机化器的随机化强度相关。
- 累积分布函数 (CDF):
- CDFc,1/2[a,b]\text{CDF}_{c, 1/2}[a, b]CDFc,1/2[a,b] 表示一个以 1/21/21/2 为参数的二项分布在区间 [a,b][a, b][a,b] 上的累积概率,可以通过不完全 Beta 函数快速计算。
- 分量 A,B,CA, B, CA,B,C:
- A=(p−eϵ)αA = (p - e^\epsilon) \alphaA=(p−eϵ)α:表示一个与 ppp、隐私参数 ϵ\epsilonϵ 和 α=βp−1\alpha = \frac{\beta}{p-1}α=p−1β 相关的系数。
- B=(1−peϵ)αB = (1 - p e^\epsilon) \alphaB=(1−peϵ)α:捕捉了另一类隐私差异的贡献。
- C=(1−eϵ)(1−α−αp)C = (1 - e^\epsilon) (1 - \alpha - \alpha p)C=(1−eϵ)(1−α−αp):表示 α\alphaα 剩余部分带来的隐私贡献。
- 低值参数 lowc\text{low}_clowc:
- 表示概率分布在 shuffle 后的累积偏差,与 ϵ,p,α,r,n\epsilon, p, \alpha, r, nϵ,p,α,r,n 等参数有关:
lowc=(eϵp−1)αc+(eϵ−1)(1−α−αp)⋅(n−c)r(1−2r)α(eϵ+1)(p−1) \text{low}_c = \frac{(e^\epsilon p - 1) \alpha c + (e^\epsilon - 1)(1 - \alpha - \alpha p) \cdot (n-c) r}{(1-2r)\alpha (e^\epsilon + 1)(p-1)} lowc=(1−2r)α(eϵ+1)(p−1)(eϵp−1)αc+(eϵ−1)(1−α−αp)⋅(n−c)r
定理推导关键步骤
- 局部随机化器的分解:将局部随机化器的分布分解为混合分布,使得每个子分布的统计散度更易于分析。
- 数据处理不等式:在 shuffle 模型中,应用数据处理不等式表明散度在 shuffle 操作后不会增加。
- 二项分布分析:将分布的差异量化为二项分布 ccc 的尾部行为,并利用 CDF 累积概率表示散度。
- Hockey-stick divergence 的单调性:利用积分的单调性,简化了对不同 ccc 值的分析,使得散度可以表示为一个期望值。
定理的意义
- 计算效率:由于使用了二项分布的 CDF,定理 4.1 的结果可以通过数值方法高效计算,其复杂度为 O~(n)\tilde{O}(n)O~(n)。
- 隐私增强的上界:通过这一上界,可以量化 shuffle 模型如何通过增加用户数量 nnn 或调整局部随机化器参数(如 p,β,qp, \beta, qp,β,q)来显著增强隐私保护能力。
- 理论指导:为多种实际应用场景(如差分隐私直方图、频率估计等)提供了严格的隐私保证。
定理 4.1 是 shuffle 模型中隐私放大分析的核心工具,通过 Hockey-stick divergence 的分解与累积概率表示,给出了一个通用且高效的上界。它不仅揭示了局部随机化器和 shuffle 操作之间的内在联系,还为实际协议设计提供了清晰的理论依据。
定理 4.2
定理 4.2 旨在为 shuffle 模型中的隐私放大效果提供一个渐近的上界,尤其是在用户数量 nnn 足够大的情况下。这一定理利用了随机变量 ccc(克隆数)的尾部界来分析其对隐私放大的影响。以下是定理的逐步解读和关键概念的中文解释:
克隆变量 ccc:
- 在 shuffle 模型中,ccc 表示某个消息被复制(或克隆)的次数。
- 关键性质:统计散度(Hockey-stick divergence)随着 ccc 的增加单调递减。这意味着,当消息被克隆得更多时,不同数据集之间的可区分性会变得更低,从而隐私性更强。
- 为了得到隐私放大的界,我们需要对 ccc 进行尾部概率的精确控制。
尾部界分析:
为了对 ccc 的分布进行界定,定理 4.2 采用了以下两种方法:
- 乘法型 Chernoff 界:适用于克隆概率较小的情形(比如局部随机化器满足较强的 dX\mathrm{d_X}dX-DP)。
- Hoeffding 不等式:适用于克隆概率较大的情况(比如多消息协议中每条消息的克隆概率较高)。
通过这两种方法,可以更精确地界定 ccc 的尾部概率,并将其应用于对隐私散度的放大分析。
隐私放大公式:
定理 4.2 给出了一个基于 nnn、协议参数 β,p,q\beta, p, qβ,p,q 和 δ\deltaδ 的隐私放大结果,隐私参数 (ϵ,δ)(\epsilon, \delta)(ϵ,δ) 的具体公式如下:
ϵ=log(1+β(2Ωlog(4/δ)2+1)+β(Ω2−Ωlog(4/δ)2)αΩ+(1−α−αp)(n−1−Ω)r(1−2r)αΩ) \epsilon = \log \left( 1 + \frac{\beta \left(2\sqrt{\frac{\Omega \log(4/\delta)}{2}} + 1\right) + \beta \left(\frac{\Omega}{2} - \sqrt{\frac{\Omega \log(4/\delta)}{2}}\right)}{\alpha \Omega} +\frac{(1 - \alpha - \alpha p) (n - 1 - \Omega)r}{(1 - 2r)\alpha \Omega} \right) ϵ=log1+αΩβ(22Ωlog(4/δ)+1)+β(2Ω−2Ωlog(4/δ))+(1−2r)αΩ(1−α−αp)(n−1−Ω)r
公式各部分解释:
- 参数定义:
- α=βp−1\alpha = \frac{\beta}{p - 1}α=p−1β:与 ppp 和 β\betaβ 相关的一个系数,描述了局部随机化器的变化性。
- r=pαqr = \frac{p \alpha}{q}r=qpα:一个与消息克隆概率相关的比例参数,影响隐私放大的强度。
- Ω=2r(n−1)−min(6r,12)(n−1)log(4/δ)\Omega = 2r(n - 1) - \sqrt{\min(6r, \frac{1}{2})(n - 1) \log(4/\delta)}Ω=2r(n−1)−min(6r,21)(n−1)log(4/δ):衡量克隆变量 ccc 的偏离程度,越大表示克隆行为越集中。
- 隐私放大分量:
- 第一部分:由 β\betaβ 和 Ω\OmegaΩ 的平方根项控制,表示克隆概率较小时的放大效果。
- 第二部分:与 (1−α−αp)(1 - \alpha - \alpha p)(1−α−αp) 和 (n−1−Ω)r(n - 1 - \Omega)r(n−1−Ω)r 相关,表示克隆概率较大时的放大贡献。
- 分母 (1−2r)αΩ(1 - 2r)\alpha\Omega(1−2r)αΩ:确保整个公式在 rrr 接近 0 或 1 时依然有效。
适用范围:
- 参数限制:
- β∈[0,p−1p+1]\beta \in [0, \frac{p - 1}{p + 1}]β∈[0,p+1p−1]:控制随机化器的变化范围。
- p>1,q≥1p > 1, q \geq 1p>1,q≥1:满足多消息协议的基本条件。
- δ\deltaδ:通常是一个非常小的概率(例如 10−510^{-5}10−5),表示隐私泄露的罕见性。
- 适用场景:
- 局部随机化器具有较小的克隆概率(例如满足强 dX\mathrm{d_X}dX-DP 的情况)。
- 多消息协议中,每条消息的克隆概率较大。
渐近性质:
当用户数量 n→∞n \to \inftyn→∞ 时:
- 尾部界的概率趋于收敛,隐私放大效果更加显著。
- 该上界公式能提供一个足够紧的结果,适用于不同参数 β,p,q\beta, p, qβ,p,q 的大范围设置。
定理 4.2 提供了分析 shuffle 模型中隐私放大的一个强大工具,结合了克隆变量 ccc 的尾部界、统计散度的单调性以及渐近分析。公式虽然复杂,但通过合理选择参数,可以用于评估多种协议的隐私放大效果,并为实际设计提供指导。
定理 4.3
定理的背景与目标
定理 4.3 推导了在 shuffle 模型中,当用户数量 nnn 足够大时,隐私放大效果的一个 简洁公式(asymptotic formula)。
这一公式通过对克隆数量 ccc 进一步进行尾部估计,为定理 4.2 中的复杂公式提供了一个更具实用价值的近似解,帮助研究者在实际应用中快速评估隐私放大效果。
定理的内容
定理描述
在 p>1p > 1p>1,β∈[0,p−1p+1]\beta \in [0, \frac{p-1}{p+1}]β∈[0,p+1p−1],q≥1q \geq 1q≥1,且用户数量 nnn 满足以下条件:
n≥8log(2/δ)(p−1)qβp n \geq \frac{8 \log(2/\delta) (p-1)q}{\beta p} n≥βp8log(2/δ)(p−1)q
此时,两组随机化器 Pp,βqP^q_{p, \beta}Pp,βq 和 Qp,βqQ^q_{p, \beta}Qp,βq 是 (ϵ,δ)(\epsilon, \delta)(ϵ,δ)-不可区分的(indistinguishable),且满足以下隐私参数公式:
ϵ=log(1+β((1−v)(1+p)βp−1+v(32log(4/δ)r(n−1)+4rn))1), \epsilon = \log \left( 1 + \frac{\beta \big((1-v)\frac{(1+p)\beta}{p-1} + v \big( \sqrt{\frac{32 \log(4/\delta)}{r(n-1)}} + \frac{4}{rn} \big)\big)} {1} \right), ϵ=log1+1β((1−v)p−1(1+p)β+v(r(n−1)32log(4/δ)+rn4)),
其中:
- r=pβ(p−1)qr = \frac{p \beta}{(p-1)q}r=(p−1)qpβ 表示克隆概率。
- v=max{0,491−3r1−2r}v = \max\{0, \frac{4}{9} \frac{1-3r}{1-2r}\}v=max{0,941−2r1−3r} 是一个辅助变量,衡量克隆分布的集中程度。
进一步简化
当 nnn 足够大,且 r=pβ(p−1)q≤14r = \frac{p \beta}{(p-1)q} \leq \frac{1}{4}r=(p−1)qpβ≤41 时,可以保证 v≥29v \geq \frac{2}{9}v≥92,因此隐私参数的放大效果可以简化为:
ϵ=O~(β(p−1)qpn) \epsilon = \widetilde{O} \left(\sqrt{\frac{\beta (p-1)q}{p n}}\right) ϵ=O(pnβ(p−1)q)
定理公式的物理意义
- 关于 β\betaβ:
- β\betaβ 表示两个局部随机化器输出之间的 总变差距离(total variation distance),即 R1(x10)R_1(x_1^0)R1(x10) 和 R1(x11)R_1(x_1^1)R1(x11) 的分布差异。
- 当 β\betaβ 越小时,表示局部随机化器对输入的敏感性越低,shuffle 操作后的分布差异也越小,带来更强的隐私放大效果。
- 关于 qqq:
- qqq 表示每个用户发送的消息数量比例。在 qqq 较低时,表示其他用户发送的消息可以更好地“模仿” R1(x10)R_1(x_1^0)R1(x10) 和 R1(x11)R_1(x_1^1)R1(x11) 的分布,从而降低攻击者区分两组输入的可能性。
- 关于 nnn:
- 用户数量 nnn 的增加会显著提高隐私放大效果,公式中 O~(1/n)\widetilde{O}(1/\sqrt{n})O(1/n) 的依赖体现了隐私增强的集中效应。
- 隐私放大的关键条件:
- r≤14r \leq \frac{1}{4}r≤41:克隆概率需要满足这一限制,以确保 shuffle 操作能够有效增强隐私。
随机化器与隐私放大效果的关系
对满足 ϵ0\epsilon_0ϵ0-LDP 的随机化器,其参数有:
- q=p=eϵ0q = p = e^{\epsilon_0}q=p=eϵ0
- 则放大的隐私参数满足:
O~(β(eϵ0−1)n) \widetilde{O} \left(\sqrt{\frac{\beta (e^{\epsilon_0}-1)}{n}}\right) O(nβ(eϵ0−1))
解释:
- 当 ϵ0\epsilon_0ϵ0 较小时,表示局部随机化器对隐私的保护较强,隐私放大的效果更为显著。
- 总变差 β\betaβ 通常远小于 eϵ0−1eϵ0+1\frac{e^{\epsilon_0}-1}{e^{\epsilon_0}+1}eϵ0+1eϵ0−1,因此这一结果较现有的放大界更紧。
与现有工作的比较(表 1 解释)
在表 1 中,不同研究对于 ϵ0\epsilon_0ϵ0-LDP 随机化器的放大界进行了对比。定理 4.3 的结果在多个方面表现更优:
- 放大效果更紧:
- 与 EFMRRT19、Privacy Blanket 和 Clone 方法相比,当 β\betaβ 显著小于 eϵ0−1eϵ0+1\frac{e^{\epsilon_0}-1}{e^{\epsilon_0}+1}eϵ0+1eϵ0−1 时,定理 4.3 给出的界更紧。
- 特别是在常见随机化器中,如 RAPPOR,β\betaβ 通常较小。
- 适用范围更广:
- 现有研究(如 [33])的模型仅支持 p=qp = qp=q 的随机化器,而定理 4.3 同时适用于 p<qp < qp<q(如度量随机化器)和 p>qp > qp>q(如多消息随机化器)。
- 计算效率更高:
- 定理 4.3 提供了一个 O~(n)\widetilde{O}(n)O(n) 时间复杂度的算法,用于数值计算 Hockey-stick divergence。这比现有算法快约 10 倍。
定理 4.3 为 shuffle 模型中的隐私放大效果提供了一个简洁、有效的估计公式,特别是在用户数量足够大的情况下,可以显著简化隐私参数的分析。这一结果不仅在理论上提升了隐私分析的精度,还在计算效率和适用范围上优于现有工作,为实际应用提供了重要的理论支持。

Discussion on Differences with Stronger Clone Reduction:
这一部分详细比较了本文提出的方法与现有最先进的 stronger clone reduction 方法([33])的差异,并总结了本文框架的三大优势。以下从内容逐点解释:
背景与比较目标
在满足 ϵ0\epsilon_0ϵ0-LDP(局部差分隐私)的随机化器中,通常 p≡q=eϵ0p \equiv q = e^{\epsilon_0}p≡q=eϵ0。
本文在定理 4.7 中的中间结果推导出一个关于发散上界的公式,该公式类似于文献 [33] 的 stronger clone reduction 方法,但具有以下三方面的改进和优势。
三大优势
(i) 更紧的上界
- 改进点:
本文的发散上界比文献 [33] 更紧,前提是新引入的总变差参数 β\betaβ 并非最坏情况:
β≠p−1p+1 \beta \neq \frac{p-1}{p+1} β=p+1p−1
- 原因分析:
在实际应用中,许多常用的随机化器(如 RAPPOR、Hadamard Response 等)通常具有较低的 β\betaβ 值。这使得本文方法提供的界限显著优于 [33]。 - 计算简便:
β\betaβ 的计算非常简单,可以通过随机化器的定义直接获得,因此可以更方便地评估隐私放大效果。
(ii) 更广的适用范围
- 现有方法的局限性:
文献 [33] 的方法仅适用于满足 p≡qp \equiv qp≡q 的 LDP 随机化器。换句话说,它要求每个用户的发送概率与接收概率相同。 - 本文的扩展性:
本文的方法具有更强的灵活性,可以适用于以下两种情况:
- p<qp < qp<q:
- 这种情况出现在度量型局部随机化器(metric local randomizers)中,例如在分类任务或分桶任务中,某些类别可能具有更高的接收概率。
- p>qp > qp>q:
- 这种情况适用于多消息随机化器(multi-message randomizers),即用户可以发送多条消息,而服务器只选择性接收一部分。
(iii) 更高的计算效率
- 现有方法的复杂性:
文献 [32] 和 [53] 的相关算法在计算 Hockey-stick divergence(曲棍球杆发散)时,复杂度较高,运行时间较长。 - 本文的改进:
本文的方法设计了一种复杂度为 O~(n)\widetilde{O}(n)O(n) 的高效算法,用于数值计算 Hockey-stick divergence。这一算法相比现有方法快了 10 倍 以上。 - 实际意义:
这一显著的效率提升使得本文的方法不仅理论效果更好,也更适合大规模应用。
4.2 Proof Sketch
在4.2节的证明框架中,作者采用了分步论证的方法来证明Theorem 4.1,其核心思想是通过混合分布的降维处理和对Hockey-stick散度的分析,最终将问题转化为计算与概率累积分布相关的期望。
证明步骤概述
- 混合分解 (Mixture Decomposition):
- 作者利用 (p,β)(p, \beta)(p,β)-变分属性和 qqq-比率属性,获得了局部随机器的混合分布形式,并提出了Lemma 4.4。该引理表明,局部随机化器的输出可以表示为与𝑝、𝑞和总变差𝛽相关的混合分布。
- 在混合分解中,局部随机器(local randomizers)如 R1(x10)R_1(x_1^0)R1(x10) 和 R1(x11)R_1(x_1^1)R1(x11) 被视为具有与参数 ppp、qqq、以及总变分距离 β′\beta'β′ 相关的混合分布。
- 证明的关键是集中分析 R1(x10)R_1(x_1^0)R1(x10) 和 R1(x11)R_1(x_1^1)R1(x11) 不同的部分,并用参数 ppp 和 β\betaβ 对总不同概率进行界定。对于其他用户的消息,用参数 qqq 计算它们可能与用户 1 的消息相符的概率。
- 克隆简化 (Clone Reduction):
- 受到克隆简化技术的启发(如参考文献 [32, 33]),作者将混合分解问题简化为几个二项分布计数问题。通过Lemma 4.5,作者推广了克隆化技术,将混合分布的参数关系与统计距离进行关联。
- 通过将本地用户的分布降维为二项分布,得到了支配性分布Pqp,βP_{q}^{p,\beta}Pqp,β与Qqp,βQ_{q}^{p,\beta}Qqp,β之间的统计距离关系。
- 利用Hockey-stick散度的单调性:
- 在Lemma 4.6中,作者证明了Hockey-stick散度关于参数𝛽是单调非递减的,因此可以用最大可能的𝛽值来进一步上界统计距离。
- 最终,Theorem 4.7总结了这些结果,指出任何满足数据处理不等式的距离度量(如Rényi散度)均可以用D(Pqp,β∥Qqp,β)D(P_{q}^{p,\beta} \| Q_{q}^{p,\beta})D(Pqp,β∥Qqp,β)来上界。
引理 4.4(混合分解的具体形式)
引理 4.4 提供了混合分布的具体表达形式,它的核心是通过参数化分解各个随机器的分布:
引理表述
给定 x10,x11,…,xn∈Xx_1^0, x_1^1, \ldots, x_n \in \mathcal{X}x10,x11,…,xn∈X,如果算法 {Ri}i∈[n]\{R_i\}_{i \in [n]}{Ri}i∈[n] 满足以下两个条件:
- (p,β′)(p, \beta')(p,β′)-变分属性,其中 p>1p > 1p>1,β′=D1(R1(x10)∥R1(x11))\beta' = D_1(R_1(x_1^0) \| R_1(x_1^1))β′=D1(R1(x10)∥R1(x11));
- qqq-比率属性,其中 q≥1q \geq 1q≥1;
那么存在分布 Q10,Q11,Q1,Q2,…,QnQ_1^0, Q_1^1, Q_1, Q_2, \ldots, Q_nQ10,Q11,Q1,Q2,…,Qn,使得:
- R1(x10)=pαQ10+αQ11+(1−α−pα)Q1R_1(x_1^0) = p\alpha Q_1^0 + \alpha Q_1^1 + (1 - \alpha - p\alpha) Q_1R1(x10)=pαQ10+αQ11+(1−α−pα)Q1
- R1(x11)=αQ10+pαQ11+(1−α−pα)Q1R_1(x_1^1) = \alpha Q_1^0 + p\alpha Q_1^1 + (1 - \alpha - p\alpha) Q_1R1(x11)=αQ10+pαQ11+(1−α−pα)Q1
- 对于任意 i∈[2,n]i \in [2, n]i∈[2,n],Ri(xi)=rQ10+rQ11+(1−2r)QiR_i(x_i) = r Q_1^0 + r Q_1^1 + (1 - 2r) Q_iRi(xi)=rQ10+rQ11+(1−2r)Qi
其中:
- α=β′p−1\alpha = \frac{\beta'}{p - 1}α=p−1β′
- r=αpqr = \frac{\alpha p}{q}r=qαp
解释与意义
- 关于参数解释:
- α\alphaα 和 rrr 是由 β′\beta'β′、ppp、qqq 参数定义的权重,分别控制各分布之间的混合比例。
- β′\beta'β′ 是两个分布之间的总变分距离,反映了它们的差异程度。
- ppp 和 qqq 则是控制变分和比率的调节参数。
- 混合分解的用途:
- 混合分解表达式将复杂的分布问题分解为更易处理的若干部分(如 Q10,Q11,Q1Q_1^0, Q_1^1, Q_1Q10,Q11,Q1 等),便于进一步分析其隐私特性。
- 特别是,通过分解后,将 (p,β′)(p, \beta')(p,β′) 和 qqq 的影响明确量化到分布的构成中。
- 霍基棒散度的引入:
- 霍基棒散度被用作衡量分布之间差异的一种工具,结合其单调性,能够高效计算隐私放大的最终界定。
总结来说,这一节通过混合分解和参数化表示,简化了复杂的分布比较问题,并为后续的隐私分析奠定了基础。
在这一部分,作者将克隆简化技术进行了推广,并引入了数据处理不等式(Data Processing Inequality, DPI),将混合分布参数与散度水平关联起来,最终通过 Lemma 4.5 界定了统计距离的上界。这一引理在隐私分析中的作用是将复杂的随机化和混洗分布之间的距离简化为更易分析的二项分布之间的距离。
引理 4.5 的核心思想
引理 4.5 描述了在给定混合分解形式下,如何利用二项分布的特性将隐私放大的复杂问题(与混洗操作相关)简化为主导二项分布之间的比较。
引理中的主要定义与假设
- 混合分解形式:
- 对于用户 1 的输入 x10x_1^0x10 和 x11x_1^1x11,局部随机化器的输出具有如下分布形式:
R1(x10)=pαQ10+αQ11+(1−α−pα)Q1, R_1(x_1^0) = p\alpha Q_1^0 + \alpha Q_1^1 + (1 - \alpha - p\alpha) Q_1, R1(x10)=pαQ10+αQ11+(1−α−pα)Q1,
R1(x11)=αQ10+pαQ11+(1−α−pα)Q1. R_1(x_1^1) = \alpha Q_1^0 + p\alpha Q_1^1 + (1 - \alpha - p\alpha) Q_1. R1(x11)=αQ10+pαQ11+(1−α−pα)Q1.
- 对于其他用户的输入 xix_ixi (i≥2i \geq 2i≥2),局部随机化器的输出具有如下分布:
Ri(xi)=rQ10+rQ11+(1−2r)Qi. R_i(x_i) = r Q_1^0 + r Q_1^1 + (1 - 2r) Q_i. Ri(xi)=rQ10+rQ11+(1−2r)Qi.
- 参数约束:
- p≥1,q>1p \geq 1, q > 1p≥1,q>1,
- α=β′p−1∈[0,1p+1]\alpha = \frac{\beta'}{p - 1} \in \left[0, \frac{1}{p + 1}\right]α=p−1β′∈[0,p+11],
- r∈[0,12]r \in [0, \frac{1}{2}]r∈[0,21]。
- 主导二项分布:
- 定义 C∼Binom(n−1,2r)C \sim \text{Binom}(n - 1, 2r)C∼Binom(n−1,2r) 和 A∼Binom(C,1/2)A \sim \text{Binom}(C, 1/2)A∼Binom(C,1/2):
- CCC 表示其他 n−1n-1n−1 个用户的总消息中,来自 Q10Q_1^0Q10 和 Q11Q_1^1Q11 的消息个数;
- AAA 表示在 CCC 条消息中,属于 Q10Q_1^0Q10 的消息个数。
- 定义两个伯努利分布:
- Δ1∼Bernoulli(pα)\Delta_1 \sim \text{Bernoulli}(p\alpha)Δ1∼Bernoulli(pα),
- Δ2∼Bernoulli(1−Δ1,α1−pα)\Delta_2 \sim \text{Bernoulli}(1 - \Delta_1, \frac{\alpha}{1 - p\alpha})Δ2∼Bernoulli(1−Δ1,1−pαα)。
- 构造两个二项分布:
- Pqp,β′=(A+Δ1,C−A+Δ2), P_q^{p,\beta'} = (A + \Delta_1, C - A + \Delta_2), Pqp,β′=(A+Δ1,C−A+Δ2),
- Qqp,β′=(A+Δ2,C−A+Δ1). Q_q^{p,\beta'} = (A + \Delta_2, C - A + \Delta_1). Qqp,β′=(A+Δ2,C−A+Δ1).
- 定义 C∼Binom(n−1,2r)C \sim \text{Binom}(n - 1, 2r)C∼Binom(n−1,2r) 和 A∼Binom(C,1/2)A \sim \text{Binom}(C, 1/2)A∼Binom(C,1/2):
- 数据处理不等式:
- 对于任何满足数据处理不等式的距离度量 DDD,有:
D(S(R1(x10),…,Rn(xn))∥S(R1(x11),…,Rn(xn)))≤D(Pqp,β′∥Qqp,β′). D(S(R_1(x_1^0), \dots, R_n(x_n)) \| S(R_1(x_1^1), \dots, R_n(x_n))) \leq D(P_q^{p,\beta'} \| Q_q^{p,\beta'}). D(S(R1(x10),…,Rn(xn))∥S(R1(x11),…,Rn(xn)))≤D(Pqp,β′∥Qqp,β′).
分析与意义
- 数据处理不等式的作用:
- DPI 表明,通过混洗操作(shuffling)后,原始分布之间的散度不会增加。这一性质确保了对混洗分布 S(R1,…,Rn)S(R_1, \dots, R_n)S(R1,…,Rn) 的分析可以通过其上界(即 Pqp,β′P_q^{p,\beta'}Pqp,β′ 和 Qqp,β′Q_q^{p,\beta'}Qqp,β′ 的散度)来完成。
- 简化复杂性:
- 在隐私分析中,直接比较 S(R1(x10),…,Rn(xn))S(R_1(x_1^0), \dots, R_n(x_n))S(R1(x10),…,Rn(xn)) 和 S(R1(x11),…,Rn(xn))S(R_1(x_1^1), \dots, R_n(x_n))S(R1(x11),…,Rn(xn)) 可能非常复杂。而引理 4.5 将这一问题简化为二项分布 Pqp,β′P_q^{p,\beta'}Pqp,β′ 和 Qqp,β′Q_q^{p,\beta'}Qqp,β′ 的比较。
- 通过这种简化,分布的混合参数 (p,q,β′)(p, q, \beta')(p,q,β′) 的影响被显式量化。
- 二项分布的选择:
- 二项分布的引入是分析散度的关键。通过 CCC 和 AAA 的构造,作者将混合分布转化为可计算的参数形式,使得后续的霍基棒散度分析更加直接。
- 推广的克隆简化:
- 本引理将克隆简化扩展到了更多场景,并结合了混洗模型,进一步增强了分析框架的通用性。
引理 4.5 的核心贡献在于利用数据处理不等式,将混洗后的统计距离上界转化为二项分布之间的距离。这种推广的克隆简化技术,为后续的霍基棒散度分析奠定了基础,也为分析隐私放大的具体数值提供了有效工具。
这一部分的重点是利用统计距离 D(Pqp,β∥Qqp,β)D(P_q^{p, \beta} \| Q_q^{p, \beta})D(Pqp,β∥Qqp,β) 随着参数 β\betaβ 单调非减的性质,将上一节的推导进一步总结到一个通用的定理(Theorem 4.7),以全面描述隐私放大的特性。
引理 4.6:散度的单调非减性
结论:对于任意满足数据处理不等式的数据度量 DDD,如果 β>β′\beta > \beta'β>β′,那么有
D(Pqp,β∥Qqp,β)≥D(Pqp,β′∥Qqp,β′). D(P_q^{p, \beta} \| Q_q^{p, \beta}) \geq D(P_q^{p, \beta'} \| Q_q^{p, \beta'}). D(Pqp,β∥Qqp,β)≥D(Pqp,β′∥Qqp,β′).
关键点:
- β\betaβ 的物理含义:
- 参数 β\betaβ 描述了相邻分布之间的总变差(total variation)。β\betaβ 越大,表示分布之间的差异越明显。
- 因此,β\betaβ 的增大会导致统计距离 DDD 的增大。
- 数据处理不等式的作用:
- 数据处理不等式保证了分布经过任何随机化操作后,统计距离不会增加。结合单调性,可以利用更大的 β\betaβ 来作为分布差异的上界。
定理 4.7:变差-比例简化(Variation-ratio Reduction)
定理内容:
在满足以下条件时:
- 随机化器 {Ri}i∈[n]\{R_i\}_{i \in [n]}{Ri}i∈[n] 满足 (p,β)(p, \beta)(p,β)-variation 和 qqq-ratio 性质;
- β∈[0,p−1p+1]\beta \in \left[0, \frac{p - 1}{p + 1}\right]β∈[0,p+1p−1],p>1,q≥1p > 1, q \geq 1p>1,q≥1;
- 随机变量定义如下:
- C∼Binom(n−1,2βp(p−1)q)C \sim \text{Binom}(n - 1, \frac{2 \beta p}{(p - 1)q})C∼Binom(n−1,(p−1)q2βp),
- A∼Binom(C,1/2)A \sim \text{Binom}(C, 1/2)A∼Binom(C,1/2),
- Δ1∼Bernoulli(βpp−1)\Delta_1 \sim \text{Bernoulli}(\frac{\beta p}{p - 1})Δ1∼Bernoulli(p−1βp),
- Δ2∼Bernoulli(1−Δ1,βp−1−βp)\Delta_2 \sim \text{Bernoulli}(1 - \Delta_1, \frac{\beta}{p - 1 - \beta p})Δ2∼Bernoulli(1−Δ1,p−1−βpβ);
对于任意相邻数据集的统计距离,满足:
D(S(R1(x10),…,Rn(xn))∥S(R1(x11),…,Rn(xn)))≤D(Pqp,β∥Qqp,β), D(S(R_1(x_1^0), \dots, R_n(x_n)) \| S(R_1(x_1^1), \dots, R_n(x_n))) \leq D(P_q^{p, \beta} \| Q_q^{p, \beta}), D(S(R1(x10),…,Rn(xn))∥S(R1(x11),…,Rn(xn)))≤D(Pqp,β∥Qqp,β),
其中 Pqp,β=(A+Δ1,C−A+Δ2)P_q^{p, \beta} = (A + \Delta_1, C - A + \Delta_2)Pqp,β=(A+Δ1,C−A+Δ2),Qqp,β=(A+Δ2,C−A+Δ1)Q_q^{p, \beta} = (A + \Delta_2, C - A + \Delta_1)Qqp,β=(A+Δ2,C−A+Δ1)。
定理 4.7 的含义与分析
- 核心思想:散度的上界
- 混洗分布之间的统计距离可以通过构造的主导分布 Pqp,βP_q^{p, \beta}Pqp,β 和 Qqp,βQ_q^{p, \beta}Qqp,β 的距离来进行界定。这种界定不仅减少了直接分析混洗分布的复杂性,还提供了一个具体的计算方法。
- 单调性的重要性:
- 在推导中利用了引理 4.6 的结果,即 D(Pqp,β∥Qqp,β)D(P_q^{p, \beta} \| Q_q^{p, \beta})D(Pqp,β∥Qqp,β) 是 β\betaβ 的单调非减函数。
- 因此,即使 β′\beta'β′ 是总变差的某个较小值,也可以用更大的 β\betaβ 来作为上界,确保了普适性。
- 适用于不同的距离度量:
- 定理适用于任何满足数据处理不等式的距离度量,例如 Rényi 散度等。这为理论框架的通用性提供了支持。
- 主导分布的构造:
- Pqp,βP_q^{p, \beta}Pqp,β 和 Qqp,βQ_q^{p, \beta}Qqp,β 的定义体现了分布的混合特性,同时参数化了隐私保护的关键变量 (p,q,β)(p, q, \beta)(p,q,β)。这种参数化使得定理的应用更加灵活。
定理 4.7 总结了整章的核心思想:通过散度的单调性和数据处理不等式,将复杂的混洗模型的隐私分析简化为主导分布之间的距离分析。这一框架不仅为理论分析提供了明确的界限,还为隐私放大的具体实现和设计提供了指导方向。
定理 4.8
定理 4.8:散度的期望表示 通过将散度表达为期望形式,定理为更高效的计算提供了理论支撑,同时显著降低了复杂度。
条件与参数:
- p>1p > 1p>1, q≥1q \geq 1q≥1, β∈[0,p−1p+1]\beta \in \left[0, \frac{p - 1}{p + 1}\right]β∈[0,p+1p−1],
- α=βp−1,r=αpq\alpha = \frac{\beta}{p - 1}, r = \frac{\alpha p}{q}α=p−1β,r=qαp。
结论:
对于任意 ϵ∈R\epsilon \in \mathbb{R}ϵ∈R,Rényi散度 Deϵ(Pqp,β∥Qqp,β)D_{e^\epsilon}(P_q^{p, \beta} \| Q_q^{p, \beta})Deϵ(Pqp,β∥Qqp,β) 可以表示为一个期望形式:
Deϵ(Pqp,β∥Qqp,β)=Ec∼Binom(n−1,2r)[T(c)], D_{e^\epsilon}(P_q^{p, \beta} \| Q_q^{p, \beta}) = \mathbb{E}_{c \sim \text{Binom}(n-1, 2r)} \left[ T(c) \right], Deϵ(Pqp,β∥Qqp,β)=Ec∼Binom(n−1,2r)[T(c)],
其中 T(c)T(c)T(c) 的表达式依赖于累积分布函数(CDF):
T(c)=(p−eϵ)α⋅CDFc,1/2[⌈lowc+1⌉,c]+(1−peϵ)α⋅CDFc,1/2[⌈lowc⌉,c]+(1−eϵ)(1−α−pα)⋅CDFc,1/2[⌈lowc⌉,c]. T(c) = (p - e^\epsilon) \alpha \cdot \text{CDF}_{c, 1/2}[\lceil \text{low}_c + 1 \rceil, c] + (1 - p e^\epsilon) \alpha \cdot \text{CDF}_{c, 1/2}[\lceil \text{low}_c \rceil, c]+ (1 - e^\epsilon)(1 - \alpha - p \alpha) \cdot \text{CDF}_{c, 1/2}[\lceil \text{low}_c \rceil, c]. T(c)=(p−eϵ)α⋅CDFc,1/2[⌈lowc+1⌉,c]+(1−peϵ)α⋅CDFc,1/2[⌈lowc⌉,c]+(1−eϵ)(1−α−pα)⋅CDFc,1/2[⌈lowc⌉,c].
其中 lowc\text{low}_clowc 是一个函数:
lowc=(eϵ′p−1)αc+(eϵ′−1)(1−α−αp)(n−c)⋅r1−2rα(eϵ′+1)(p−1). \text{low}_c = \frac{(e^{\epsilon'} p - 1) \alpha c + (e^{\epsilon'} - 1)(1 - \alpha - \alpha p)(n - c) \cdot \frac{r}{1 - 2r}}{\alpha (e^{\epsilon'} + 1)(p - 1)}. lowc=α(eϵ′+1)(p−1)(eϵ′p−1)αc+(eϵ′−1)(1−α−αp)(n−c)⋅1−2rr.
高效计算 Rényi 散度的改进
传统计算方法:
- 根据 Rényi 散度的定义,需要枚举所有可能的输出对 (a,b)(a, b)(a,b),计算概率比值 Pqp,β(a,b)Qqp,β(a,b)\frac{P_q^{p, \beta}(a, b)}{Q_q^{p, \beta}(a, b)}Qqp,β(a,b)Pqp,β(a,b) 并进行求和。
- 这种方法的时间复杂度为 O(n2)\mathcal{O}(n^2)O(n2),当 nnn 很大时,计算成本非常高。此外,由于概率比值可能非常小,容易导致数值下溢问题。
改进策略:
- 利用概率比的单调性:
- 当 a+ba + ba+b 固定时,概率比值 Pqp,β(a,b)Qqp,β(a,b)\frac{P_q^{p, \beta}(a, b)}{Q_q^{p, \beta}(a, b)}Qqp,β(a,b)Pqp,β(a,b) 对于 aaa 是单调变化的。
- 利用这一性质,可以避免直接在整个范围内求最大值,而是通过跟踪 aaa 的取值范围来优化计算。
- 引入累积分布函数(CDF):
- T(c)T(c)T(c) 的计算引入了二项分布的累积概率 CDFc,1/2[c1,c2]\text{CDF}_{c, 1/2}[c_1, c_2]CDFc,1/2[c1,c2],定义为:
CDFc,1/2[c1,c2]=∑i∈[c1,c2](ci)/2c. \text{CDF}_{c, 1/2}[c_1, c_2] = \sum_{i \in [c_1, c_2]} \binom{c}{i} / 2^c. CDFc,1/2[c1,c2]=i∈[c1,c2]∑(ic)/2c.
- 该累积概率可以通过两次不完全 Beta 函数计算实现,计算复杂度显著降低。
- 散度的期望形式:
- 将散度表示为关于 c∼Binom(n−1,2r)c \sim \text{Binom}(n - 1, 2r)c∼Binom(n−1,2r) 的期望后,复杂度从 O(n2)\mathcal{O}(n^2)O(n2) 降低为 O~(n)\mathcal{\tilde{O}}(n)O~(n)。
总结
定理 4.8 的意义:
- 提供了一种计算 Rényi 散度上界的高效方法,使得复杂度从 O(n2)\mathcal{O}(n^2)O(n2) 降低为 O~(n)\mathcal{\tilde{O}}(n)O~(n)。
- 通过利用概率比的单调性和累积分布函数的高效计算,解决了传统方法中存在的数值不稳定性和计算瓶颈。
- 这一方法为大规模数据集的隐私分析提供了可行的工具,并且通过明确参数的关联性,增强了分析的通用性和适应性。
后续工作:
- 可以进一步研究如何在不同距离度量(如 Rényi 散度和霍基棒散度)下推广类似的高效计算方法。
- 探索如何将此结果应用于更广泛的隐私放大场景,例如多项式噪声模型和分布转换模型。
1321

被折叠的 条评论
为什么被折叠?



