
4.3 Amplification Parameters of Randomizers
这一部分的重点在于分析隐私放大框架在洗牌模型中的适用性,尤其是在不同类型的本地随机化器(LDP、度量DP、多消息随机化器)下的放大参数(amplification parameters)。
1. 本地差分隐私(LDP)随机化器
总变化率参数:
- 定义: 总变化率(variation-ratio parameter)是度量随机化机制隐私保护能力的重要参数。对于 ϵ\epsilonϵ-LDP 机制,其总变化率的最坏情况上界为:
β=eϵ−1eϵ+1. \beta = \frac{e^\epsilon - 1}{e^\epsilon + 1}. β=eϵ+1eϵ−1.
- 这一结果来自于文献 [51],表明随机响应机制实现了最大总变化率。
- 这一上界等价于研究 [33] 中的渐进最优克隆概率(clone probability)。
机制优化:
- 对于一些常用机制(如均值估计、分布估计和复杂数据处理机制),利用其特定结构可以得到更紧的总变化率上界。
- 通过这种优化,可以实现更强的隐私放大效果。

2. 本地度量差分隐私(Metric DP)随机化器
分析方法:
- 对于一个满足本地度量 dXd_XdX-DP 的机制 RRR,分析其在洗牌模型中的不区分性水平(indistinguishability level)。
- 目标是度量以下两个分布的可区分性:
S(R(x10),...,R(xn))和S(R(x11),...,R(xn)), S(R(x_1^0), ..., R(x_n)) \quad \text{和} \quad S(R(x_1^1), ..., R(x_n)), S(R(x10),...,R(xn))和S(R(x11),...,R(xn)),
其中 x10x_1^0x10 和 x11x_1^1x11 表示两个输入。
参数化结果:
- 基于定理 4.7 的结果,以下参数刻画了机制的放大特性:
- 放大参数:
p=ed01,β=ed01−1ed01+1,q=edmax, p = e^{d_{01}}, \quad \beta = \frac{e^{d_{01}} - 1}{e^{d_{01}} + 1}, \quad q = e^{d_{\max}}, p=ed01,β=ed01+1ed01−1,q=edmax,
其中 d01d_{01}d01 表示 x10x_1^0x10 和 x11x_1^1x11 的局部不可区分水平,dmaxd_{\max}dmax 是最大不可区分水平:
dmax=maxx∈Xmax{dX(x,x10),dX(x,x11)}. d_{\max} = \max_{x \in X} \max\{d_X(x, x_1^0), d_X(x, x_1^1)\}. dmax=x∈Xmaxmax{dX(x,x10),dX(x,x11)}.
克隆概率优化:
- 相比文献 [78] 中的通用放大上界:
2r=2maxx∈X(edX(x,x10)+edX(x,x11)), 2r = \frac{2}{\max_{x \in X}(e^{d_X(x, x_1^0)} + e^{d_X(x, x_1^1)})}, 2r=maxx∈X(edX(x,x10)+edX(x,x11))2,
这里提出的克隆概率公式:
2βp(p−1)q=2edmax+edmax−d01, 2 \frac{\beta p}{(p - 1)q} = \frac{2}{e^{d_{\max}} + e^{d_{\max} - d_{01}}}, 2(p−1)qβp=edmax+edmax−d012,
至少不小于上述结果(由于三角不等式的性质)。
应用示例:
- Laplace机制(ℓ1\ell_1ℓ1-度量隐私):
- 在一维数值域上的总变化率为:
β=1−e−d01/2.
\beta = 1 - e^{-d_{01}/2}.
β=1−e−d01/2.
2. 平面Laplace机制(ℓ2\ell_2ℓ2-度量隐私):
- 在二维域上的概率密度函数为:
P[PlanarLaplace(u,1)=x]=e−∥x−u∥22π,u,x∈R2, P[\text{PlanarLaplace}(u, 1) = x] = \frac{e^{-\|x - u\|_2}}{2\pi}, \quad u, x \in \mathbb{R}^2, P[PlanarLaplace(u,1)=x]=2πe−∥x−u∥2,u,x∈R2,
其总变化率为:
β=2∫d01/2∞∫−∞∞e−(x−d01/2)2+y22πdydx. \beta = 2 \int_{d_{01}/2}^{\infty} \int_{-\infty}^{\infty} \frac{e^{-\sqrt{(x - d_{01}/2)^2 + y^2}}}{2\pi} dy dx. β=2∫d01/2∞∫−∞∞2πe−(x−d01/2)2+y2dydx.

3. 多消息协议的放大参数
消息分类与放大参数的来源
- 输入相关消息(Input-dependent messages):依赖用户的真实输入。例如,[21]中用户1通过对输入 x1x_1x1 执行二元随机响应生成。
- 输入无关消息(Input-independent messages):与输入无关,通常由伪随机生成,起到掩盖输入相关消息的作用。例如:
- 在 [4, 5] 中,通过伯努利变量(biased coin)或均匀变量(uniform coin)生成。
- 在“球入箱”(balls-into-bins)协议 [58, 61] 中,输入无关消息为均匀随机类别。
放大参数的计算
- 输入相关消息的放大参数 β,p\beta, pβ,p:通过 R1(x1)R_1(x_1)R1(x1) 推导,即处理输入的随机化器。
- 输入无关消息的放大参数 qqq:由所有用户的输入无关消息计算,参考 [7] 中的 blanket 消息(即由伪用户生成的消息)。
消息数量与放大效果
- 输入无关消息的数量相当于伪用户生成的消息数。例如,当 n′n'n′ 个用户每人生成 m−1m-1m−1 个输入无关消息时,定理 4.7 中的 n−1n-1n−1 实际变为 n′⋅(m−1)n' \cdot (m-1)n′⋅(m−1)。
- 实验表明,与原始协议的隐私保证相比,该放大框架可节省超过 70% 的隐私预算(详见第 7.2 节数值结果)。
4. 多消息协议的分类
根据协议中生成的消息之间的相关性,分为以下三类:
- 类型 I:通过多次调用单消息协议实现。例如:
- [8] 中的递归协议(Recursive protocol)。
- [44] 中的实用性-复杂性平衡协议(Utility-complexity balanced protocol)。
- 类型 II:每位用户发送一个输入相关消息及多个输入无关消息。例如:
- [4, 5] 中用于二元求和的协议。
- [58, 61] 中的 pureDUMP 和 mixDUMP 协议。
- 类型 III:每位用户发送多个相关消息。例如:
- [37, 38] 中的协议。
- [8] 中基于秘密共享的 IKOS 协议。
框架的适用性
- 适用范围:本框架适用于类型 I 和类型 II 协议(即消息之间相互独立)。
- 限制:对于类型 III 协议,由于消息之间存在相关性,违背了随机化器 RiR_iRi 的独立性假设,因此无法直接适用。

5. 关于变化比参数的讨论
单消息协议
- 单消息协议中,若使用 ϵ0\epsilon_0ϵ0-LDP 随机化器,参数满足:
q=p=eϵ0. q = p = e^{\epsilon_0}. q=p=eϵ0.
- 克隆概率的变化:
2r=2βp(p−1)q。 2r = \frac{2\beta p}{(p-1)q}。 2r=(p−1)q2βp。
随着 ϵ0\epsilon_0ϵ0 增大,克隆概率显著减小,因此需要更大规模的人群才能达到全局 (ϵ,δ)(\epsilon, \delta)(ϵ,δ)-DP。
- 效用与放大效果的平衡:
- 具有更高本地效用的机制通常完全利用了隐私约束,导致总变化率 β\betaβ 较大,因此隐私放大效果较弱(如二元随机响应的隐私放大效果较弱)。
多消息协议
- 多消息协议通常设定 q<pq < pq<p 或 q≪pq \ll pq≪p,以提高克隆概率并减少每个用户发送的消息数。
- 协议设计策略:
- 输入无关消息数量越多(例如 m−1m-1m−1 越大),隐私放大效果越显著。
- 需要在消息数与隐私预算之间找到平衡。
度量 DP 协议
- 当处理大数据域时,maximal indistinguishability level dmax\text{maximal indistinguishability level } d_{\max}maximal indistinguishability level dmax 通常设置较高,使得 q≥pq \geq pq≥p。
- 在全局隐私目标固定的情况下:
- 增大 dmaxd_{\max}dmax 提高了本地数据效用。
- 但同时降低了隐私放大效果。
4.4 Numerical Method for Upper Bounds
这部分讨论了如何数值计算洗牌模型中消息集之间的不可区分性(indistinguishability)水平,并给出了具体的算法来找到给定隐私失败概率 δ\deltaδ 下的最大不可区分性水平。这个过程基于**霍基棒散度(Hockey-stick divergence)**的理论计算,具体方法包括二分搜索和概率累积期望的计算。
1. 问题设定
我们希望计算两个洗牌后的消息集之间的不可区分性水平。设有两组消息集:
- S(R1(x10),…,Rn(xn))S(R_1(x_1^0), \dots, R_n(x_n))S(R1(x10),…,Rn(xn))
- S(R1(x11),…,Rn(xn))S(R_1(x_1^1), \dots, R_n(x_n))S(R1(x11),…,Rn(xn))
其中,x10x_1^0x10 和 x11x_1^1x11 是两种不同的输入消息,Ri(xi)R_i(x_i)Ri(xi) 是通过本地随机化机制 RRR 对 xix_ixi 进行处理得到的消息。
目标是找到最小的 ϵ\epsilonϵ,使得对应的霍基棒散度不超过给定的隐私失败概率 δ\deltaδ,即满足以下不等式:
minϵ∈[0,logp]max[Dϵ(Pq,p,β∥Qq,p,β),Dϵ(Qq,p,β∥Pq,p,β)]≤δ \min_{\epsilon \in [0, \log p]} \max\left[ D_\epsilon(P_{q,p,\beta} \| Q_{q,p,\beta}), D_\epsilon(Q_{q,p,\beta} \| P_{q,p,\beta}) \right] \leq \delta ϵ∈[0,logp]minmax[Dϵ(Pq,p,β∥Qq,p,β),Dϵ(Qq,p,β∥Pq,p,β)]≤δ
这里,ϵ\epsilonϵ 是隐私预算,ppp 是某个参数(通常与消息的区分度相关),β\betaβ 是总变化率(Total Variation Bound),δ\deltaδ 是隐私失败概率。
2. 霍基棒散度和二分搜索
由于霍基棒散度随着 ϵ\epsilonϵ 的增大而单调减小(即隐私预算越大,两个分布之间的差异越小),可以通过二分搜索来高效找到满足隐私要求的最小 ϵ\epsilonϵ。
具体步骤如下:
- 设定一个二分搜索的区间 [0,logp][0, \log p][0,logp],在该区间内搜索合适的 ϵ\epsilonϵ。
- 对于每个 ϵ\epsilonϵ,计算霍基棒散度 Dϵ(Pq,p,β∥Qq,p,β)D_\epsilon(P_{q,p,\beta} \| Q_{q,p,\beta})Dϵ(Pq,p,β∥Qq,p,β)。
- 继续调整 ϵ\epsilonϵ 直到找到最小的 ϵ\epsilonϵ,使得对应的霍基棒散度小于或等于 δ\deltaδ。
3. 计算霍基棒散度
为了计算霍基棒散度,需要通过累积概率来进行计算。具体来说,算法中定义了一个子程序 Delta(\epsilon) 来计算散度,主要步骤如下:
- 计算累积概率分布函数(CDF),并结合二项式概率来进行累加。
- 对每个可能的消息数 ccc,计算其对应的散度值,并通过加权累加这些值,得到整体的散度。
4. 算法实现
算法的具体实现如下:
输入:
- 隐私失败概率 δ∈[0,1]\delta \in [0, 1]δ∈[0,1]
- 用户数量 nnn
- 参数 p>1p > 1p>1, q≥1q \geq 1q≥1, β∈[0,p−1p+1]\beta \in [0, \frac{p-1}{p+1}]β∈[0,p+1p−1]
- 二分搜索的迭代次数 TTT
输出:
- 最大不可区分性水平 ϵ′\epsilon'ϵ′ 使得霍基棒散度小于或等于 δ\deltaδ
算法步骤:
- 初始化:
- 设定 α=βp−1\alpha = \frac{\beta}{p-1}α=p−1β 和 r=αp/qr = \alpha p / qr=αp/q,这些是算法计算散度所需的参数。
- 子程序 Delta(ϵ′\epsilon'ϵ′):
- 对于每个 c∈[0,n]c \in [0, n]c∈[0,n],根据公式计算加权概率并累加,最终返回总的散度值。
- 二分搜索:
- 设置二分搜索区间 [0,logp][0, \log p][0,logp],并进行 TTT 次二分搜索。
- 在每一步计算 ϵt\epsilon_tϵt,并调用 Delta(ϵt)Delta(\epsilon_t)Delta(ϵt) 计算散度。
- 如果散度大于 δ\deltaδ,则调整搜索区间的下界;否则,调整上界。
- 返回结果:
- 在搜索结束后,返回最终计算的 ϵ′\epsilon'ϵ′,即满足隐私要求的最小 ϵ\epsilonϵ。
5. 计算复杂度
算法的计算复杂度为 O∼(n⋅T)O^\sim(n \cdot T)O∼(n⋅T),其中:
- nnn 是用户数量,影响计算量。
- TTT 是二分搜索的迭代次数,控制算法的精度。
6. 重要细节
- 对称性:由于霍基棒散度的对称性,Dϵ(Pq,p,β∥Qq,p,β)=Dϵ(Qq,p,β∥Pq,p,β)D_\epsilon(P_{q,p,\beta} \| Q_{q,p,\beta}) = D_\epsilon(Q_{q,p,\beta} \| P_{q,p,\beta})Dϵ(Pq,p,β∥Qq,p,β)=Dϵ(Qq,p,β∥Pq,p,β),因此只需要计算一个方向的散度即可。
- 二分搜索的效率:通过二分搜索,可以高效地在给定区间内找到最优的 ϵ\epsilonϵ,避免了穷举所有可能值的计算。

总结
本部分通过算法1给出了如何在给定隐私失败概率 δ\deltaδ 下,数值计算消息集之间的不可区分性水平。通过二分搜索和概率累积计算,能够高效地求解隐私预算 ϵ\epsilonϵ,以确保隐私保障不被违反。算法的核心是利用霍基棒散度的单调性来进行搜索,并通过加权累加概率值来计算散度,从而求得最小的 ϵ\epsilonϵ。
5 Amplification Lower Bounds
这一节的目标是通过洗牌机制建立隐私放大的下界。这些下界能够帮助我们证明前一节推导的上界是紧的(即精确的)。具体来说,目标是找到一个最坏情况的数据集,使得洗牌后的消息集之间的可区分性最大化,并且为此计算一个下界。
核心思路:
隐私放大的下界是通过考虑不同数据集对洗牌消息集的影响,尤其是当两个相邻的数据集(如x0x_0x0和x1x_1x1)被洗牌时,某些元素的出现概率差异最大时的最坏情况来推导的。
算法步骤:
- 选取元素 y∈Yy \in Yy∈Y 来最大化概率差异:
- 首先,我们选择一个消息空间中的元素 yyy,使得在局部随机化器 R(x0)R(x_0)R(x0) 和 R(x1)R(x_1)R(x1) 下, P[R(x0)=y]P[R(x_0) = y]P[R(x0)=y] 与 P[R(x1)=y]P[R(x_1) = y]P[R(x1)=y] 的差异最大。
- 选择最坏数据 x∗x^*x∗:
- 接着,我们选择最坏的用户数据 x∗∈Xx^* \in Xx∗∈X,使得对于给定的 yyy,对不同的 xxx 数据计算概率比率时,期望的概率比率最大。
- 计算期望概率比率:
- 我们通过求解最大化某些期望概率比率的 x∗x^*x∗ 来确定 β\betaβ 和其它相关参数。最后,将这些差异总结成类似于定理 4.7 中使用的二项式计数来得出结果。
定理 5.1: 隐私放大的下界:
假设存在 x0,x1∈Xx_0, x_1 \in Xx0,x1∈X 和局部随机化器 R1,R2R_1, R_2R1,R2,其输出空间为 YYY,定义以下参数:
- p0p_0p0 是关于消息空间中元素 yyy 的一个加权概率值,表示在不同数据集之间,元素 yyy 的概率差异。
- β\betaβ 是局部随机化器 R1(x1)R_1(x_1)R1(x1) 与 R1(x0)R_1(x_0)R1(x0) 之间的差异度量,即霍基棒散度 Dϵ(R1(x1)∥R1(x0))D_\epsilon(R_1(x_1) \parallel R_1(x_0))Dϵ(R1(x1)∥R1(x0))。
根据这些参数,选择 x∗x^*x∗ 使得以下最小化量最大化期望概率比率:
x∗=argmaxx∈Xmin{∑y∈Y[P[R1(x1)=y]>P[R1(x0)=y]]⋅P[R1(x1)=y]}. x^* = \arg\max_{x \in X} \min \left\{ \sum_{y \in Y} \left[ P[R_1(x_1) = y] > P[R_1(x_0) = y] \right] \cdot P[R_1(x_1) = y] \right\}. x∗=argx∈Xmaxmin⎩⎨⎧y∈Y∑[P[R1(x1)=y]>P[R1(x0)=y]]⋅P[R1(x1)=y]⎭⎬⎫.
定义:
- q0q_0q0 和 q1q_1q1 分别是 p0p_0p0 和 p1p_1p1 的概率值。
通过计算 Pq0,q1p0,βP_{q_0, q_1}^{p_0, \beta}Pq0,q1p0,β 和 Qq0,q1p0,βQ_{q_0, q_1}^{p_0, \beta}Qq0,q1p0,β 的散度,得出下界。这表明,洗牌消息集之间的散度被二项式计数之间的散度下界所限制。
上界与下界的紧性:
在上界与下界的推导中,存在一种情况,当 p0=pp_0 = pp0=p 且 q0=q1=qq_0 = q_1 = qq0=q1=q 时,得到的上界与下界完全匹配,这表明此时上界和下界是紧的,即它们在这种情况下是精确的。这一条件意味着随机化器的期望概率比率 p0p_0p0 等于最大比率 ppp,从而满足精确匹配。
随机化器设计:
为了满足上述条件,需要设计极值概率的随机化器,使得对于任意两个消息 xix_ixi 和 xi′x_i'xi′,它们的概率比率 P[R(xi)=y]/P[R(xi′)=y]P[R(x_i) = y] / P[R(x_i') = y]P[R(xi)=y]/P[R(xi′)=y] 必须属于 {1,eϵ,e−ϵ}\{1, e^\epsilon, e^{-\epsilon}\}{1,eϵ,e−ϵ},其中 ϵ\epsilonϵ 是隐私预算。
一些符合此标准的随机化器包括:
- 广义随机化响应机制(Generalized Randomized Response),适用于多个选项。
- kkk-子集机制(kkk-Subset Mechanism),适用于 k≤2k \leq 2k≤2。
- 局部哈希机制(Local Hash),适用于长度 l≥3l \geq 3l≥3。
- 哈达马尔响应机制(Hadamard Response)。
- PrivUnit,其中 c≤1/2c \leq 1/2c≤1/2。
- PCKV-GRR。
- Wheel机制(Wheel Mechanism),适用于长度 p≥1/(2s)p \geq 1/(2s)p≥1/(2s)。
对于这些机制,隐私放大的上界和下界是紧的,完全匹配的。
多消息协议:
类似的,最近的多消息协议(如Cheu等人的协议、Balls-into-bins协议、pureDUMP和mixDUMP协议等)也有类似的效果,隐私放大的上界和下界完全匹配。
计算复杂度:
计算这些下界的数值通常需要 O∼(n)O^\sim(n)O∼(n) 的时间复杂度。
结论:
本节提供了隐私放大下界的推导,通过考虑消息之间概率差异和选择最坏情况数据集 x∗x^*x∗,我们推导出了洗牌消息集的隐私放大下界,并证明了在特定条件下上界与下界的紧性。
6 PARALLEL COMPOSITION IN THE SHUFFLE MODEL
在数据分析任务中,通常涉及多个估计目标。在本地差分隐私(LDP)设置下,常见的做法是将整个用户群体划分为多个不重叠的子集,每个子集处理一个估计查询,且每个查询使用完整的隐私预算 ϵ0\epsilon_0ϵ0。这种方法能够在与将隐私预算分配给多个查询相比,提供更好的效用。许多任务使用这种方法,包括重度项估计(heavy hitter estimation)、多维数据发布(multi-dimensional data publication)、频繁项集挖掘(frequent itemset mining)、范围查询(range queries)、边际查询(marginal queries)、数据合成(data synthesis)、以及机器学习(machine learning)等。这种方法与差分隐私在集中式设置中的并行组合定理一致。
在Shuffle模型下,处理多个查询的传统方法是将用户群体分为 KKK 个子组,每个查询使用约 n/Kn/Kn/K 个用户进行隐私放大。然而,更有效的方法是让每个用户从所有 KKK 个查询中随机选择一个查询,通过公共分布 PkP_kPk 为该查询提供贡献。这种并行方式通过算法 2 来实现。由于所有基础机制 MkM_kMk(对于 k∈[K]k \in [K]k∈[K])都满足 ϵ0\epsilon_0ϵ0-LDP,因此整体算法也满足 ϵ0\epsilon_0ϵ0-LDP。
算法 2: 并行本地随机化器
参数:
- 查询数 KKK
- 概率分布 Pk:[K]→[0,1]P_k : [K] \to [0, 1]Pk:[K]→[0,1]
- 本地基础随机化器集合 {Mk:X→Yk}\{M_k : X \to Y_k \}{Mk:X→Yk},每个 MkM_kMk 满足 ϵ0\epsilon_0ϵ0-LDP,并且对应一个查询。
输入:
- 输入 x∈Xx \in Xx∈X
输出:
- 输出 yyy,满足 ϵ0\epsilon_0ϵ0-LDP
算法流程:
- 从查询分布 PkP_kPk 中抽取一个查询 kkk。
- 使用本地基础随机化器 MkM_kMk 对 xxx 进行处理,得到 yyy。
- 返回 yyy。

隐私放大与并行性:
由于每个用户根据相同的查询分布 PkP_kPk 随机选择查询,所有用户采用相同的随机化算法(算法 2),因此,该算法仍然满足 ϵ0\epsilon_0ϵ0-LDP。正如前文所讨论的,通过洗牌机制进行隐私放大时,所有用户可以一起放大隐私。在这种情况下,我们可以利用任意 ϵ0\epsilon_0ϵ0-LDP 随机化器的变异性质和 eϵ0e^{\epsilon_0}eϵ0-比率性质,得出以下结论:
D(S(R(x01),…,R(xn))∥S(R(x11),…,R(xn)))≤D(Peϵ0,eϵ0−1/eϵ0+1eϵ0∥Qeϵ0,eϵ0−1/eϵ0+1eϵ0) D\left( S(R(x_0^1), \dots, R(x_n)) \parallel S(R(x_1^1), \dots, R(x_n)) \right) \le D\left( P_{e^{\epsilon_0}, e^{\epsilon_0}-1 / e^{\epsilon_0}+1}^{e^{\epsilon_0}} \parallel Q_{e^{\epsilon_0}, e^{\epsilon_0}-1 / e^{\epsilon_0}+1}^{e^{\epsilon_0}} \right) D(S(R(x01),…,R(xn))∥S(R(x11),…,R(xn)))≤D(Peϵ0,eϵ0−1/eϵ0+1eϵ0∥Qeϵ0,eϵ0−1/eϵ0+1eϵ0)
这就是所谓的基本并行组合定理。
定理 6.1:Shuffle模型中的高级并行组合
假设每个基础随机化器 MkM_kMk 满足 (eϵ0,βk)(e^{\epsilon_0}, \beta_k)(eϵ0,βk)-变异性质,并让 RRR 表示算法 2,那么对于任何输入 x01,x11,x2,…,xn∈Xx_0^1, x_1^1, x_2, \dots, x_n \in Xx01,x11,x2,…,xn∈X:
D(S(R(x01),…,R(xn))∥S(R(x11),…,R(xn)))≤D(Peϵ0,βˉeϵ0∥Qeϵ0,βˉeϵ0) D\left( S(R(x_0^1), \dots, R(x_n)) \parallel S(R(x_1^1), \dots, R(x_n)) \right) \le D\left( P_{e^{\epsilon_0}, \bar{\beta}}^{e^{\epsilon_0}} \parallel Q_{e^{\epsilon_0}, \bar{\beta}}^{e^{\epsilon_0}} \right) D(S(R(x01),…,R(xn))∥S(R(x11),…,R(xn)))≤D(Peϵ0,βˉeϵ0∥Qeϵ0,βˉeϵ0)
其中,βˉ=∑k′∈[K]βk′⋅P[Pk=k′]\bar{\beta} = \sum_{k' \in [K]} \beta_{k'} \cdot P[P_k = k']βˉ=∑k′∈[K]βk′⋅P[Pk=k′]。
证明:
为了证明定理 6.1,我们需要展示 RRR 满足 (eϵ0,βˉ)(e^{\epsilon_0}, \bar{\beta})(eϵ0,βˉ)-变异性质。首先,RRR 满足 Dϵ0(R(x01)∥R(x11))=0D_{\epsilon_0}(R(x_0^1) \parallel R(x_1^1)) = 0Dϵ0(R(x01)∥R(x11))=0,这是由于 RRR 满足 ϵ0\epsilon_0ϵ0-LDP。然后,应用总变差(或霍基棒散度)的定义,我们得到:
D1(R(x01)∥R(x11))≤∑k′∈[K]P[Pk=k′]⋅D1(Mk′(x01)∥Mk′(x11)) D_1(R(x_0^1) \parallel R(x_1^1)) \le \sum_{k' \in [K]} P[P_k = k'] \cdot D_1(M_{k'}(x_0^1) \parallel M_{k'}(x_1^1)) D1(R(x01)∥R(x11))≤k′∈[K]∑P[Pk=k′]⋅D1(Mk′(x01)∥Mk′(x11))
≤∑k′∈[K]P[Pk=k′]⋅βk′. \le \sum_{k' \in [K]} P[P_k = k'] \cdot \beta_{k'}. ≤k′∈[K]∑P[Pk=k′]⋅βk′.
这个式子表明,RRR 的变异度上界由所有基础随机化器的变异度加权平均来确定,从而得出定理中的结果。
结论:
通过将多个查询的隐私预算结合使用,算法 2 提供了一种有效的隐私放大方式,确保了每个用户的隐私得到放大。通过对所有基础随机化器的变异度加权,我们获得了更强的隐私保证,并得出了与基础机制的总变差上界相关的高级并行组合定理。这种方法为多查询场景下的隐私分析提供了有力的理论支持。
7 NUMERICAL RESULTS
在这一章中,作者展示了所提出的变异比率框架在 shuffle 模型下对单消息和多消息协议的评估结果。主要目标是展示数值上界的有效性和效率,验证定理 4.2和定理 4.3中的封闭形式界限的有效性。同时,通过定理 6.1中的高级并行组合,展示了隐私放大在实际应用中的性能改进,具体通过在 shuffle 模型下的私密范围查询作为例子。
7.1 单消息协议
为了评估所提出的变异比率框架在本地差分隐私 (LDP) 随机化器中的隐私放大效果,作者将其与现有的放大上界进行比较,如隐私毯方法(privacy blanket)[7]、克隆减少方法(clone reduction)[32] 和更强的克隆减少方法[33]。
特别地,作者考虑了两种用于离散分布估计的最先进的 LDP 随机化器:
- 子集选择机制(subset selection mechanism)[77, 92]
- 最优本地哈希(optimal local hash)[83]
对于隐私毯方法,作者展示了基于通用 LDP 随机化器的“Hoeffding”界限和“Bennett”界限之间的紧界限,记作 privacy-blanket, general。同时,也展示了基于随机化器特定参数的更紧界限,即:
- 对于子集机制,使用总变差相似性 𝛾 = (dk)eϵ0((d−1k−1))+(d−1k)\frac{\binom{d}{k}}{e^{\epsilon_0} \left(\binom{d-1}{k-1}\right) + \binom{d-1}{k}}eϵ0((k−1d−1))+(kd−1)(kd)
- 对于最优本地哈希,使用总变差相似性 𝛾 = leϵ0+l−1\frac{l}{e^{\epsilon_0} + l - 1}eϵ0+l−1l
这些结果均为数值放大上界(除了经典的 EFMRTT19 方法[30],它仅提供封闭形式的界限)。
放大比率
为了衡量隐私放大的效果,作者定义了“amplification ratio”:
amplification ratio=ϵ0ϵ \text{amplification ratio} = \frac{\epsilon_0}{\epsilon} amplification ratio=ϵϵ0
其中,ϵ0\epsilon_0ϵ0 为本地隐私预算,ϵ\epsilonϵ 为放大后的隐私预算。
结果
通过图 1 和图 2,作者展示了子集选择机制和最优本地哈希机制的放大比率结果。结果表明,与现有的最佳界限相比,使用变异比率框架的隐私放大可以节省大约 30% 的隐私预算。特别地,在最优本地哈希机制中,当 l=eϵ0+1>2l = e^{\epsilon_0} + 1 > 2l=eϵ0+1>2 时,从变异比率框架得到的放大上界非常紧,匹配了第 5 章中给出的下界。

7.2 多消息协议的评估
为了评估变异比率分析在多消息协议中的效果,作者将其应用于两种最先进的直方图估计协议:Cheu 等人提出的方法[21]和 balls-into-bins 方法[61]。通过比较原始工作中提供的放大隐私(记作 ϵ′\epsilon'ϵ′)和变异比率分析提供的隐私(记作 ϵ\epsilonϵ),来评估变异比率分析带来的隐私放大效果。
为了衡量变异比率分析所提供的额外隐私放大,作者定义了 额外放大比率(extra amplification ratio),其公式为:
extra amplification ratio=ϵ′ϵ \text{extra amplification ratio} = \frac{\epsilon'}{\epsilon} extra amplification ratio=ϵϵ′
通过图 3 和图 4,展示了变异比率框架(denoted as variation-ratio)的数值结果。结果表明,使用变异比率分析可以显著减少隐私预算,节省约 75%。此外,作者还展示了来自定理 4.2和定理 4.3的封闭形式的界限(分别记作 variation-ratio, analytic 和 variation-ratio, asymptotic),并表明这两个界限都比原始工作中的界限更紧密。特别是,定理 4.2的封闭形式界限可以节省超过 50% 的预算。


7.3 高级并行组合的评估
在这一部分,作者评估了定理 6.1中高级并行组合所提供的隐私放大效果。为了展示这一技术的有效性,作者考虑了对一个类别域 [1 : ddd] 进行的范围查询,这是文献中研究的一个经典问题[24, 30]。
为了避免估计器中的 Θ(d)\Theta(d)Θ(d) 错误,常见的做法是将类别表示为分层结构,并让每个用户报告一个层级。对于大小为 d=2Hd = 2^Hd=2H 的类别域,第 kkk-th 值在第 hhh-层的表示为:
Vh,k={j∈[(k−1)⋅2h:k⋅2h]},h∈[0:H−1],k∈[1:d/2h] V_{h,k} = \{ j \in [(k - 1) \cdot 2^h : k \cdot 2^h] \}, \quad h \in [0 : H - 1], \quad k \in [1 : d / 2^h] Vh,k={j∈[(k−1)⋅2h:k⋅2h]},h∈[0:H−1],k∈[1:d/2h]
其中 HHH 是层级数,kkk 是第 hhh 层中的值的索引。根据文献中的方法[24],假设每个用户均匀地选择一个层级 h∈[0:H−1]h \in [0 : H - 1]h∈[0:H−1],并使用具有完整预算 ϵ0\epsilon_0ϵ0 的广义随机响应机制报告一维热编码向量 Vh,∗V_{h,*}Vh,∗(广义随机响应机制在低本地隐私设置下最为有效[92])。
根据基本的并行组合定理,这个并行的本地随机化器(有 HHH 个查询)导致以下变异比率参数:
p=eϵ0,β=eϵ0−1eϵ0+1,q=eϵ0 p = e^{\epsilon_0}, \quad \beta = \frac{e^{\epsilon_0} - 1}{e^{\epsilon_0} + 1}, \quad q = e^{\epsilon_0} p=eϵ0,β=eϵ0+1eϵ0−1,q=eϵ0
相比之下,使用定理 6.1中的高级并行组合,可以计算出更紧的变异比率参数:
p=eϵ0,q=eϵ0,β=∑h∈[0:H−1]1Heϵ0−1eϵ0+d/2h−1 p = e^{\epsilon_0}, \quad q = e^{\epsilon_0}, \quad \beta = \sum_{h \in [0:H-1]} \frac{1}{H} \frac{e^{\epsilon_0} - 1}{e^{\epsilon_0} + d / 2^h - 1} p=eϵ0,q=eϵ0,β=h∈[0:H−1]∑H1eϵ0+d/2h−1eϵ0−1
作者在图 5 中进行了一项比较分析,比较了通过高级并行组合和基本并行组合获得的数值隐私放大效果。实验设置为 d=64d = 64d=64 或 2048,以及 n=104n = 10^4n=104 或 10510^5105 用户。结果表明,使用高级并行组合相比基本并行组合可减少约 75% 的隐私预算。此外,作者还考察了分离方法的隐私放大效果,即非重叠的用户分别报告每个层级。对于每层使用 n/Hn/Hn/H 个用户,作者分别使用最优参数(记作 separate, best)和最差参数(记作 separate, worst)进行比较。结果表明,与分离方法相比,使用高级并行组合可以节省 80%-95% 的预算。

7.4 效率评估
为了评估所提出的方法的效率,作者使用 Python 3.8 实现了定理 4.1和算法 1,并在一台配备 Intel Core i7-10700KF @3.8GHz 处理器和 32GB 内存的桌面计算机上执行。表 5 展示了在 T=20T = 20T=20 或 T=10T = 10T=10 的情况下的结果(其中 TTT 是二分查找放大级别 ϵ\epsilonϵ 时的迭代次数,详见第 4.4 节)。
结果表明,运行时间对本地预算 ϵ0\epsilon_0ϵ0 不太敏感,主要取决于人口规模 nnn 和迭代次数 TTT。此外,运行时间与 nnn 成线性关系,即使当 nnn 极大(如 n=108n = 10^8n=108)时,仍然能够在几十秒内获得紧密的数值隐私放大界限。实验结果还表明,选择较小的 TTT 值可以在一定程度上权衡计算效率和界限的紧密度。具体而言,将 T=10T = 10T=10 的结果与 T=20T = 20T=20 进行比较时,后者虽然提供了稍紧的界限,但计算时间大大增加。

1425

被折叠的 条评论
为什么被折叠?



