《Privacy Amplification via Shuffling: Unified, Simplified, and Tightened》详解(二)

原创已于 2024-12-09 16:35:07 修改 · 1.2k 阅读

11 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#算法 #开源

于 2024-12-09 15:20:56 首次发布

差分隐私专栏收录该内容

5 篇文章

订阅专栏

在这里插入图片描述

4.3 Amplification Parameters of Randomizers

这一部分的重点在于分析隐私放大框架在洗牌模型中的适用性，尤其是在不同类型的本地随机化器（LDP、度量DP、多消息随机化器）下的放大参数（amplification parameters）。

1. 本地差分隐私（LDP）随机化器

总变化率参数：

定义: 总变化率（variation-ratio parameter）是度量随机化机制隐私保护能力的重要参数。对于 $ϵ\epsilon$ -LDP 机制，其总变化率的最坏情况上界为：

$\beta = \frac{e^\epsilon - 1}{e^\epsilon + 1}.$

这一结果来自于文献 [51]，表明随机响应机制实现了最大总变化率。
这一上界等价于研究 [33] 中的渐进最优克隆概率（clone probability）。

机制优化：

对于一些常用机制（如均值估计、分布估计和复杂数据处理机制），利用其特定结构可以得到更紧的总变化率上界。
通过这种优化，可以实现更强的隐私放大效果。

2. 本地度量差分隐私（Metric DP）随机化器

分析方法：

对于一个满足本地度量 $d_X$ -DP 的机制 $R$ ，分析其在洗牌模型中的不区分性水平（indistinguishability level）。
目标是度量以下两个分布的可区分性：

$S(R(x_1^0), ..., R(x_n)) \quad \text{和} \quad S(R(x_1^1), ..., R(x_n)),$

其中 $x_1^0$ 和 $x_1^1$ 表示两个输入。

参数化结果：

基于定理 4.7 的结果，以下参数刻画了机制的放大特性：
- 放大参数：

$e^{d_{01}}, \quad \beta = \frac{e^{d_{01}} - 1}{e^{d_{01}} + 1}, \quad q = e^{d_{\max}},$

其中 $d_{01}$ 表示 $x_1^0$ 和 $x_1^1$ 的局部不可区分水平， $d_{\max}$ 是最大不可区分水平：

$d_{\max} = \max_{x \in X} \max\{d_X(x, x_1^0), d_X(x, x_1^1)\}.$

克隆概率优化：

相比文献 [78] 中的通用放大上界：

$\frac{2}{\max_{x \in X}(e^{d_X(x, x_1^0)} + e^{d_X(x, x_1^1)})},$

这里提出的克隆概率公式：

$\frac{\beta p}{(p - 1)q} = \frac{2}{e^{d_{\max}} + e^{d_{\max} - d_{01}}},$

至少不小于上述结果（由于三角不等式的性质）。

应用示例：

Laplace机制（ $ℓ1\ell_1$ -度量隐私）：
- 在一维数值域上的总变化率为：

$\beta = 1 - e^{-d_{01}/2}.$
2. 平面Laplace机制（ $ℓ2\ell_2$ -度量隐私）：

在二维域上的概率密度函数为：

$P[\text{PlanarLaplace}(u, 1) = x] = \frac{e^{-\|x - u\|_2}}{2\pi}, \quad u, x \in \mathbb{R}^2,$

其总变化率为：

$\beta = 2 \int_{d_{01}/2}^{\infty} \int_{-\infty}^{\infty} \frac{e^{-\sqrt{(x - d_{01}/2)^2 + y^2}}}{2\pi} dy dx.$

在这里插入图片描述

3. 多消息协议的放大参数

消息分类与放大参数的来源

输入相关消息（Input-dependent messages）：依赖用户的真实输入。例如，[21]中用户1通过对输入 $x_1$ 执行二元随机响应生成。
输入无关消息（Input-independent messages）：与输入无关，通常由伪随机生成，起到掩盖输入相关消息的作用。例如：
- 在 [4, 5] 中，通过伯努利变量（biased coin）或均匀变量（uniform coin）生成。
- 在“球入箱”（balls-into-bins）协议 [58, 61] 中，输入无关消息为均匀随机类别。

放大参数的计算

输入相关消息的放大参数 $β,p\beta, p$ ：通过 $R_1(x_1)$ 推导，即处理输入的随机化器。
输入无关消息的放大参数 $q$ ：由所有用户的输入无关消息计算，参考 [7] 中的 blanket 消息（即由伪用户生成的消息）。

消息数量与放大效果

输入无关消息的数量相当于伪用户生成的消息数。例如，当 $n^{'}$ 个用户每人生成 $m - 1$ 个输入无关消息时，定理 4.7 中的 $n - 1$ 实际变为 $\cdot (m-1)$ 。
实验表明，与原始协议的隐私保证相比，该放大框架可节省超过 70% 的隐私预算（详见第 7.2 节数值结果）。

4. 多消息协议的分类

根据协议中生成的消息之间的相关性，分为以下三类：

类型 I：通过多次调用单消息协议实现。例如：
- [8] 中的递归协议（Recursive protocol）。
- [44] 中的实用性-复杂性平衡协议（Utility-complexity balanced protocol）。
类型 II：每位用户发送一个输入相关消息及多个输入无关消息。例如：
- [4, 5] 中用于二元求和的协议。
- [58, 61] 中的 pureDUMP 和 mixDUMP 协议。
类型 III：每位用户发送多个相关消息。例如：
- [37, 38] 中的协议。
- [8] 中基于秘密共享的 IKOS 协议。

框架的适用性

适用范围：本框架适用于类型 I 和类型 II 协议（即消息之间相互独立）。
限制：对于类型 III 协议，由于消息之间存在相关性，违背了随机化器 $R_i$ 的独立性假设，因此无法直接适用。

在这里插入图片描述

5. 关于变化比参数的讨论

单消息协议

单消息协议中，若使用 $ϵ0\epsilon_0$ -LDP 随机化器，参数满足：

$e^{\epsilon_0}.$

克隆概率的变化：

$\frac{2\beta p}{(p-1)q}。$

随着 $ϵ0\epsilon_0$ 增大，克隆概率显著减小，因此需要更大规模的人群才能达到全局 $(ϵ,δ)(\epsilon, \delta)$ -DP。

效用与放大效果的平衡：
- 具有更高本地效用的机制通常完全利用了隐私约束，导致总变化率 $β\beta$ 较大，因此隐私放大效果较弱（如二元随机响应的隐私放大效果较弱）。

多消息协议

多消息协议通常设定 $q < p$ 或 $\ll p$ ，以提高克隆概率并减少每个用户发送的消息数。
协议设计策略：
- 输入无关消息数量越多（例如 $m - 1$ 越大），隐私放大效果越显著。
- 需要在消息数与隐私预算之间找到平衡。

度量 DP 协议

当处理大数据域时， $dmax⁡\text{maximal indistinguishability level } d_{\max}$ 通常设置较高，使得 $\geq p$ 。
在全局隐私目标固定的情况下：
- 增大 $d_{\max}$ 提高了本地数据效用。
- 但同时降低了隐私放大效果。

4.4 Numerical Method for Upper Bounds

这部分讨论了如何数值计算洗牌模型中消息集之间的不可区分性（indistinguishability）水平，并给出了具体的算法来找到给定隐私失败概率 $δ\delta$ 下的最大不可区分性水平。这个过程基于**霍基棒散度（Hockey-stick divergence）**的理论计算，具体方法包括二分搜索和概率累积期望的计算。

1. 问题设定

我们希望计算两个洗牌后的消息集之间的不可区分性水平。设有两组消息集：

$S(R1(x10),…,Rn(xn))S(R_1(x_1^0), \dots, R_n(x_n))$
$S(R1(x11),…,Rn(xn))S(R_1(x_1^1), \dots, R_n(x_n))$

其中， $x_1^0$ 和 $x_1^1$ 是两种不同的输入消息， $R_i(x_i)$ 是通过本地随机化机制 $R$ 对 $x_i$ 进行处理得到的消息。

目标是找到最小的 $ϵ\epsilon$ ，使得对应的霍基棒散度不超过给定的隐私失败概率 $δ\delta$ ，即满足以下不等式：

$\min_{\epsilon \in [0, \log p]} \max\left[ D_\epsilon(P_{q,p,\beta} \| Q_{q,p,\beta}), D_\epsilon(Q_{q,p,\beta} \| P_{q,p,\beta}) \right] \leq \delta$

这里， $ϵ\epsilon$ 是隐私预算， $p$ 是某个参数（通常与消息的区分度相关）， $β\beta$ 是总变化率（Total Variation Bound）， $δ\delta$ 是隐私失败概率。

2. 霍基棒散度和二分搜索

由于霍基棒散度随着 $ϵ\epsilon$ 的增大而单调减小（即隐私预算越大，两个分布之间的差异越小），可以通过二分搜索来高效找到满足隐私要求的最小 $ϵ\epsilon$ 。

具体步骤如下：

设定一个二分搜索的区间 $\log p]$ ，在该区间内搜索合适的 $ϵ\epsilon$ 。
对于每个 $ϵ\epsilon$ ，计算霍基棒散度 $Dϵ(Pq,p,β∥Qq,p,β)D_\epsilon(P_{q,p,\beta} \| Q_{q,p,\beta})$ 。
继续调整 $ϵ\epsilon$ 直到找到最小的 $ϵ\epsilon$ ，使得对应的霍基棒散度小于或等于 $δ\delta$ 。

3. 计算霍基棒散度

为了计算霍基棒散度，需要通过累积概率来进行计算。具体来说，算法中定义了一个子程序 Delta(\epsilon) 来计算散度，主要步骤如下：

计算累积概率分布函数（CDF），并结合二项式概率来进行累加。
对每个可能的消息数 $c$ ，计算其对应的散度值，并通过加权累加这些值，得到整体的散度。

4. 算法实现

算法的具体实现如下：

输入：

隐私失败概率 $δ∈[0,1]\delta \in [0, 1]$
用户数量 $n$
参数 $p > 1$ , $\geq 1$ , $β∈[0,p−1p+1]\beta \in [0, \frac{p-1}{p+1}]$
二分搜索的迭代次数 $T$

输出：

最大不可区分性水平 $ϵ′\epsilon'$ 使得霍基棒散度小于或等于 $δ\delta$

算法步骤：

初始化：
- 设定 $α=βp−1\alpha = \frac{\beta}{p-1}$ 和 $\alpha p / q$ ，这些是算法计算散度所需的参数。
子程序 Delta( $ϵ′\epsilon'$ )：
- 对于每个 $\in [0, n]$ ，根据公式计算加权概率并累加，最终返回总的散度值。
二分搜索：
- 设置二分搜索区间 $\log p]$ ，并进行 $T$ 次二分搜索。
- 在每一步计算 $ϵt\epsilon_t$ ，并调用 $Delta(ϵt)Delta(\epsilon_t)$ 计算散度。
- 如果散度大于 $δ\delta$ ，则调整搜索区间的下界；否则，调整上界。
返回结果：
- 在搜索结束后，返回最终计算的 $ϵ′\epsilon'$ ，即满足隐私要求的最小 $ϵ\epsilon$ 。

5. 计算复杂度

算法的计算复杂度为 $O∼(n⋅T)O^\sim(n \cdot T)$ ，其中：

$n$ 是用户数量，影响计算量。
$T$ 是二分搜索的迭代次数，控制算法的精度。

6. 重要细节

对称性：由于霍基棒散度的对称性， $Dϵ(Pq,p,β∥Qq,p,β)=Dϵ(Qq,p,β∥Pq,p,β)D_\epsilon(P_{q,p,\beta} \| Q_{q,p,\beta}) = D_\epsilon(Q_{q,p,\beta} \| P_{q,p,\beta})$ ，因此只需要计算一个方向的散度即可。
二分搜索的效率：通过二分搜索，可以高效地在给定区间内找到最优的 $ϵ\epsilon$ ，避免了穷举所有可能值的计算。

在这里插入图片描述

总结

本部分通过算法1给出了如何在给定隐私失败概率 $δ\delta$ 下，数值计算消息集之间的不可区分性水平。通过二分搜索和概率累积计算，能够高效地求解隐私预算 $ϵ\epsilon$ ，以确保隐私保障不被违反。算法的核心是利用霍基棒散度的单调性来进行搜索，并通过加权累加概率值来计算散度，从而求得最小的 $ϵ\epsilon$ 。

5 Amplification Lower Bounds

这一节的目标是通过洗牌机制建立隐私放大的下界。这些下界能够帮助我们证明前一节推导的上界是紧的（即精确的）。具体来说，目标是找到一个最坏情况的数据集，使得洗牌后的消息集之间的可区分性最大化，并且为此计算一个下界。

核心思路：

隐私放大的下界是通过考虑不同数据集对洗牌消息集的影响，尤其是当两个相邻的数据集（如 $x_0$ 和 $x_1$ ）被洗牌时，某些元素的出现概率差异最大时的最坏情况来推导的。

算法步骤：

选取元素 $\in Y$ 来最大化概率差异：
- 首先，我们选择一个消息空间中的元素 $y$ ，使得在局部随机化器 $R(x_0)$ 和 $R(x_1)$ 下， $P[R(x_0) = y]$ 与 $P[R(x_1) = y]$ 的差异最大。
选择最坏数据 $x^*$ ：
- 接着，我们选择最坏的用户数据 $x∗∈Xx^* \in X$ ，使得对于给定的 $y$ ，对不同的 $x$ 数据计算概率比率时，期望的概率比率最大。
计算期望概率比率：
- 我们通过求解最大化某些期望概率比率的 $x^*$ 来确定 $β\beta$ 和其它相关参数。最后，将这些差异总结成类似于定理 4.7 中使用的二项式计数来得出结果。

定理 5.1: 隐私放大的下界：

假设存在 $x0,x1∈Xx_0, x_1 \in X$ 和局部随机化器 $R_1, R_2$ ，其输出空间为 $Y$ ，定义以下参数：

$p_0$ 是关于消息空间中元素 $y$ 的一个加权概率值，表示在不同数据集之间，元素 $y$ 的概率差异。
$β\beta$ 是局部随机化器 $R_1(x_1)$ 与 $R_1(x_0)$ 之间的差异度量，即霍基棒散度 $Dϵ(R1(x1)∥R1(x0))D_\epsilon(R_1(x_1) \parallel R_1(x_0))$ 。

根据这些参数，选择 $x^*$ 使得以下最小化量最大化期望概率比率：

$x^* = \arg\max_{x \in X} \min \left\{ \sum_{y \in Y} \left[ P[R_1(x_1) = y] > P[R_1(x_0) = y] \right] \cdot P[R_1(x_1) = y] \right\}.$

定义：

$q_0$ 和 $q_1$ 分别是 $p_0$ 和 $p_1$ 的概率值。

通过计算 $Pq0,q1p0,βP_{q_0, q_1}^{p_0, \beta}$ 和 $Qq0,q1p0,βQ_{q_0, q_1}^{p_0, \beta}$ 的散度，得出下界。这表明，洗牌消息集之间的散度被二项式计数之间的散度下界所限制。

上界与下界的紧性：

在上界与下界的推导中，存在一种情况，当 $p_0 = p$ 且 $q_0 = q_1 = q$ 时，得到的上界与下界完全匹配，这表明此时上界和下界是紧的，即它们在这种情况下是精确的。这一条件意味着随机化器的期望概率比率 $p_0$ 等于最大比率 $p$ ，从而满足精确匹配。

随机化器设计：

为了满足上述条件，需要设计极值概率的随机化器，使得对于任意两个消息 $x_i$ 和 $x_i'$ ，它们的概率比率 $P[R(x_i) = y] / P[R(x_i') = y]$ 必须属于 ${1,eϵ,e−ϵ}\{1, e^\epsilon, e^{-\epsilon}\}$ ，其中 $ϵ\epsilon$ 是隐私预算。

一些符合此标准的随机化器包括：

广义随机化响应机制（Generalized Randomized Response），适用于多个选项。
$k$ -子集机制（ $k$ -Subset Mechanism），适用于 $\leq 2$ 。
局部哈希机制（Local Hash），适用于长度 $\geq 3$ 。
哈达马尔响应机制（Hadamard Response）。
PrivUnit，其中 $\leq 1/2$ 。
PCKV-GRR。
Wheel机制（Wheel Mechanism），适用于长度 $\geq 1/(2s)$ 。

对于这些机制，隐私放大的上界和下界是紧的，完全匹配的。

多消息协议：

类似的，最近的多消息协议（如Cheu等人的协议、Balls-into-bins协议、pureDUMP和mixDUMP协议等）也有类似的效果，隐私放大的上界和下界完全匹配。

计算复杂度：

计算这些下界的数值通常需要 $O∼(n)O^\sim(n)$ 的时间复杂度。

结论：

本节提供了隐私放大下界的推导，通过考虑消息之间概率差异和选择最坏情况数据集 $x^*$ ，我们推导出了洗牌消息集的隐私放大下界，并证明了在特定条件下上界与下界的紧性。

6 PARALLEL COMPOSITION IN THE SHUFFLE MODEL

在数据分析任务中，通常涉及多个估计目标。在本地差分隐私（LDP）设置下，常见的做法是将整个用户群体划分为多个不重叠的子集，每个子集处理一个估计查询，且每个查询使用完整的隐私预算 $ϵ0\epsilon_0$ 。这种方法能够在与将隐私预算分配给多个查询相比，提供更好的效用。许多任务使用这种方法，包括重度项估计（heavy hitter estimation）、多维数据发布（multi-dimensional data publication）、频繁项集挖掘（frequent itemset mining）、范围查询（range queries）、边际查询（marginal queries）、数据合成（data synthesis）、以及机器学习（machine learning）等。这种方法与差分隐私在集中式设置中的并行组合定理一致。

在Shuffle模型下，处理多个查询的传统方法是将用户群体分为 $K$ 个子组，每个查询使用约 $n / K$ 个用户进行隐私放大。然而，更有效的方法是让每个用户从所有 $K$ 个查询中随机选择一个查询，通过公共分布 $P_k$ 为该查询提供贡献。这种并行方式通过算法 2 来实现。由于所有基础机制 $M_k$ （对于 $\in [K]$ ）都满足 $ϵ0\epsilon_0$ -LDP，因此整体算法也满足 $ϵ0\epsilon_0$ -LDP。

算法 2: 并行本地随机化器

参数：

查询数 $K$
概率分布 $Pk:[K]→[0,1]P_k : [K] \to [0, 1]$
本地基础随机化器集合 ${Mk:X→Yk}\{M_k : X \to Y_k \}$ ，每个 $M_k$ 满足 $ϵ0\epsilon_0$ -LDP，并且对应一个查询。

输入：

输入 $\in X$

输出：

输出 $y$ ，满足 $ϵ0\epsilon_0$ -LDP

算法流程：

从查询分布 $P_k$ 中抽取一个查询 $k$ 。
使用本地基础随机化器 $M_k$ 对 $x$ 进行处理，得到 $y$ 。
返回 $y$ 。

隐私放大与并行性：

由于每个用户根据相同的查询分布 $P_k$ 随机选择查询，所有用户采用相同的随机化算法（算法 2），因此，该算法仍然满足 $ϵ0\epsilon_0$ -LDP。正如前文所讨论的，通过洗牌机制进行隐私放大时，所有用户可以一起放大隐私。在这种情况下，我们可以利用任意 $ϵ0\epsilon_0$ -LDP 随机化器的变异性质和 $eϵ0e^{\epsilon_0}$ -比率性质，得出以下结论：

$D\left( S(R(x_0^1), \dots, R(x_n)) \parallel S(R(x_1^1), \dots, R(x_n)) \right) \le D\left( P_{e^{\epsilon_0}, e^{\epsilon_0}-1 / e^{\epsilon_0}+1}^{e^{\epsilon_0}} \parallel Q_{e^{\epsilon_0}, e^{\epsilon_0}-1 / e^{\epsilon_0}+1}^{e^{\epsilon_0}} \right)$

这就是所谓的基本并行组合定理。

定理 6.1：Shuffle模型中的高级并行组合

假设每个基础随机化器 $M_k$ 满足 $(eϵ0,βk)(e^{\epsilon_0}, \beta_k)$ -变异性质，并让 $R$ 表示算法 2，那么对于任何输入 $x01,x11,x2,…,xn∈Xx_0^1, x_1^1, x_2, \dots, x_n \in X$ ：

$D\left( S(R(x_0^1), \dots, R(x_n)) \parallel S(R(x_1^1), \dots, R(x_n)) \right) \le D\left( P_{e^{\epsilon_0}, \bar{\beta}}^{e^{\epsilon_0}} \parallel Q_{e^{\epsilon_0}, \bar{\beta}}^{e^{\epsilon_0}} \right)$

其中， $βˉ=∑k′∈[K]βk′⋅P[Pk=k′]\bar{\beta} = \sum_{k' \in [K]} \beta_{k'} \cdot P[P_k = k']$ 。

证明：

为了证明定理 6.1，我们需要展示 $R$ 满足 $(eϵ0,βˉ)(e^{\epsilon_0}, \bar{\beta})$ -变异性质。首先， $R$ 满足 $Dϵ0(R(x01)∥R(x11))=0D_{\epsilon_0}(R(x_0^1) \parallel R(x_1^1)) = 0$ ，这是由于 $R$ 满足 $ϵ0\epsilon_0$ -LDP。然后，应用总变差（或霍基棒散度）的定义，我们得到：

$D_1(R(x_0^1) \parallel R(x_1^1)) \le \sum_{k' \in [K]} P[P_k = k'] \cdot D_1(M_{k'}(x_0^1) \parallel M_{k'}(x_1^1))$

$\le \sum_{k' \in [K]} P[P_k = k'] \cdot \beta_{k'}.$

这个式子表明， $R$ 的变异度上界由所有基础随机化器的变异度加权平均来确定，从而得出定理中的结果。

结论：

通过将多个查询的隐私预算结合使用，算法 2 提供了一种有效的隐私放大方式，确保了每个用户的隐私得到放大。通过对所有基础随机化器的变异度加权，我们获得了更强的隐私保证，并得出了与基础机制的总变差上界相关的高级并行组合定理。这种方法为多查询场景下的隐私分析提供了有力的理论支持。

7 NUMERICAL RESULTS

在这一章中，作者展示了所提出的变异比率框架在 shuffle 模型下对单消息和多消息协议的评估结果。主要目标是展示数值上界的有效性和效率，验证定理 4.2和定理 4.3中的封闭形式界限的有效性。同时，通过定理 6.1中的高级并行组合，展示了隐私放大在实际应用中的性能改进，具体通过在 shuffle 模型下的私密范围查询作为例子。

7.1 单消息协议

为了评估所提出的变异比率框架在本地差分隐私 (LDP) 随机化器中的隐私放大效果，作者将其与现有的放大上界进行比较，如隐私毯方法（privacy blanket）[7]、克隆减少方法（clone reduction）[32] 和更强的克隆减少方法[33]。

特别地，作者考虑了两种用于离散分布估计的最先进的 LDP 随机化器：

子集选择机制（subset selection mechanism）[77, 92]
最优本地哈希（optimal local hash）[83]

对于隐私毯方法，作者展示了基于通用 LDP 随机化器的“Hoeffding”界限和“Bennett”界限之间的紧界限，记作 privacy-blanket, general。同时，也展示了基于随机化器特定参数的更紧界限，即：

对于子集机制，使用总变差相似性 𝛾 = $(dk)eϵ0((d−1k−1))+(d−1k)\frac{\binom{d}{k}}{e^{\epsilon_0} \left(\binom{d-1}{k-1}\right) + \binom{d-1}{k}}$
对于最优本地哈希，使用总变差相似性 𝛾 = $leϵ0+l−1\frac{l}{e^{\epsilon_0} + l - 1}$

这些结果均为数值放大上界（除了经典的 EFMRTT19 方法[30]，它仅提供封闭形式的界限）。

放大比率

为了衡量隐私放大的效果，作者定义了“amplification ratio”：

$\text{amplification ratio} = \frac{\epsilon_0}{\epsilon}$

其中， $ϵ0\epsilon_0$ 为本地隐私预算， $ϵ\epsilon$ 为放大后的隐私预算。

结果

通过图 1 和图 2，作者展示了子集选择机制和最优本地哈希机制的放大比率结果。结果表明，与现有的最佳界限相比，使用变异比率框架的隐私放大可以节省大约 30% 的隐私预算。特别地，在最优本地哈希机制中，当 $e^{\epsilon_0} + 1 > 2$ 时，从变异比率框架得到的放大上界非常紧，匹配了第 5 章中给出的下界。
在这里插入图片描述

7.2 多消息协议的评估

为了评估变异比率分析在多消息协议中的效果，作者将其应用于两种最先进的直方图估计协议：Cheu 等人提出的方法[21]和 balls-into-bins 方法[61]。通过比较原始工作中提供的放大隐私（记作 $ϵ′\epsilon'$ ）和变异比率分析提供的隐私（记作 $ϵ\epsilon$ ），来评估变异比率分析带来的隐私放大效果。

为了衡量变异比率分析所提供的额外隐私放大，作者定义了 额外放大比率（extra amplification ratio），其公式为：

$\text{extra amplification ratio} = \frac{\epsilon'}{\epsilon}$

通过图 3 和图 4，展示了变异比率框架（denoted as variation-ratio）的数值结果。结果表明，使用变异比率分析可以显著减少隐私预算，节省约 75%。此外，作者还展示了来自定理 4.2和定理 4.3的封闭形式的界限（分别记作 variation-ratio, analytic 和 variation-ratio, asymptotic），并表明这两个界限都比原始工作中的界限更紧密。特别是，定理 4.2的封闭形式界限可以节省超过 50% 的预算。
在这里插入图片描述

7.3 高级并行组合的评估

在这一部分，作者评估了定理 6.1中高级并行组合所提供的隐私放大效果。为了展示这一技术的有效性，作者考虑了对一个类别域 [1 : $d$ ] 进行的范围查询，这是文献中研究的一个经典问题[24, 30]。

为了避免估计器中的 $Θ(d)\Theta(d)$ 错误，常见的做法是将类别表示为分层结构，并让每个用户报告一个层级。对于大小为 $d = 2^H$ 的类别域，第 $k$ -th 值在第 $h$ -层的表示为：

$V_{h,k} = \{ j \in [(k - 1) \cdot 2^h : k \cdot 2^h] \}, \quad h \in [0 : H - 1], \quad k \in [1 : d / 2^h]$

其中 $H$ 是层级数， $k$ 是第 $h$ 层中的值的索引。根据文献中的方法[24]，假设每个用户均匀地选择一个层级 $\in [0 : H - 1]$ ，并使用具有完整预算 $ϵ0\epsilon_0$ 的广义随机响应机制报告一维热编码向量 $V_{h,*}$ （广义随机响应机制在低本地隐私设置下最为有效[92]）。

根据基本的并行组合定理，这个并行的本地随机化器（有 $H$ 个查询）导致以下变异比率参数：

$e^{\epsilon_0}, \quad \beta = \frac{e^{\epsilon_0} - 1}{e^{\epsilon_0} + 1}, \quad q = e^{\epsilon_0}$

相比之下，使用定理 6.1中的高级并行组合，可以计算出更紧的变异比率参数：

$e^{\epsilon_0}, \quad q = e^{\epsilon_0}, \quad \beta = \sum_{h \in [0:H-1]} \frac{1}{H} \frac{e^{\epsilon_0} - 1}{e^{\epsilon_0} + d / 2^h - 1}$

作者在图 5 中进行了一项比较分析，比较了通过高级并行组合和基本并行组合获得的数值隐私放大效果。实验设置为 $d = 64$ 或 2048，以及 $n = 10^4$ 或 $10^5$ 用户。结果表明，使用高级并行组合相比基本并行组合可减少约 75% 的隐私预算。此外，作者还考察了分离方法的隐私放大效果，即非重叠的用户分别报告每个层级。对于每层使用 $n / H$ 个用户，作者分别使用最优参数（记作 separate, best）和最差参数（记作 separate, worst）进行比较。结果表明，与分离方法相比，使用高级并行组合可以节省 80%-95% 的预算。
在这里插入图片描述

7.4 效率评估

为了评估所提出的方法的效率，作者使用 Python 3.8 实现了定理 4.1和算法 1，并在一台配备 Intel Core i7-10700KF @3.8GHz 处理器和 32GB 内存的桌面计算机上执行。表 5 展示了在 $T = 20$ 或 $T = 10$ 的情况下的结果（其中 $T$ 是二分查找放大级别 $ϵ\epsilon$ 时的迭代次数，详见第 4.4 节）。

结果表明，运行时间对本地预算 $ϵ0\epsilon_0$ 不太敏感，主要取决于人口规模 $n$ 和迭代次数 $T$ 。此外，运行时间与 $n$ 成线性关系，即使当 $n$ 极大（如 $n = 10^8$ ）时，仍然能够在几十秒内获得紧密的数值隐私放大界限。实验结果还表明，选择较小的 $T$ 值可以在一定程度上权衡计算效率和界限的紧密度。具体而言，将 $T = 10$ 的结果与 $T = 20$ 进行比较时，后者虽然提供了稍紧的界限，但计算时间大大增加。
在这里插入图片描述