
Feldman V, McMillan A, Talwar K. Hiding among the clones: A simple and nearly optimal analysis of privacy amplification by shuffling[C]//2021 IEEE 62nd Annual Symposium on Foundations of Computer Science (FOCS). IEEE, 2022: 954-964.
4 A Tighter Analysis for Specific Randomizers
本节通过分析特定类型的局部随机化器(例如 kkk-随机化响应 kkk-Randomized Response, 简称 kRRkRRkRR)来提出一种更强的隐私放大结果。核心定理 Theorem 4.1 提供了一种更通用的方法,可以证明在满足特定条件时,洗牌操作会带来更强的隐私放大。
以下是详细讲解 Theorem 4.1 的证明逻辑以及关键技术细节。
1. Theorem 4.1 的目标与核心结论
目标:证明一系列局部随机化器在满足某些额外性质时,洗牌模型中的隐私放大效果可以进一步提升。特别地:
- 假设输入数据集中仅一个元素 x1x_1x1 在 X0X_0X0 和 X1X_1X1 中不同,其余元素完全相同。
- 分析洗牌后生成的分布是否满足更严格的 (ϵ,δ)(\epsilon, \delta)(ϵ,δ)-差分隐私。
结论:如果局部随机化器满足特定的条件,洗牌后的隐私参数 ϵ\epsilonϵ 满足:
ϵ≤ln(1+q⋅(4⋅2log(4/δ)pn+4pn)), \epsilon \leq \ln\left(1 + q \cdot \left( 4 \cdot \frac{\sqrt{2 \log(4/\delta)}}{\sqrt{pn}} + \frac{4}{pn} \right) \right), ϵ≤ln(1+q⋅(4⋅pn2log(4/δ)+pn4)),
其中:
- ppp 和 qqq 是根据局部随机化器的特性确定的参数;
- p≥8ln(2/δ)np \geq \frac{8 \ln(2/\delta)}{n}p≥n8ln(2/δ) 确保 ppp 不太小;
- qqq 表示局部随机化器的一个混合系数(详见下面分析)。
该结果展示了通过引入 ppp 和 qqq 的约束条件,可以实现比 Theorem 3.1 更优的隐私放大效果。
2. 引理和分布分解的基本构造
(1) 进一步分解局部随机化器
类似于 Theorem 3.2 中的分析,局部随机化器的输出被分解为多个概率分布的混合:
- 对于 R(i)R(i)R(i),假设其输出分布满足:
R(i)(z1:i−1,x1b)=q⋅Q1(i)(z1:i−1,x1b)+(1−q)⋅Q0(i)(z1:i−1), R(i)(z_{1:i-1}, x_1^b) = q \cdot Q_1^{(i)}(z_{1:i-1}, x_1^b) + (1 - q) \cdot Q_0^{(i)}(z_{1:i-1}), R(i)(z1:i−1,x1b)=q⋅Q1(i)(z1:i−1,x1b)+(1−q)⋅Q0(i)(z1:i−1),
其中:
- Q1(i)Q_1^{(i)}Q1(i) 是由 x1bx_1^bx1b 驱动的分布;
- Q0(i)Q_0^{(i)}Q0(i) 是背景分布,与 x1x_1x1 无关;
- q∈(0,1)q \in (0, 1)q∈(0,1) 是控制 Q1(i)Q_1^{(i)}Q1(i) 权重的参数。
- 对于 x≠x10,x11x \neq x_1^0, x_1^1x=x10,x11,进一步分解 R(i)(z1:i−1,x)R(i)(z_{1:i-1}, x)R(i)(z1:i−1,x) 为:
R(i)(z1:i−1,x)=p⋅Q1(i)(z1:i−1,x10)+p⋅Q1(i)(z1:i−1,x11)+p⋅Q0(i)(z1:i−1)+(1−3p)⋅LO(z1:i−1,x), R(i)(z_{1:i-1}, x) = p \cdot Q_1^{(i)}(z_{1:i-1}, x_1^0) + p \cdot Q_1^{(i)}(z_{1:i-1}, x_1^1) + p \cdot Q_0^{(i)}(z_{1:i-1}) + (1 - 3p) \cdot \text{LO}(z_{1:i-1}, x), R(i)(z1:i−1,x)=p⋅Q1(i)(z1:i−1,x10)+p⋅Q1(i)(z1:i−1,x11)+p⋅Q0(i)(z1:i−1)+(1−3p)⋅LO(z1:i−1,x),
其中:
- ppp 是控制 Q1(i)Q_1^{(i)}Q1(i) 和 Q0(i)Q_0^{(i)}Q0(i) 在 x≠x1x \neq x_1x=x1 时的权重的参数;
- LO\text{LO}LO 是一个剩余分布。
(2) 将洗牌后的分布表示为多项式分布
在洗牌模型中,多个局部随机化器的输出被随机排列,导致洗牌后的分布可以被表示为多项式分布:
- 对于数据点总数 n−1n-1n−1,假设分布为 MultNom(n−1;p,p,p,1−3p)\text{MultNom}(n-1; p, p, p, 1-3p)MultNom(n−1;p,p,p,1−3p);
- 每个数据点可能属于 A,B,C,DA, B, C, DA,B,C,D 四个类别,其中:
- A,B,CA, B, CA,B,C 的概率均为 ppp;
- DDD 的概率为 1−3p1 - 3p1−3p。
另外,Γ∼Bern(q)\Gamma \sim \text{Bern}(q)Γ∼Bern(q) 用来控制额外的扰动。
通过这些分布的构造,可以将洗牌后的分布 P\mathcal{P}P 和 Q\mathcal{Q}Q 分别表示为:
P=Φ(A+Γ,B,C+1−Γ), \mathcal{P} = \Phi(A + \Gamma, B, C + 1 - \Gamma), P=Φ(A+Γ,B,C+1−Γ),
Q=Φ(A,B+Γ,C+1−Γ), \mathcal{Q} = \Phi(A, B + \Gamma, C + 1 - \Gamma), Q=Φ(A,B+Γ,C+1−Γ),
其中 Φ\PhiΦ 是一个后处理函数。
3. 隐私参数的计算
(1) 计算 P\mathcal{P}P 和 Q\mathcal{Q}Q 的散度
通过类似 Lemma 3.5 的分析方法,证明了 P\mathcal{P}P 和 Q\mathcal{Q}Q 的不可区分性。其关键是利用了:
- ppp 确保了分布的稀疏性;
- qqq 确保了隐私保护效果。
(2) 利用联合凸性优化结果
通过将 P\mathcal{P}P 和 Q\mathcal{Q}Q 的散度分解为简单分布(例如 A,B,CA, B, CA,B,C 的多项式分布),并使用 hockey-stick divergence 的联合凸性,可以得到最终的隐私参数 ϵ\epsilonϵ 的界限:
ϵ≤ln(1+q⋅(4⋅2log(4/δ)pn+4pn)). \epsilon \leq \ln\left(1 + q \cdot \left( 4 \cdot \frac{\sqrt{2 \log(4/\delta)}}{\sqrt{pn}} + \frac{4}{pn} \right) \right). ϵ≤ln(1+q⋅(4⋅pn2log(4/δ)+pn4)).
4. 优势和应用
(1) 比较 Theorem 3.1 的改进
- Theorem 4.1 的结果更精细,允许利用局部随机化器的特性(例如 kRRkRRkRR 的特性)来提升隐私放大效果。
- 当 qqq 和 ppp 有特殊约束时,可以进一步减小 ϵ\epsilonϵ。
(2) kkk-随机化响应的应用
- 通过 kRRkRRkRR 的特性(随着 kkk 增大,隐私放大效果更显著),可以得到更优的洗牌隐私放大结果。
总结
Theorem 4.1 的证明通过:
- 分解局部随机化器的输出;
- 表示洗牌后的分布为多项式分布;
- 利用联合凸性分析 P\mathcal{P}P 和 Q\mathcal{Q}Q 的差异。
其结果展示了通过引入额外条件,可以进一步改进洗牌模型中的隐私放大效果,为特定随机化器(如 kRRkRRkRR)提供了更紧的隐私界限。
4.1 k-Randomized Response
概述
在 kkk-随机化响应 (kRRkRRkRR) 中,每个用户的真实数据点 x∈[k]x \in [k]x∈[k] 会以概率 eϵ0−1eϵ0+k−1\frac{e^{\epsilon_0} - 1}{e^{\epsilon_0} + k - 1}eϵ0+k−1eϵ0−1 被保留,或者以概率 keϵ0+k−1\frac{k}{e^{\epsilon_0} + k - 1}eϵ0+k−1k 替换为从均匀分布 U[k]U[k]U[k] 中采样的随机值。
Corollary 4.2 分析了 kRRkRRkRR 在洗牌模型中隐私放大的效果,并展示了 kkk 增大时的显著隐私提升。
1. kRRkRRkRR 的定义与性质
(1) kRRkRRkRR 的定义
对于 k∈Nk \in \mathbb{N}k∈N 和隐私参数 ϵ0>0\epsilon_0 > 0ϵ0>0,kRRkRRkRR 被定义为一个局部随机化器:
kRR(x)={x,以概率 eϵ0−1eϵ0+k−1y∼U[k],以概率 keϵ0+k−1, kRR(x) = \begin{cases} x, & \text{以概率 } \frac{e^{\epsilon_0} - 1}{e^{\epsilon_0} + k - 1} \\ y \sim U[k], & \text{以概率 } \frac{k}{e^{\epsilon_0} + k - 1}, \end{cases} kRR(x)={x,y∼U[k],以概率 eϵ0+k−1eϵ0−1以概率 eϵ0+k−1k,
其中:
- U[k]U[k]U[k] 是定义在 [k][k][k] 上的均匀分布;
- 输出可以是 xxx 或均匀分布上的其他值。
(2) 分解 kRRkRRkRR 的输出分布
对于任意 x∈[k]x \in [k]x∈[k],kRR(x)kRR(x)kRR(x) 的分布可以表示为以下两部分的加权混合:
kRR(x)=keϵ0+k−1⋅ν+eϵ0−1eϵ0+k−1⋅1x, kRR(x) = \frac{k}{e^{\epsilon_0} + k - 1} \cdot \nu + \frac{e^{\epsilon_0} - 1}{e^{\epsilon_0} + k - 1} \cdot \mathbf{1}_x, kRR(x)=eϵ0+k−1k⋅ν+eϵ0+k−1eϵ0−1⋅1x,
其中:
- ν\nuν 表示均匀分布 U[k]U[k]U[k];
- 1x\mathbf{1}_x1x 是总是输出 xxx 的分布。
这种分解有助于将 kRRkRRkRR 的分析简化为多个分布之间的加权混合。
2. kRRkRRkRR 的隐私分析
在洗牌模型中,每个局部随机化器 R(i)R(i)R(i) 通过 kRRkRRkRR 来处理输入数据点。洗牌操作 AsAsAs 将 nnn 个随机化器的输出重新排列后提供给服务器。
(1) 构造 R(i)R(i)R(i) 的分布分解
根据 Theorem 4.1 的分析,对于每个 R(i)R(i)R(i),其输出分布 R(i)(z1:i−1,x)R(i)(z_{1:i-1}, x)R(i)(z1:i−1,x) 被分解为:
R(i)(z1:i−1,x1b)=q⋅Q1(i)(z1:i−1,x1b)+(1−q)⋅Q0(i)(z1:i−1), R(i)(z_{1:i-1}, x_1^b) = q \cdot Q_1^{(i)}(z_{1:i-1}, x_1^b) + (1 - q) \cdot Q_0^{(i)}(z_{1:i-1}), R(i)(z1:i−1,x1b)=q⋅Q1(i)(z1:i−1,x1b)+(1−q)⋅Q0(i)(z1:i−1),
其中:
- Q1(i)Q_1^{(i)}Q1(i) 表示依赖于数据点 x1bx_1^bx1b 的分布;
- Q0(i)Q_0^{(i)}Q0(i) 表示与 x1bx_1^bx1b 无关的背景分布;
- q=eϵ0−1eϵ0+1q = \frac{e^{\epsilon_0} - 1}{e^{\epsilon_0} + 1}q=eϵ0+1eϵ0−1,用于控制 Q1(i)Q_1^{(i)}Q1(i) 的权重。
通过洗牌后,R(i)R(i)R(i) 的多次调用输出被随机排列为多项分布 MultNom(n−1;p,p,p,1−3p)\text{MultNom}(n-1; p, p, p, 1-3p)MultNom(n−1;p,p,p,1−3p)。
(2) 隐私参数的计算
利用 Theorem 4.1 的结论,洗牌后的分布 PPP 和 QQQ 的不可区分性由以下隐私参数 ϵ\epsilonϵ 控制:
Corollary 4.2 分析 kRRkRRkRR 在洗牌模型中隐私放大的效果,假设 R(i)R(i)R(i) 是一个基于 kRRkRRkRR 的局部随机化器,则对于邻居数据集 X0,X1X_0, X_1X0,X1,洗牌模型的隐私参数 ϵ\epsilonϵ 满足以下界限:
ϵ≤ln(1+(eϵ0−1)⋅(4⋅2(k+1)log(4/δ)(eϵ0+k−1)kn+4(k+1)kn)), \epsilon \leq \ln\left(1 + (e^{\epsilon_0} - 1) \cdot \left(4 \cdot \frac{\sqrt{2(k + 1) \log(4/\delta)}}{\sqrt{(e^{\epsilon_0} + k - 1)kn}} + \frac{4(k + 1)}{kn}\right)\right), ϵ≤ln(1+(eϵ0−1)⋅(4⋅(eϵ0+k−1)kn2(k+1)log(4/δ)+kn4(k+1))),
当 kkk 较小时,结果与 Theorem 3.1 一致;而当 kkk 增大时,结果中的 ϵ\epsilonϵ 会随 kkk 的增加而显著优化。
在 Corollary 4.2 的推导中,k+1k + 1k+1 的出现是由于我们需要引入额外的调整因子,解释如下。同时,我们会详细补充化简公式中的每一步,特别是第 4 步的细节。
3. kRRkRRkRR 中 kkk 增大的影响
(1) 隐私放大的增强
随着 kkk 增加,kRRkRRkRR 的均匀分布成分 ν\nuν 的权重增加,使得洗牌后输出分布 PPP 和 QQQ 更难区分,从而进一步降低隐私参数 ϵ\epsilonϵ。
隐私放大的效果可以总结为:
- 当 kkk 较小时,隐私参数 ϵ\epsilonϵ 的缩减主要由 eϵ0e^{\epsilon_0}eϵ0 控制;
- 当 kkk 增大时,分布的稀疏性 ppp 增强,从而隐私放大的效果更显著。
(2) 实际意义
在实际场景中:
- kRRkRRkRR 提供了一种简单但高效的局部随机化机制;
- 随着 kkk 增大,可以减少每个数据点的隐私风险,同时维持良好的准确性。
4. 总结
Corollary 4.2 利用 Theorem 4.1 的隐私放大结果,对 kRRkRRkRR 提供了更细致的分析。其主要结论是:
- 随着 kkk 增大,洗牌模型中的隐私放大效果会显著增强;
- 当 kkk 和 ϵ0\epsilon_0ϵ0 较大时,隐私参数 ϵ\epsilonϵ 按 eϵ0kn\frac{e^{\epsilon_0}}{\sqrt{kn}}kneϵ0 缩减。
这一结果不仅从理论上验证了 kRRkRRkRR 的隐私优势,还为实际部署提供了优化方向。
5 Applications
5.1 Frequency and Distribution Estimation
这一部分讨论如何在洗牌模型(Shuffle Model)下,通过隐私放大(Privacy Amplification)设计一种高效的频率估计和分布估计算法,同时在隐私保护和效用(精度)之间达到接近最优的权衡。
问题背景
频率估计和分布估计的定义
- 频率估计(Frequency Estimation):
给定一个数据集 X∈[k]nX \in [k]^nX∈[k]n,目标是估计每个元素 i∈[k]i \in [k]i∈[k] 的频率向量 p(X)p(X)p(X):
p(X)i=1n∣{j∈[n]∣xj=i}∣, p(X)_i = \frac{1}{n} \left| \{ j \in [n] \mid x_j = i \} \right|, p(X)i=n1∣{j∈[n]∣xj=i}∣,
即每个元素在数据集中出现的频率。
- 分布估计(Distribution Estimation):
给定一个分布 ppp,我们从中采样 nnn 个独立同分布(i.i.d.)样本,目标是估计分布向量 ppp。- 评价指标是 ℓ2\ell_2ℓ2 误差(均方误差):
E[∥p−p^∥22]≤α2, E[\| p - \hat{p} \|_2^2] \leq \alpha^2, E[∥p−p^∥22]≤α2,
其中 p^\hat{p}p^ 是算法的输出,期望值取决于算法和样本生成过程的随机性。
两者的关系
对于 nnn 个样本,如果我们用频率估计器 p(X)p(X)p(X) 估计分布向量 ppp,其误差为:
EX∼pn[∥p−p(X)∥22]≤1n. E_{X \sim p^n}[\| p - p(X) \|_2^2] \leq \frac{1}{n}. EX∼pn[∥p−p(X)∥22]≤n1.
因此,频率估计问题可以直接推广为分布估计问题,仅需额外的 1n\frac{1}{\sqrt{n}}n1 的误差项。
相关工作
在本地差分隐私(Local Differential Privacy, LDP)模型中,已有许多算法能够解决频率和分布估计问题。主要研究目标是优化以下三方面:
- 精度(Accuracy):即最小化估计误差;
- 通信成本(Communication):减少用户发送的比特数;
- 隐私参数 ϵ0\epsilon_0ϵ0 和效用的权衡。
- Acharya 等人在 [ASZ19] 中设计了一种效率高、通信量低的 ϵ0\epsilon_0ϵ0-DP 算法,可以达到渐近最优的精度:
E[∥p(X)−p^∥22]=O(1n+keϵ0n(eϵ0−1)2), E[\| p(X) - \hat{p} \|_2^2] = O\left( \frac{1}{n} + \frac{k e^{\epsilon_0}}{n (e^{\epsilon_0} - 1)^2} \right), E[∥p(X)−p^∥22]=O(n1+n(eϵ0−1)2keϵ0),
每个用户的通信成本为 logk+2\log k + 2logk+2 位。
- Feldman 和 Talwar 在 [FT21] 提出了一个改进算法,实现了相同的精度,但代价是服务器端解码时间较慢。
主要贡献
利用洗牌模型中的隐私放大效应,本文进一步改进了频率和分布估计的算法,使其满足以下特性:
- 具有接近中心化模型的最优误差;
- 保留较低的通信成本(logk+2\log k + 2logk+2 位);
- 满足洗牌模型下的 (ϵ,δ)(\epsilon, \delta)(ϵ,δ)-差分隐私。
具体地,通过 Theorem 5.2,给出了频率估计问题的隐私与精度结果。
Theorem 5.2:主要结论
结论
存在一个 (ϵ,δ)(\epsilon, \delta)(ϵ,δ)-DP 协议 AsAsAs,其频率估计误差为:
E[∥p−p^∥22]=O(klog(1/δ)(ϵn)2+1n). E[\| p - \hat{p} \|_2^2] = O\left( \frac{k \log(1/\delta)}{(\epsilon n)^2} + \frac{1}{n} \right). E[∥p−p^∥22]=O((ϵn)2klog(1/δ)+n1).
- 当 nnn 较大时,误差的主要来源是 klog(1/δ)(ϵn)2\frac{k \log(1/\delta)}{(\epsilon n)^2}(ϵn)2klog(1/δ),这与中心化模型中的最优误差相差仅 O(log(1/δ))O(\sqrt{\log(1/\delta)})O(log(1/δ)) 因子。
通信与计算成本
- 每个用户发送 logk+2\log k + 2logk+2 位消息;
- 服务器端解码时间为 O(n+k)O(n + k)O(n+k)。
证明过程
目标:证明对于任意相邻数据集 X0X_0X0 和 X1X_1X1,算法 AsAsAs 的输出满足 (ϵ,δ)(\epsilon, \delta)(ϵ,δ)-不可区分性。
步骤 1:隐私参数的设定
- 设 ϵ0\epsilon_0ϵ0 为局部随机化器的隐私参数,取值为:
ϵ0={ϵn16log(1/δ)当 ϵ≤log(1/δ)/n;log(ϵ2n100log(1/δ))当 ϵ∈(log(1/δ)/n,1).
\epsilon_0 =
\begin{cases}
\frac{\epsilon \sqrt{n}}{16 \sqrt{\log(1/\delta)}} & \text{当 } \epsilon \leq \sqrt{\log(1/\delta)/n}; \\
\log\left( \frac{\epsilon^2 n}{100 \log(1/\delta)} \right) & \text{当 } \epsilon \in \left( \sqrt{\log(1/\delta)/n}, 1 \right).
\end{cases}
ϵ0=⎩⎨⎧16log(1/δ)ϵnlog(100log(1/δ)ϵ2n)当 ϵ≤log(1/δ)/n;当 ϵ∈(log(1/δ)/n,1).
2. 根据 Theorem 3.1,在洗牌模型下,局部 ϵ0\epsilon_0ϵ0-DP 随机化器的洗牌输出 AsAsAs 满足 (ϵ,δ)(\epsilon, \delta)(ϵ,δ)-DP,其中:
ϵ=O((1−e−ϵ0)eϵ0log(1/δ)n+eϵ0n). \epsilon = O\left( \frac{(1 - e^{-\epsilon_0}) \sqrt{e^{\epsilon_0} \log(1/\delta)}}{\sqrt{n}} + \frac{e^{\epsilon_0}}{n} \right). ϵ=O(n(1−e−ϵ0)eϵ0log(1/δ)+neϵ0).
步骤 2:结合已有算法
- 使用 [ASZ19] 中的局部随机化器 ALDPA_{\text{LDP}}ALDP,该随机化器具有以下误差:
E[∥p(X)−p^∥22]=O(1n+keϵ0n(eϵ0−1)2).
E[\| p(X) - \hat{p} \|_2^2] = O\left( \frac{1}{n} + \frac{k e^{\epsilon_0}}{n (e^{\epsilon_0} - 1)^2} \right).
E[∥p(X)−p^∥22]=O(n1+n(eϵ0−1)2keϵ0).
2. 结合 ϵ0\epsilon_0ϵ0 的设定,将其代入误差公式,得到最终结果:
E[∥p−p^∥22]=O(klog(1/δ)(ϵn)2+1n). E[\| p - \hat{p} \|_2^2] = O\left( \frac{k \log(1/\delta)}{(\epsilon n)^2} + \frac{1}{n} \right). E[∥p−p^∥22]=O((ϵn)2klog(1/δ)+n1).
总结
通过利用洗牌模型的隐私放大效应和现有的局部 DP 算法,本文设计了一种高效的频率估计算法,具有接近中心化模型的最优误差,并且保持了低通信成本和单轮交互。
5.2 Privacy Analysis of Private Stochastic Gradient Descent
这一部分讨论了如何利用隐私放大结果分析差分隐私的随机梯度下降(Differentially Private SGD, DPSGD)算法,尤其是对使用 无放回抽样 的 SGD 进行隐私分析。相比传统的有放回抽样,使用无放回抽样更高效且更贴近实际应用。
背景
经验风险最小化(ERM)与随机梯度下降(SGD)
- 给定一个目标函数:
L(θ)=∑i=1nℓ(θ,xi), L(\theta) = \sum_{i=1}^n \ell(\theta, x_i), L(θ)=i=1∑nℓ(θ,xi),
其中:
- xix_ixi 是第 iii 个数据点;
- ℓ(θ,xi)\ell(\theta, x_i)ℓ(θ,xi) 是损失函数;
- θ∈Rd\theta \in \mathbb{R}^dθ∈Rd 是待优化的参数。
- 梯度下降法:
在每一步通过梯度更新:
θt+1=θt−ηt⋅∇L(θt), \theta_{t+1} = \theta_t - \eta_t \cdot \nabla L(\theta_t), θt+1=θt−ηt⋅∇L(θt),
其中 ηt\eta_tηt 是学习率,∇L(θt)\nabla L(\theta_t)∇L(θt) 是目标函数的梯度。
3. 随机梯度下降(SGD):
每次更新只用一个样本计算梯度:
θt+1=θt−ηt⋅∇ℓ(θt,xi), \theta_{t+1} = \theta_t - \eta_t \cdot \nabla \ell(\theta_t, x_i), θt+1=θt−ηt⋅∇ℓ(θt,xi),
xix_ixi 是从数据集中随机抽取的样本。
差分隐私的随机梯度下降
为了保证隐私,Bassily, Smith 和 Thakurta 等提出了一种基于差分隐私的 SGD【BST14】,主要特点是:
- 梯度裁剪:
将梯度投影到 ℓ2\ell_2ℓ2 范围内,以限制梯度的敏感性:
g~i=∇ℓ(θ,xi)max(1,∥∇ℓ(θ,xi)∥2).
\tilde{g}_i = \frac{\nabla \ell(\theta, x_i)}{\max(1, \|\nabla \ell(\theta, x_i)\|_2)}.
g~i=max(1,∥∇ℓ(θ,xi)∥2)∇ℓ(θ,xi).
2. 添加噪声:
在每一步的梯度中加入零均值的各向同性高斯噪声:
g^i=g~i+bi,bi∼N(0,σ2Id). \hat{g}_i = \tilde{g}_i + b_i, \quad b_i \sim \mathcal{N}(0, \sigma^2 I_d). g^i=g~i+bi,bi∼N(0,σ2Id).
无放回抽样
- 无放回抽样是从数据集中按照随机顺序处理每个样本(例如打乱数据集顺序)。
- 本文的隐私放大结果使得 无放回抽样 的隐私分析与 有放回抽样 的结果相当。

Proposition 5.3: 隐私保证
主要结论
在满足 ϵ0≤log(n16log(2/δ))\epsilon_0 \leq \log\left(\frac{n}{16 \log(2/\delta)}\right)ϵ0≤log(16log(2/δ)n) 时,Algorithm 2 满足:
- 隐私保证:
(ϵ,δ+O(eϵδ0n))-DP, (\epsilon, \delta + O(e^\epsilon \delta_0 n))\text{-DP}, (ϵ,δ+O(eϵδ0n))-DP,
其中 ϵ\epsilonϵ 为:
ϵ=O((1−e−ϵ0)(eϵ0log(1/δ)n+eϵ0n))。
\epsilon = O\left((1 - e^{-\epsilon_0}) \left(\sqrt{\frac{e^{\epsilon_0} \log(1/\delta)}{n}} + \frac{e^{\epsilon_0}}{n} \right)\right)。
ϵ=O((1−e−ϵ0)(neϵ0log(1/δ)+neϵ0))。
2. 改进:
- 相较于 BST14 的有放回抽样分析结果:
ϵ=O(log(1/δ)(eϵ0−1)/n), \epsilon = O\left(\sqrt{\log(1/\delta)} (e^{\epsilon_0} - 1) / \sqrt{n}\right), ϵ=O(log(1/δ)(eϵ0−1)/n),
本文方法在 ϵ0>1\epsilon_0 > 1ϵ0>1 时,隐私损失缩减了一个 Θ(eϵ0)\Theta(\sqrt{e^{\epsilon_0}})Θ(eϵ0) 的因子。
证明概述
关键思路
- 每一步的更新过程可以视为一个局部随机化器 R(i)R(i)R(i),该随机化器满足 (ϵ0,δ0)(\epsilon_0, \delta_0)(ϵ0,δ0)-DP。
- 在无放回抽样的情况下,随机打乱数据集 π(X)\pi(X)π(X) 后,整个过程等效于洗牌模型的隐私放大机制。
- 根据 Theorem 3.8,可以推导出整个 SGD 过程的隐私保证。
证明步骤
- 表示单步更新:
将每次更新表达为局部随机化器 R(i)(z1:i−1,x)R(i)(z_{1:i-1}, x)R(i)(z1:i−1,x),其中:
R(i)(z1:i−1,x)=θ^i=θ^i−1(z1:i−1)−ηi(∇ℓ(θ^i−1(z1:i−1),x)+bi)。 R(i)(z_{1:i-1}, x) = \hat{\theta}_i = \hat{\theta}_{i-1}(z_{1:i-1}) - \eta_i (\nabla \ell(\hat{\theta}_{i-1}(z_{1:i-1}), x) + b_i)。 R(i)(z1:i−1,x)=θ^i=θ^i−1(z1:i−1)−ηi(∇ℓ(θ^i−1(z1:i−1),x)+bi)。
这是一个 (ϵ0,δ0)(\epsilon_0, \delta_0)(ϵ0,δ0)-DP 随机化器。
2. 利用洗牌模型放大隐私:
- 在洗牌模型下,Theorem 3.8 给出隐私放大的公式。
- 代入洗牌后的隐私参数,得出整个 SGD 的 (ϵ,δ)(\epsilon, \delta)(ϵ,δ)-DP 隐私保证。
- 分析改进:
- 相较于 BST14 的分析,无放回抽样结合隐私放大效应使得 ϵ\epsilonϵ 在 ϵ0>1\epsilon_0 > 1ϵ0>1 时更紧凑,减少了 Θ(eϵ0)\Theta(\sqrt{e^{\epsilon_0}})Θ(eϵ0) 因子。
比较与拓展
- 与 BST14 的对比:
- BST14 使用有放回抽样,隐私分析基于子抽样放大和高级组合规则,复杂性较高且效果不如本文的隐私放大结果。
- 多次遍历数据的影响:
- 多次遍历数据会引入额外的 log(1/δ)\sqrt{\log(1/\delta)}log(1/δ) 因子,具体分析需要使用集中的差分隐私工具(如 [ACGMMTZ16])。
- 扩展到批量 SGD:
本文的分析可直接推广到批量 SGD,将每个批次视为一个数据点,隐私分析结果仍然成立。
单次数据遍历的隐私分析改进
Proposition 5.3 与 [BST14] 的对比分析
- [BST14] 的隐私保证
- 场景:基于有放回抽样的差分隐私 SGD。
- 隐私分析方法:
- 依赖于 子抽样隐私放大 和 高级组合规则 来分析多轮采样的隐私损失。
- 最终隐私保证为 (ϵ,nδ+δ0/n)(\epsilon, n\delta + \delta_0/n)(ϵ,nδ+δ0/n),其中 ϵ\epsilonϵ 为:
ϵ=O(log(1/δ)nlog(1+eϵ0−1n)+(eϵ0−1)log(1+eϵ0−1n)).
\epsilon = O\left(\sqrt{\log(1/\delta)n \log\left(1 + \frac{e^{\epsilon_0} - 1}{n}\right)} + (e^{\epsilon_0} - 1) \log\left(1 + \frac{e^{\epsilon_0} - 1}{n}\right)\right).
ϵ=O(log(1/δ)nlog(1+neϵ0−1)+(eϵ0−1)log(1+neϵ0−1)).
- 高 ϵ0\epsilon_0ϵ0 的近似简化:
ϵ≈log(1/δ)⋅(eϵ0−1)n.
\epsilon \approx \sqrt{\log(1/\delta)} \cdot \frac{(e^{\epsilon_0} - 1)}{\sqrt{n}}.
ϵ≈log(1/δ)⋅n(eϵ0−1).
2. Proposition 5.3 的隐私保证
- 场景:基于无放回抽样的差分隐私 SGD。
- 隐私分析方法:
- 通过洗牌模型的隐私放大定理(Theorem 3.8)直接分析。
- 最终隐私保证为 (ϵ,δ+O(eϵδ0n))(\epsilon, \delta + O(e^\epsilon \delta_0 n))(ϵ,δ+O(eϵδ0n)),其中:
ϵ=O((1−e−ϵ0)(eϵ0log(1/δ)n+eϵ0n)). \epsilon = O\left((1 - e^{-\epsilon_0})\left(\sqrt{\frac{e^{\epsilon_0} \log(1/\delta)}{n}} + \frac{e^{\epsilon_0}}{n}\right)\right). ϵ=O((1−e−ϵ0)(neϵ0log(1/δ)+neϵ0)).
- 高 ϵ0\epsilon_0ϵ0 的隐私改进:
- 随着 ϵ0>1\epsilon_0 > 1ϵ0>1,Proposition 5.3 的隐私损失更小,与 [BST14] 相比,改进因子为:
Θ(eϵ0)。 \Theta(\sqrt{e^{\epsilon_0}})。 Θ(eϵ0)。
多次数据遍历的影响
- 隐私损失的累积
- 对于多次遍历数据,隐私损失会增加。
- Proposition 5.3 的分析中,额外的 log(1/δ)\sqrt{\log(1/\delta)}log(1/δ) 因子反映了隐私损失的累积。
- 现有改进
- [ACGMMTZ16, WBK21] 使用集中差分隐私(Concentrated Differential Privacy, CDP)优化了多次遍历的隐私损失,去掉了额外的 log(1/δ)\sqrt{\log(1/\delta)}log(1/δ) 因子。
Proposition 5.3 的扩展
- 批量 SGD
- 将每个批次(batch)大小为 bbb 的数据视为一个数据点,即将整个数据集表示为 DbD^bDb。
- 对批量 SGD 的隐私分析仍然适用 Proposition 5.3 的框架。
- 优化算法的通用性
- 本文方法可作为 [BKMTT20] 中优化算法分析的基础,为更多差分隐私算法提供分析工具。
总结
- 主要优势:Proposition 5.3 在单次数据遍历场景下显著改善了隐私保证,尤其是在 ϵ0>1\epsilon_0 > 1ϵ0>1 时。
- 局限性:多次遍历数据时,隐私损失的额外增长仍然是一个挑战,但可以通过集中差分隐私进一步改进。
- 实际应用:本文方法不仅适用于单次数据遍历的 SGD,还可扩展到批量 SGD 和其他差分隐私优化算法。
本文在无放回抽样的私有 SGD 上,通过结合洗牌模型的隐私放大效果,提出了更紧凑的隐私分析框架。在 ϵ0>1\epsilon_0 > 1ϵ0>1 的高隐私损失场景下,显著提高了隐私效用的平衡,同时分析方法简单直接,适用于实际应用。
2147

被折叠的 条评论
为什么被折叠?



