当前位置：首页 > news >正文

恶意安全三方计算：基于批量验证与GPU加速的高效隐私机器学习推理

news 2026/5/25 8:21:16

1. 项目概述当恶意安全遇上高效计算在隐私保护机器学习PPML的实际落地过程中我们常常面临一个核心矛盾如何在确保安全性的前提下实现接近明文计算的性能传统的半诚实安全模型假设参与者会“诚实地”遵循协议但这在现实商业或医疗合作中往往过于理想。一旦有参与者心怀不轨试图通过偏离协议来窃取他人隐私或破坏计算结果整个系统的安全性便荡然无存。因此恶意安全模型应运而生它要求协议即使在面对主动作恶的参与者时也能保证计算的正确性和输入的隐私性。然而恶意安全通常意味着巨大的性能开销。额外的零知识证明、一致性检查等机制使得恶意安全协议的计算和通信成本远高于半诚实协议。本文要探讨的正是一个试图打破这一僵局的方案一个面向三方计算3PC场景的恶意安全协议它通过一系列精巧的设计特别是批量验证技术在保证恶意安全的同时将乘法等核心操作的通信开销大幅降低并利用GPU加速实现了高性能的隐私保护机器学习推理。简单来说这个框架的目标是让三个互不信任的参与方能够像信任一个可信第三方那样安全地协同完成一个机器学习模型的推理或训练且任何一方都无法独自窥探或篡改他人的输入数据与中间结果。它不是为了解决所有MPC问题而是精准地瞄准了“诚实多数”3方中至多1方恶意这一经典且实用的场景并在其中寻求性能的极致优化。2. 核心思路从“逐个检查”到“批量打包验证”要理解这个协议为何高效关键在于抓住其核心验证逻辑的转变。在早期的恶意安全MPC协议中验证每一个乘法操作的正确性都需要独立的、昂贵的密码学操作如承诺、零知识证明这导致了通信轮次和带宽的线性增长。2.1 传统验证的瓶颈想象一下三个厨师P0, P1, P2合作做一道秘制酱料每人持有一部分独家香料秘密份额。他们需要将多种香料混合乘法运算。在半诚实设定下大家按菜谱协议操作即可。但在恶意设定下我们需要防止某个厨师偷偷加入劣质香料或偷看别人的配方。传统方法好比每混合两种香料就请一个中立裁判来检查一次混合过程是否合规这无疑会让做菜速度慢得惊人。2.2 批量验证的灵感本协议采用的思路是“延迟审计批量处理”。它允许厨师们先按照流程快速完成所有香料的混合在线计算阶段生成大量的中间混合品乘法三元组或内积结果。最后在“上菜”之前通过一个高效的批量验证流程一次性检查所有混合操作的正确性。其数学基础是将多个在整数环Z_{2^ℓ}上的验证问题“打包”转换到多项式环Z_{2^ℓ}[x]/f(x)上进行。这里ℓ是比特长度如64f(x)是一个d次不可约多项式。协议的核心验证协议Π_{MultVerify}和Π_{InnerVerify}正是基于此。为什么选择多项式环在多项式环上我们可以利用其代数结构。多个独立的数值验证问题可以通过给每个问题分配一个多项式上的不同“评估点”来编码。然后验证一个随机线性组合的结果是否正确就能以极高的概率推断出所有原始问题是否正确。这类似于抽查质检不是检查每一件产品而是随机抽取几件混合后的样品进行检测。如果样品合格那么整批产品合格的概率就非常高。协议中通过多轮R轮的维度约减Π_{Reduce}操作将需要验证的向量对数量不断折半最终浓缩到只需验证一对极大地减少了最终的验证开销。一个简单的类比假设要验证100个等式a_i * b_i c_i是否都成立。传统方法需验证100次。批量验证则生成一个随机向量r计算A Σ(r_i * a_i),B Σ(r_i * b_i),C Σ(r_i * c_i)然后只需验证一次A * B C是否成立。如果原始等式中有一个不成立那么最终等式极大概率也不成立。本协议的思路与此类似但更复杂、更严谨且工作在秘密分享的背景下。2.3 三方复制秘密分享的基础该协议建立在“三方复制秘密分享”之上。对于一个秘密值x其分享⟨x⟩由三个份额组成(m, [x]_1, [x]_2)。其中m由 P0 持有称为“MAC值”用于后续验证。[x]_1由 P1 持有。[x]_2由 P2 持有。并且满足关系x m - [x]_1 - [x]_2在相应的环上。任何一方都无法单独恢复x需要至少两方合作。这种分享方式天然支持线性运算加法和常数乘法的本地计算无需通信。挑战在于非线性的乘法运算这正是协议需要重点保护和验证的部分。3. 恶意安全乘法协议详解乘法是机器学习计算图尤其是神经网络中最核心、最耗时的操作之一。矩阵乘、卷积最终都归结为大量的乘加运算。因此一个高效的恶意安全乘法协议是整个框架的基石。3.1 协议流程与角色分工协议Π_{Mult}的核心目标是让三方安全地计算⟨z⟩ ⟨x⟩ * ⟨y⟩并确保结果是正确的。整个过程分为预处理阶段和在线阶段这是MPC的典型模式旨在将耗时的密码学操作前置以优化在线计算速度。预处理阶段离线这个阶段与输入x, y无关目的是预先生成一个“乘法三元组”(⟨a⟩, ⟨b⟩, ⟨c⟩)其中c a * b。这个三元组是随机的并且其正确性将通过后续的批量验证来保证。随机数生成P0和P1共同生成随机数a1, b1P0和P2共同生成a2, b2P1和P2共同生成a3, b3。通过这种方式任何单一参与方都不知道完整的a或ba a1 a2 a3,b同理。本地构造分享各方利用上述随机数本地构造出⟨a⟩和⟨b⟩的复制秘密分享。例如⟨a1⟩被构造为(0, a1, 0)意味着P0持有MAC值0P1持有份额a1P2持有份额0。计算c的分享这是关键步骤。各方需要计算⟨c⟩ ⟨a⟩ * ⟨b⟩的分享。由于a和b的完整值无人知晓直接计算不可行。协议利用Beaver乘法技巧x*y (x-aa)*(y-bb) ... (x-a)(y-b) (x-a)b a(y-b) ab。其中(x-a)和(y-b)可以在线阶段通过重构公开值称为ε和δ得到而a, b, ab就是预处理生成的三元组。因此在预处理阶段各方需要通过一次安全的乘法协议计算出⟨c⟩的初始分享。这个过程本身可能也需要验证它被融入到后续的批量验证中。在线阶段当实际的输入⟨x⟩和⟨y⟩就绪后掩码打开各方本地计算⟨ε⟩ ⟨x⟩ - ⟨a⟩和⟨δ⟩ ⟨y⟩ - ⟨b⟩然后协作重构出公开值ε和δ。由于a, b是随机的ε和δ不会泄露x和y的信息。结果计算各方本地计算⟨z⟩ ⟨c⟩ ε * ⟨b⟩ δ * ⟨a⟩ ε * δ。根据Beaver公式这正好等于⟨x * y⟩。关键延迟验证此时并不立即验证⟨z⟩的正确性。相反这个乘法操作产生的“需求”——即需要验证(⟨a⟩, ⟨b⟩, ⟨c⟩)这个三元组是否正确以及在线阶段的计算是否被正确执行——被记录下来放入一个待验证的批次G中。批量验证阶段后处理在所有乘法操作可能成千上万次的在线阶段都完成后系统调用Π_{MultVerify}协议对整个批次G中的所有三元组进行一次性的、高效的验证。问题转换如图7所示协议将|G|个在环Z_{2^ℓ}上的三元组验证问题通过引入随机线性组合转换到多项式环Z_{2^ℓ}[x]/f(x)上变成一个对单个“聚合”三元组的验证问题。维度约减通过R轮Π_{Reduce}操作将需要验证的向量对数量指数级减少每轮减半。最终验证对最后剩下的一对向量调用一个轻量级的验证子协议Π_{InnerVerify}进行检查。如果通过则以极高的概率表明整个批次G中的所有乘法都是正确的否则中止协议。3.2 通信开销分析这是该协议性能优势的量化体现。对于一个乘法操作预处理阶段平均摊销通信量为ℓ比特。这主要来自于生成随机数和对和交互。在线阶段通信量为2ℓ比特。这主要用于重构两个公开值ε和δ。验证阶段这是额外的开销但被所有乘法操作分摊。其通信量为O(R * ℓ * d)其中R log|G|d是多项式次数。当批量大小|G|很大时R增长缓慢因此每个乘法摊销到的验证开销变得很小。实操心得批量大小的权衡批量大小|G|是性能调优的关键参数。|G|越大摊销效果越好每个乘法的验证开销越低。但是|G|越大意味着在线阶段需要缓存更多的中间状态内存开销增加并且验证阶段的延迟需要等到所有在线计算完成也会变长。在实践中需要根据具体任务的计算图规模和可用内存来设定一个合适的批次大小。对于神经网络推理这种层数固定、操作数可预估的任务可以将整个前向传播的所有乘法作为一个批次以达到最优的摊销效果。4. 从乘法到机器学习框架关键组件构建仅有高效的乘法还不够一个完整的PPML框架需要处理线性操作矩阵乘、卷积、非线性激活函数ReLU, Sigmoid以及定点数运算中的精度处理截断。4.1 高效内积与卷积在机器学习中向量内积、矩阵乘法和卷积占据了绝大部分计算量。本协议将内积视为一系列乘法的扩展并设计了对应的恶意安全内积协议Π_{Inner}。内积协议Π_{Inner} 计算⟨z⟩ Σ_{i1}^n ⟨x_i⟩ * ⟨y_i⟩。其半诚实版本可以看作是对一个2次n元多项式的求值预处理仅需ℓ比特通信在线阶段需2ℓ比特。为了升级到恶意安全同样采用了图7所示的批量验证协议Π_{InnerVerify}其原理与乘法批量验证完全相同。对于维度为n的内积其通信开销与n次独立的乘法相近但通过批量验证其验证开销被所有内积操作共同分摊。卷积与矩阵乘法的实现在框架中一个m维输出的卷积或矩阵乘法被视作m个独立的内积。因此只需调用m次Π_{Inner}协议即可。这种设计保持了模块的简洁性并且由于内积协议本身的高效和可批量验证性使得这些线性层也能享受到恶意安全下的高性能。4.2 恶意安全截断协议机器学习通常使用定点数来模拟实数。两个k比特小数精度的定点数相乘后小数部分会扩展为2k比特需要进行截断以保持精度不变。截断操作本身不是线性的在秘密分享下无法直接进行。协议Π_{Trunc}的设计如图8所示该协议的核心思想是“预计算截断对”。在预处理阶段各方合作生成一个随机数r及其截断后的值r truncate(r, t)t为截断位数的秘密分享⟨r⟩和⟨r⟩并且保证r确实是r的正确截断。随机比特生成P0和P1生成随机比特列表{b1_j}P0和P2生成{b2_j}。构造r和r计算r Σ 2^j * (b1_j ⊕ b2_j)r truncate(r, t)。通过巧妙的构造可以在秘密分享的形式下利用Π_{Inner}协议计算出⟨r⟩和⟨r⟩。在线阶段对于输入⟨x⟩各方公开ε x - r。然后本地计算⟨y⟩ ⟨r⟩ ε。由于ε是公开的且r是r的截断因此y就是x的截断结果。优势该协议最大的亮点在于在线阶段无需任何通信。所有复杂的密码学操作都在预处理阶段完成在线阶段仅需一次本地加法和一次公开重构速度极快。这比一些需要在线交互的截断方案如SWIFT的独立截断协议有显著优势。注意事项概率性误差需要明确的是这是一种概率性截断协议。它引入了一个最低有效位的误差误差概率与数据的有效范围有关。在大多数机器学习应用中这种极小的、有界的误差是可以接受的因为它对模型精度的影响微乎其微远低于模型本身的噪声和量化误差。但在对数值精度要求极其严苛的场景下需要评估此误差的影响。4.3 非线性函数评估edaBits的运用ReLU、Sigmoid等非线性函数是神经网络的灵魂但其计算在算术秘密分享上非常低效。标准的做法是将其转换到布尔电路基于XOR和AND上进行计算这需要daBits或edaBits。daBits与edaBitsdaBit一个数据对(⟨r⟩_ℓ, ⟨r⟩_1)其中r ∈ {0,1}⟨r⟩_ℓ是r在较大环Z_{2^ℓ}上的算术分享⟨r⟩_1是r在布尔环Z_2上的布尔分享。两者表示的是同一个比特。edaBitdaBit的多比特扩展{⟨r⟩_ℓ, {⟨r[i]⟩_1}_{i∈[ℓ]}}其中r是ℓ比特的整数{⟨r[i]⟩_1}是r的每个比特的布尔分享。如何使用edaBit计算非线性函数假设我们要计算一个非线性函数f(x)其中x以算术分享⟨x⟩_ℓ形式存在。比特提取利用一个预生成的edaBit{⟨r⟩_ℓ, {⟨r[i]⟩_1}}。各方本地计算⟨Δ⟩_ℓ ⟨x⟩_ℓ - ⟨r⟩_ℓ。协作公开Δ x - r。由于r是随机的Δ不泄露x。将公开的Δ的每个比特Δ[i]转化为布尔分享⟨Δ[i]⟩_1这可以本地完成因为Δ是公开的。现在各方拥有了r的每个比特的布尔分享⟨r[i]⟩_1以及Δ的每个比特的布尔分享⟨Δ[i]⟩_1。通过一个全加器Full Adder布尔电路计算⟨x[i]⟩_1 ⟨r[i]⟩_1 ⊕ ⟨Δ[i]⟩_1考虑进位链。最终得到x的每个比特的布尔分享{⟨x[i]⟩_1}。布尔电路评估在得到x的比特分享后就可以用高效的布尔电路MPC协议如Garbled Circuit或GMW来计算f(x)的布尔分享。因为f(x)通常可以表示为比特的逻辑运算。分享转换可选如果需要将结果f(x)的布尔分享⟨y⟩_1转换回算术分享⟨y⟩_ℓ可以借助另一个daBit通过公式⟨y⟩_ℓ Δ ⟨r⟩_ℓ - 2Δ·⟨r⟩_ℓ实现其中Δ y ⊕ r被公开。edaBit的生成如图9所示生成edaBit本身也需要安全的乘法操作。协议通过两轮乘法或一轮内积来构造。关键在于生成edaBit的乘法操作同样可以被纳入到前述的批量验证框架中从而保证了整个流程的端到端恶意安全性。5. 实战GPU加速与性能调优理论设计再精妙最终也需要通过实践来检验。该框架的一个突出特点是其面向GPU平台的高效实现基于修改版的Piranha框架。5.1 实验环境与对比基准硬件8核CPU32GB内存4张Nvidia 2080 Ti GPU。网络模拟了局域网LAN、城域网MAN和广域网WAN三种延迟与带宽条件。对比协议选择了该领域公认的先进方案进行对比包括半诚实/恶意安全的ABY3、BLAZE以及恶意安全的SWIFT协议。核心参数环大小ℓ64对应64位整数多项式次数d64定点数小数部分精度为16比特。5.2 核心参数R的优化选择批量验证中的维度约减轮数R是一个关键的性能权衡参数。R越大最终需要验证的数据维度越小验证阶段的通信量越低。但R每增加1就增加一轮通信延迟。实测发现在数据量较小如|G|2^18时R不宜过大否则额外的通信轮次带来的延迟会抵消通信量减少的收益。在MAN环境下R7左右是最优的。在数据量巨大如|G|2^20且网络带宽受限的WAN环境下应选择更大的R如9或10因为此时带宽是主要瓶颈减少通信量的收益远大于增加一轮延迟的成本。调优建议在实际部署中可以根据预估的批量大小和网络状况RTT、带宽通过简单的基准测试来确定最优的R值。可以预先制作一个查找表。5.3 通信与性能对比结果通信开销图10的结果非常直观。对于单次乘法当批量规模较小时本协议的验证开销占比相对明显总通信量可能略高于SWIFT。但是随着批量规模|G|的增长其摊销优势尽显。在大规模输入下本协议的乘法总通信量约为SWIFT的50%ABY3的15%。对于带截断的1024维内积通信量仅为SWIFT的50%ABY3的0.02%。这凸显了批量验证对复合操作内积包含大量乘法的巨大优化效果。运行时间图11和图12展示了运行时间的对比。小数据量由于额外的验证轮次本协议在线时间可能略慢于SWIFT和ABY3。大数据量/高深度在数据饱和大规模矩阵或电路深度较大如32层、128层时本协议凭借更优的通信复杂性和对GPU并行计算的更好利用实现了高达2倍的吞吐量提升。特别是在深度较大的电路中本协议和ABY3的轮次优势使得它们受网络延迟的影响小于SWIFT。5.4 神经网络推理端到端评估协议在三个经典CNN模型上进行了测试一个浅层网络S-NN、LeNet和VGG-16。表II和图14揭示了在真实ML任务中的性能表现。关键发现验证开销占比对于小模型S-NN验证阶段的时间占总运行时间的比例相当可观。这是因为计算本身很快而验证的固定开销如通信轮次显得突出。计算与通信瓶颈转移随着模型变大变复杂LeNet - VGG在线执行阶段通信延迟成为绝对主导。图14清晰显示在LeNet和VGG的在线阶段通信耗时远大于GPU计算耗时。优化网络带宽和减少通信轮次是提升性能的关键。验证阶段计算延迟成为主导。验证阶段的核心是大量的本地多项式运算和少量的通信因此GPU的计算能力成为瓶颈。可行性即使对于VGG-16这样的中等规模模型在LAN环境下也能在秒级约1.3秒在线计算0.26秒验证完成一次恶意安全的隐私保护推理这证明了该框架的实用性。实操心得网络环境决定架构这些数据给我们的启示是在设计部署方案时必须首要考虑网络条件。跨数据中心WAN通信是主要瓶颈。应尽可能增大批量大小|G|以减少摊销通信量并选择最优的R值。可能需要对计算任务进行聚合减少频繁的交互。内部集群LAN/MAN随着模型复杂度和计算量上升GPU计算和验证阶段的计算也会成为瓶颈。此时拥有强大的GPU算力同样重要。可以考虑采用更高带宽的InfiniBand网络来缓解通信压力。6. 常见问题与深度思考在实际部署和复现此类协议时会遇到一些典型问题。以下是我基于经验的一些总结。6.1 安全性假设与威胁模型Q这个协议能防什么样的攻击者A该协议在“诚实多数”模型下达到恶意安全。具体来说在三个参与方中最多允许一个被敌手完全控制恶意腐败其余两方必须是诚实的。敌手可以任意偏离协议如发送错误消息、中止协议。协议保证1)隐私性恶意方无法学到诚实方的任何私有输入信息2)正确性除非协议中止否则输出的结果一定是按照预定函数正确计算得出的。Q如果两个参与方合谋呢A该协议不抵抗两方合谋攻击。在三方复制秘密分享中任何两方合谋就能恢复出完整的秘密。这是“诚实多数”模型的固有局限。如果需要抵抗任意两方合谋需要采用更复杂的秘密分享方案如Shamir秘密分享和协议这通常会带来更高的开销。6.2 精度与误差处理Q定点数截断带来的概率性误差会影响模型精度吗A在绝大多数计算机视觉和自然语言处理任务中影响可以忽略不计。现代神经网络本身对噪声和数值扰动具有一定的鲁棒性。概率性截断引入的误差是均匀分布的、有界的通常是最低有效位级别的其影响远小于模型训练中的随机梯度下降噪声或模型量化带来的误差。在部署前建议在公开数据集上对比明文浮点模型与使用该协议含截断的定点加密模型的精度以确认可接受性。Q如何选择定点数的小数位精度kA这是一个经验性参数。通常k16或k20对于许多模型已经足够。太小的k会导致精度损失和模型失效太大的k会增加通信量因为环大小ℓ固定整数部分比特变少和溢出风险。一个实用的方法是在明文环境下用定点数算术模拟推理逐步降低k直到模型精度开始显著下降然后选择那个临界值作为安全值。6.3 工程实现挑战Q如何高效管理预计算材料三元组、截断对、edaBitsA这是工程上的核心挑战。预计算材料与输入数据无关可以提前大量生成并存储。建议流水线化将预计算作为一个常驻后台服务持续生成材料并存入缓存队列。按需生成根据任务的计算图精确估算所需各类材料的数量和规格避免生成过多或类型不匹配的材料。内存与磁盘交换对于超大规模任务预计算材料可能无法全部放入内存。需要设计高效的缓存机制将近期要用的材料放在内存其余的序列化到磁盘。分布式生成预计算本身也可以并行化。可以部署多个预计算节点协同生成材料提升整体吞吐量。QGPU实现有哪些需要注意的坑A内核函数设计MPC中的许多操作如本地份额相加、与公开常数相乘是高度并行的简单操作。应设计高效的CUDA内核避免过多的核函数启动开销和全局内存访问。数据传输GPU与主机内存之间、以及网络之间的数据传输是瓶颈。应尽可能让数据留在GPU显存中减少PCIe拷贝。使用GPU Direct RDMA技术如果网络硬件支持可以让GPU显存直接与网卡通信大幅提升效率。同步点协议中的通信轮次是天然的同步点。需要精细安排计算和通的重叠计算-通信重叠以隐藏通信延迟。例如在等待上一轮网络消息的同时可以计算下一层中不依赖于该消息的部分。6.4 协议扩展与局限性Q这个协议能用于训练吗A本文主要聚焦于推理。理论上该框架也可用于训练因为训练的核心操作前向传播、反向传播、梯度更新同样由线性操作和非线性激活组成。然而训练涉及迭代和大量的中间状态会带来新的挑战状态管理模型的权重和优化器状态如动量需要以秘密分享形式持续维护增加了复杂性。动态计算图某些训练操作如Dropout会引入随机性需要协调各方的随机数生成器。性能要求训练的计算量远大于推理对通信和计算效率的要求更高。虽然批量验证的优势依然存在但需要更极致的优化。目前已有一些工作将类似思想扩展到训练但通常需要更多的工程努力。Q能否支持多于三方的场景A该协议的核心——基于多项式环的批量验证和复制秘密分享——可以推广到n方、诚实多数即恶意方少于n/2的场景。但具体细节需要调整例如秘密分享方案可能变为n选t的门限分享批量验证的公式也需要相应修改。通信复杂度会随着参与方数量增加而增长但批量验证带来的摊销优势依然有效。

查看全文

http://www.zskr.cn/news/1376317.html