抵御AI驱动的数据融合攻击:芯片安全防护的关键挑战

抵御AI驱动的数据融合攻击:芯片安全防护的关键挑战

核心要点:

通过融合白市、灰市和黑市的海量数据,攻击者能够构建目标人物及其周边环境的数字孪生体,从而使定向攻击变得更加容易。

AI与网络安全的交汇点就是数据本身。可信赖的数据融合依赖于经过身份验证和完整性校验的输入,以及可验证、可溯源的AI输出。

抵御AI驱动的数据融合攻击,关键在于建立强信任根、加密机制、安全密钥存储,以及对任何共享的个人身份信息或位置数据实施严格的匿名化与最小化处理。

随着AI系统日益强大和普及,它们正在将数据转化为越来越精确的个人生活地图。攻击者通过融合各类来源的数据,能够构建出极为详细的个人及其周围环境的数字孪生体,从而使针对特定目标的攻击更加轻而易举。一旦他们通过路由器、PC、手机或可穿戴设备渗入家庭网络,便能持续采集位置和行为数据,不断侵蚀个人隐私,甚至威胁人身安全。

在AI与网络安全的交汇地带,核心战场正是数据本身。可信赖的数据融合依赖于经过身份验证和完整性校验的输入,以及可验证、可溯源的AI输出。抵御AI驱动的融合数据攻击,关键在于建立强信任根、健壮的加密机制、安全的密钥存储,并对任何共享的个人身份信息或位置数据实施严格的匿名化和最小化处理。

为了应对不断演进的威胁,芯片和系统本身必须在设计之初就将安全性纳入考量,同时还需要具备足够的带宽、算力、隔离能力和密码学基础设施,以便在最坏情况下执行持续的完整性检查和同步操作,并确保在整个数据流转过程中不发生任何数据泄露。

Arm市场战略高级总监David Maidment指出:"AI数据融合将多个来源的数据整合起来,为AI模型提供更丰富、更全面的视图,帮助其生成更深入、更可靠的洞见。但数据融合同时也会集中敏感信息,并可能扩大攻击面。涉及的数据类型、数据所有者和系统越多,某个薄弱环节暴露或破坏整体情报池的风险就越大。"

这一威胁已在地平线上酝酿了相当一段时间。人们往往会点击屏幕上弹出的提示框同意共享数据,通常只是为了让那个图标不遮挡自己正在查看或操作的内容。但正是这些看似无足轻重的授权操作,加上大量试图窃取数据的恶意行为者,使攻击者得以构建出详细的用户画像。Synopsys安全处理器、无线与NVM战略项目总监Reed Hinkel表示:"目前市面上存在大量白市、灰市和黑市数据,攻击者根据数据来源以及是否愿意接纳不可信来源的数据或秘密的非法数据,可以将这些数据融合成一个关于某人的完整画像,甚至是数字孪生体。"

一旦某个地点(如住宅)可被监控,木马程序便能锁定特定人物。Hinkel说:"他们要么在家用路由器或电脑上植入木马,要么通过网络钓鱼攻击获取访问权限,即便是在家中也不例外。即使你在工作中接受过安全培训,家庭中的其他成员仍在不知不觉地泄露大量数据。他们根本没有意识到这一点。有时看似无害,但有时却会直接导致你不愿看到的财务损失。最大的问题在于,一旦他们进入家庭网络,就等于进入了你的所有设备。如果他们能侵入你的手机,情况更糟,因为那意味着所有与手机连接或受其控制的设备都将暴露无遗。"

这一问题已远远超出了构建个人数字孪生或数字模型的范畴。黑客甚至可以构建出你所处环境的完整数字模型。个人可穿戴IoT设备的问题尤为突出。Hinkel回忆道:"当我还在德州仪器工作时,黑客正在通过手机利用手表数据——个人健身数据——追踪士兵在建筑物周边巡逻时的行动轨迹,甚至在数据被匿名化之前就能定位到具体人员。问题在于,一旦拥有GPS及与之关联的数据,并能将其对应到某个具体的人,那么这个人100%会失去任何隐私保护,无法避免被追踪。"

利用这些数字足迹和数字数据流,借助AI构建一个详细的个人模型相对容易。应对这一问题的关键不在于控制各个独立的数据流,而在于封堵AI这一攻击向量。

Synaptics架构高级总监Mohit Arora表示:"关键在于如何打好基础,确保AI本身是可靠的而非攻击向量,因为AI本身才是真正的攻击向量,而非各个独立的数据流。如果能在数据融合层面施加影响,就能有效影响输出结果,攻击者甚至不再需要获取原始数据。"

AI从根本上改变了数据融合的方式。Arora说:"AI出现之前的数据融合非常直接,你只需关注机密性,即你在做什么以及如何做。而AI驱动的数据融合是在创造智能本身,这才是最核心的改变。本质上,它将所有独立的数据流整合在一起,形成本地智能。现在,当这种智能进入整体AI数据管道时,你必须用全新的方式来保护它。这在传统数据融合中并不是常规问题,因为你已经清楚各个独立数据集的内容,联邦AI只是一种数学运算。但在AI数据融合中,由于这可能影响模型的行为方式,你已经不再担心有人会窃取你的数据,他们可以偷,但如果他们能影响输出结果,根本不需要偷数据。这彻底改变了整个格局,因为现在你面对的是所有运行时的问题,就像AI管道一样,你在来回执行推断,读写内存通道,进行计算等等,这涉及相当大量的运行时数据操作,其攻击面实际上远大于传统计算侧——在那里,只需做好安全启动就算大功告成了。"

汽车领域的数据融合

在汽车等安全关键型应用中,这一问题尤为令人担忧。随着区域架构将多种传感器和软件工作负载整合到共享计算平台上,AI数据融合正在迅速成为标准配置。

Imagination Technologies产品管理高级总监Rob Fisher表示:"这是下一代车辆自动驾驶的核心组成部分,但同时也扩大了汽车的攻击面。为了应对这一挑战,随着工作负载集中化趋势的出现,一个关键的架构趋势正在兴起,即将安全关键型工作负载与非安全工作负载隔离,以防止跨域访问并确保工作负载之间互不干扰。这是一种降低风险的策略,旨在确保某一领域的任何故障或漏洞都能被有效遏制,使车辆能够继续安全运行。"

Imagination针对此类场景采用了硬件虚拟化技术。Fisher指出:"该技术为每个虚拟机分配专用的硬件接口和带有OSID标签的内存事务,并通过系统内存管理单元强制执行,以防止跨域访问。这一机制还辅以内置的服务质量保障、优先级管理和基于截止时间的抢占机制,包括对拒绝服务类工作负载的防护,从而帮助确保安全关键型应用保持确定性性能,并降低故障或恶意工作负载的影响。"

AI数据融合面临的最大问题在于,它通过组合来自多个半独立数据源(如环境传感器)的推断模型来放大网络安全风险,而这些数据源在设计之初并不一定是为了协同工作或相互信任的。Rambus安全IP高级技术总监Scott Best解释道:"很难事先预知,当其中某个数据源遭到攻击(例如开始向系统注入与模型训练时所摄入的正常数据差异悬殊的恶意数据)时,最终生成的模型将如何响应。从某种意义上说,你试图防御的是众多不同系统之间此前未知的黑盒交互。"

Cadence旗下Secure-IC的院士级研究员兼CTO Sylvain Guilley第一次接触AI数据融合是在汽车行业,当时他在以色列一家正在进行多摄像头图像分析的芯片公司工作。"我当时的工作是研究此类芯片的安全性,了解它们的运作方式。这是一个汽车项目,他们要求提供一个硬件安全模块(HSM)。在汽车行业,安全是首要考量,因此你需要确保芯片不能被任何人随意初始化或配置,这是对抗攻击者的第一道防线,你必须掌控自己的芯片。HSM正是实现这一点的关键——只有合法所有者才能使用该芯片或设置固件和配置。我们交付了HSM之后,他们说:'我们遇到了一个问题,因为现在流量将达到每秒1吉比特。'我们当时颇为惊讶,因为HSM被配置为执行安全启动、处理有限大小的镜像、验证签名,而他们现在告诉我们:'我们需要处理流式数据了。'随后他们又说需要另一个邮箱,因为他们要增加摄像头数量。这是进来的IPsec(互联网协议安全)流量,由于这是一个ASIL B项目,他们要求我们解决如何在高速传输下保护流式数据的问题。最初的一个顾虑是丢失数据包或帧。由于我管理的是芯片层面,无法看到完整的应用层,但我能想象到,如果系统出现轻微的不同步,导致车辆的实际位置与系统认为的位置存在偏差,那将是非常危险的。因此,我们致力于避免任何延迟和不同步问题,例如数据包丢失等。"

AI数据融合对芯片架构师的意义

AI数据融合要求在实时且大规模的场景下强制建立信任,这必须在设计阶段就进行架构规划。Rambus的Best表示:"风险不仅仅在于数据暴露,更在于运营完整性。如果攻击者能够破坏某个输入流,哪怕只是引入微妙的偏差,他们就有可能影响整个模型的输出。你需要一条从硅片出发向外延伸的信任链。硬件信任根、系统级证明以及供应链中的认证组件必须协调一致。如果任何一个阶段无法证明自身的完整性,整个系统就会受到质疑。芯片必须主动强制建立信任,而不是假设信任已然存在。"

这一切始于硬件信任根、隔离执行环境以及各模块之间经过认证的数据流转。Best说:"如果每个数据源(包括硬件和软件的证明)都经过加密验证,并在被允许作为推断操作的输入来源之前完成身份认证,那么攻击者可利用的攻击面就会大幅缩小。除了强大的硬件信任根、受保护的密钥存储和供应链安全概念的保障之外,还需要一个不可磨灭、防篡改的密码学硬件,能够将其可信操作延伸出去,将不可信软件转化为高级推断引擎可以信赖的输入。如果没有一条通向可信硬件的结构化、明确的路径,所有在软件中执行的内容都是建立在不安全的基础之上的。"

数据库和密钥需要加密,任何需要人脸或生物特征激活的技术都需要检查是否存在潜在的安全风险。Hinkel表示:"我们将会看到类似于人类多因素认证的多阶段机制。对于设备而言,这一趋势也将越来越普遍,并且可能出现多种建立信任根的方式。归根结底,目前已有可用于安全存储的技术,包括PUF(物理不可克隆功能)、密钥封装,以及以加密混淆状态存储密钥,这增加了额外的保护层,而这是直到我们开始推动相关能力落地后才得以实现的。在此之上还有密码学保障,确保设备具备后量子就绪能力,因为量子计算时代的到来可能比我们预想的要早得多。设备行业在如何应对这一挑战上仍处于不同阶段,但各方都承认这一现实。尽管如此,事后补加后量子能力仍面临重大挑战。"

Arm的Maidment表示,芯片架构师应当思考硬件在建立信任中应发挥怎样的作用,包括如何在不将敏感的多源数据暴露给未经授权的软件、基础设施运营商或共享同一系统的其他工作负载的前提下对其进行处理。"硬件支持的安全性为这一问题域提供了重要的基础。信任根、内存保护、安全启动、证明机制以及机密计算,都有助于验证平台、隔离敏感工作负载,并在数据处理过程中保护和证明数据的完整性。"

例如,Arm的机密计算架构(CCA)使工作负载能够在硬件隔离区域内运行,限制特权软件和其他租户对此类工作负载的可见性。与此同时,证明机制允许数据所有者验证其数据正在由预期软件处理,并确保数据集本身的完整性。

没有任何单一的安全措施能够单独奏效。AI数据融合需要多种方法的综合运用。Maidment说:"硬件隔离有助于在数据处理过程中保护数据,但各组织还必须确保所融合数据的完整性和来源可追溯性,实施适当的访问控制,保障软件供应链安全,并保护系统与设备之间的通信。"

无论数据类型或漏洞性质如何,以下通用原则均适用:

在设计阶段保障安全,并在部署后持续监控;

遵守质量规范和最佳实践,同时积极拥抱相关法规;

实施通用数据保护,包括数据认证和完整性检查;

针对拼接攻击等场景,实施数据流同步和正确排序方面的专项数据保护措施。

Guilley表示:"这不仅仅是芯片的问题。你谈论的是AI,如果把第一到三层与第七层进行对比,当你理解数据和一切都需要流向处理单元时,归根结底都要经过晶体管。我们必须确保拥有足够的带宽、计算速度和处理能力,以执行所有检查,包括签名验证,以及确保时间戳正确对齐的必要检查。你还必须确保具备适当的数据隔离仓。某些数据流可能是不应该混合的,对于其中一部分,你希望进行关联分析,但对另一些流而言,混合或交换将带来安全隐患。你知道数据会以特定速率到来,最坏情况是每秒1吉比特,数据包很小,并且每个数据包都需要滚动更新密钥。你必须保持在不停滞、不丢包的情况下执行解封装和完整性验证的能力。这意味着这是一个以系统层面、数据流为导向的系统。互联网的美妙之处在于,如果数据不经过某个节点,它总能找到其他路径。但归根结底,服务质量可能无法达到预期,而在汽车领域,当你设计一颗芯片时,必须为最坏情况而设计,而安全性处于关键路径之上。网络安全的核心在于风险分析,如果你低估了风险,你的分析就可能产生偏差。"

这里的挑战在于理解组合风险。Synaptics的Arora指出:"数据分类问题是一大风险,完整性攻击已经变得比单纯的数据窃取危险得多,因为在典型架构中,你可能认为自己能保持数据机密性——'我要加密它'——但如果攻击者能够影响或破坏融合后的数据,加密就毫无意义。那么你要如何检查融合数据的完整性呢?因为这些都涉及模型和激活值。你必须确保被融合的数据受到完整性保护。因此,完整性成为了一个更大的问题,而我认为行业对此还没有给予足够的重视,因为这在内存侧是个更难解决的问题。模型本身成为了攻击目标,因为如果攻击者能够操纵融合后的输入,就能影响推断结果。到那时,模型不仅变得毫无价值,甚至会更加危险。"

结语

展望未来,随着智能体AI工作负载越来越多地整合来自多个来源的数据,建立对处理环境和数据本身的信心将变得至关重要,Arm的Maidment指出:"内置于芯片中的安全功能为这种信任提供了关键基础,帮助各组织在处理敏感数据的同时,降低基础设施层面的威胁暴露。"

然而,AI数据融合也引发了关于AI与网络安全交汇点的更深层次思考。Guilley说:"我们如何让AI与网络安全真正交汇,而不是将它们简单叠加在一起、互不相干?交汇点在哪里、是什么?甚至退一步来看,AI是什么?AI是关于处理数据的——你获取数据,将其转化为模型,生成内容,进行推断。你可能还会有一些生成的数据来强化模型,但归根结底,你所处理的是数据,而且是多模态的。那么,网络安全是什么?网络安全是保护数据的科学。网络安全不是保护你的汽车,也不是保护驾驶员或车内乘客,网络安全是关于保护数据的。所以,网络安全与AI的交汇点就是数据。而我们需要建立的机制其实非常简单——对输入的数据进行检查,对输出的数据进行认证。"

Q&A

Q1:什么是AI数据融合攻击?为什么它比传统数据窃取更危险?

A:AI数据融合攻击是指攻击者将来自白市、灰市、黑市的多种数据整合,借助AI构建个人或其环境的精细数字孪生体,从而实施精准攻击。与传统数据窃取不同,攻击者不一定需要窃取原始数据,只需影响融合数据的完整性或模型的推断结果,就能让AI模型输出错误信息,使模型不仅失效,甚至更具危险性。这种完整性攻击的攻击面远大于传统计算侧的安全问题。

Q2:汽车行业如何应对AI数据融合带来的安全风险?

A:汽车行业正通过区域架构将多种传感器和软件工作负载集中到共享计算平台,这在提升自动驾驶能力的同时也扩大了攻击面。主要应对措施包括:将安全关键型工作负载与非安全工作负载进行硬件隔离,防止跨域访问;采用硬件虚拟化技术为每个虚拟机分配专用接口和带标签的内存事务;同时通过内置服务质量保障和基于截止时间的抢占机制,确保安全关键应用的确定性性能,防止恶意工作负载干扰。

Q3:在芯片设计层面,如何从根本上防御AI数据融合攻击?

A:芯片设计层面的防御核心是建立从硅片出发的完整信任链,主要措施包括:硬件信任根、隔离执行环境和经过密码学验证的数据流转;使用PUF、密钥封装等技术实现安全密钥存储;确保系统具备足够的带宽和算力执行持续完整性检查;部署后量子密码学能力;以及通过Arm CCA等机密计算架构在硬件隔离区内处理敏感工作负载,同时利用证明机制验证数据处理环境的可信度。