赢得AI 网络攻防赛:可验证性才是核心
2026-01-10 10:01 北京
关键不在于模型多强大或数据多丰富,而在于谁掌握了能够快速可靠判断对错的工具。
2025 年夏天,在法兰克福举行的BSides大会上演讲时,我一开始抛出了一直困扰着我的问题:我们是正在进入 AI 寒冬,还是迎来网络安全领域的 AI春天?
在经历了 NXS 供应链攻击、Anthropic关于国家级对手将 AI 武器化的报告,以及 DARPAAIxCC 网络挑战赛的结果后,我确信:春天已经到来,而且进攻方正在赢得胜利。
但原因并非你所想的那样。这与更好的模型或更强的算力无关,而与更本质的东西有关:可验证性(Verifiability)。
回到 2001 年。那时我 16 岁,痴迷于《反恐精英》(CS),并深信自己打得不错,直到 JoeBot出现。这个机器人是另一座德国城市的 16 岁少年,为自己的高中毕业项目(Abitur project)编写的神经网络。
最令我震撼的是:这个微型神经网络只有 77 个参数。相比之下,今天的DeepSeek拥有超过 7000 亿个参数。然而,那个机器人却让游戏变得无法进行
——它实在太强了。
那个少年面临的最大挑战不是构建网络,而是获取训练数据。他尝试模拟对局、录制比赛、抓取一切可以抓取的数据来训练模型,并最终解决了这个问题。
那次经历点燃了我对神经网络的痴迷。我买了第一本关于反向传播的书,开始了自己的实验。更重要的是,它教会了我关于机器学习的关键一课,而整个行业花了 20 年才完全理解:瓶颈不在于生成(Generation),而在于验证(Verification)。
OpenAI的 Jason Wei 在今年早些时候发布的博客中提到了一套思维模型,它重塑了我对安全领域 AI 的思考:
训练 AI 完成某项任务的难易程度,与该任务的可验证性成正比。
想想看:数独很难解,但验证起来极其简单——只需检查每行、每列和每个九宫格是否拥有唯一的数字。国际象棋?验证起来也很容易:你赢了还是输了?减肥建议?生成起来很容易,但验证其有效性可能需要数年时间。
这不仅仅是理论。看看过去五年中取得突破的每一项重大 AI 基准测试:数学竞赛、编程挑战、医学考试。它们都有一个共同特征——利用“预言机”(Oracles)进行机械化验证的成本非常低。
其含意是深远的:在验证容易的地方,AI 将会获胜;在验证困难的地方,防御将会失败。
网络攻击自带一些优秀的验证器,其结果可以通过一系列二元化指标进行确认,包括是否拿到了 Shell(控制权)、漏洞利用是否成功、目标数据是否拖出,以及执行whoami命令时当前权限是否已提升至 root。
数据令人震惊。OpenAI 的系统卡显示,模型在 CTF(夺旗赛)挑战中的成功率在短短 8 个月内从 20% (GPT-4) 飙升至 90% 以上 (OpenAI o3 模型)。这不是渐进式改进,而是阶跃式的演进。
在 HackerOne 的排行榜上,AI 初创公司 xbow 成为了排名第一的漏洞发现者。不是人类,而是机器。即使它们只能解决 10% 的漏洞类型,这已经产生了变革性的价值。
但核心洞察在于:单纯的 LLM(大语言模型)无法独自做到这一点,真正发挥作用的是“智能体架构。
而且,情况还在变得更糟。Incalmo 的论文显示,通过简单地将一个智能体拆分为“编排者”加多个“执行者”,多主机攻击的成功率从 0/10 跃升至 9/10(部分成功)。仅仅是一次架构调整,就使得10次攻击尝试中有9次获得(部分)成功。
DARPA AIxCC 的结果也说明了同样的情况:自主系统在一年内将漏洞检测率从 37% 提升到了 77%,补丁成功率从 25% 翻倍至 61%。
模式已经非常清晰:智能体 + 工具 + 验证器 = 结果。 通过将智能体、工具与验证机制相结合,可以直接产生可验证的结果。进攻方天然就拥有“无需额外成本的结果判定机制”,而防御方则正淹没在噪音中,面临信号与噪声高度混杂、难以有效判别的现实困境。
这是一个令人不安的事实:大多数防御性安全任务都处于“难以验证”的象限。
SIEM(安全信息与事件管理):算一笔账:每天 100 万条事件,其中只有 10 条是真正的恶意事件(大约每 10 万条才有 1 条)。假设你的检测器能正确识别 99%的恶意事件,同时误报率是1%。结果是:真正的恶意事件只有9条,但却被大约10,000条误报淹没了。准确率只有 0.09%。如果你用这种信噪比极低的数据训练 AI 模型,得到的结果就是垃圾。
GRC(治理、风险与合规)和第三方风险: 情况更糟。没有客观事实,“足够安全”本身是主观的。评估需要数周,每个供应商都是独特的,数据是自报的,且噪声巨大。试着用这些来训练模型吧。
调查取证: 你可以轻易生成假设。但要验证它们?祝你好运——需要慢慢从数百万条日志条目中拼凑时间线吧。准确率始终维持在低水平。
这就是为什么那些承诺“99% 准确率”的 AI 安全助手(Copilots),从根本上具有误导性。在没有清晰验证器的前提下,它们只是在以机器速度为你提供乱七八糟的警报。
好消息是:我们已经开始看到,当你为 AI 智能体配上恰当的工具脚手架时,会发生什么。
两个近期项目的对比完美地说明了这一点:
1. Google 的 Sec-Gemini: 将 LLM 应用于取证时间线分析,但准确率在 12% 左右挣扎。因为将日志事件拼接为攻击叙事缺乏机械化真值——模型必须在没有确定性验证的情况下做出判断。
2. Microsoft 的 Project Ire: 走得更远,它为 LLM 包裹了完整的工具体系:沙箱(Project Freta)、反编译器(Ghidra, angr)、控制流图重构,以及一个“证据链”验证器智能体。结果是,在 Windows 驱动程序分类上达到了 98% 的准确率和 83% 的召回率。验证器承担了繁重的工作——LLM 只是负责编排。
同样的模型级别,结果却天差地别。验证器是唯一的变量。
Project Ire 的架构极具启发性:智能体提出的每个主张都映射回工具的输出。一个独立的验证智能体,会将这些主张与专家定义的陈述进行交叉验证。当系统无法验证某个结论(例如疑似反调试行为)时,它会明确标记为“缺乏支持”,而不是编造自信(幻觉)。
这就是蓝图。不要问:“我如何把 AI 添加到SOC中?”而应该问:“我能构建哪些机械化验证器,让 AI 智能体能够真正发挥作用?”
防御升级:工程化验证器,而非检测规则
真正的突破性洞察在于:我们可以通过构建更好的机械化验证器,把防御任务推进到“易于验证”的象限中。
以下是六类有效的验证器:
1. 金丝雀验证器(Canary Verifiers): 蜜罐令牌、虚假凭据、陷阱文件。这些是二进制信号。如果被访问,绝对有问题。要广泛部署这些“陷阱”,以便及时发现异常。
2. 来源与证明(Provenance & Attestation):使用签名镜像、SLSA 认证、软件清单(SBOM)等工具进行加密验证。目的是确认一个软件或文件真的来自它声称的来源。答案是二选一:对或错。
3. 重放测试框架(检测工程): 这是一个投入严重不足的领域。提取 SIEM 日志、IaC 配置(基础设施即代码),离线回放,测试检测规则是否能正确发现已知攻击。检查结果就是二选一:规则是否触发?
4. 不变性 / 代码化策略(Policy-as-Code):使用 Rego、OPA、Checkov、Cursor 等工具,把规则写成可声明的“真相”。例如:“这个存储桶绝对不能公开。”检查结果就是二选一:符合还是不符合,且可以无限扩展。
5. 沙箱与动态分析: 总有人说沙箱已死。但他们错了。我们需要更好的“训练场”——模拟真实企业环境的动态测试,而不仅仅是孤立的虚拟机。系统行为才是判断的依据。
6. 基于图的验证器:构建攻击图、可达性分析、云安全态势图。大约 95% 的漏洞在生产环境中根本不可达。通过图来判断可达性,答案依然是二选一:可达或不可达。
此外,关于“大模型作为裁判(LLM-as-a-Judge)”的研究也越来越多 —— 用 AI 来构建验证器本身。这一方向很有前景,但前提仍然是:必须锚定在机械化真值之上。如果没有这个锚点,那就是空中楼阁。
1.停止购买“检测表演”,开始要求验证。
在评估 AI 安全供应商时,问一个问题:你们如何机械化地验证输出? 如果他们说不清楚,立刻离开。精确率永远胜过覆盖范围。
2. 采取“进攻优先”的思维。
如果 AI 进攻方能在几小时内打穿系统,你的 SOC 就不可能在几周内阻止它。持续进行 AI 红队测试。让攻击结果指导路线图。了解验证器差距的最佳方式,就是让攻击者(哪怕是 AI 攻击者)为你揭示出来。
3. 构建网络安全训练场。
如今的大语言模型在私有企业数据上泛化能力不足,因为它们从未接触过这些数据。解决办法有两种:允许厂商使用你的环境来进行训练(这会遇到很大的阻力),要么投资建设共享、可验证、能模拟真实世界复杂情况的测试环境。
没有这一点,防御型 AI 永远无法实战。
在演讲一开始提出的问题:我们是在进入网络安全领域的 AI 寒冬,还是 AI 春天?在看过所有的情况——CTF 基准测试、自动化黑客研究、攻防验证质量的差距——我的答案很明确,而且自那以后一直没有改变。
进攻方正在迎来它的春天。防守方仍然在应对一团乱麻。
关键不在于模型多强大或数据多丰富,而在于谁掌握了能够快速、可靠判断对错的工具。
攻击者自带这些工具,防守方则必须刻意去构建它们。谁掌握了这些验证工具,谁就赢得了 AI 竞赛。
关于作者
谢尔盖·埃普(Sergej Epp):Sysdig首席信息安全官
ENG