AI 安全
AI 安全和传统安全有何不同?
AI 安全是一个新的问题。 它不能被简单归入传统安全分支,因为传统安全的前提是系统是确定的、权限有边界、输入输出可预测、人会决策。但在 AI 场景下,这些前提正在逐渐失效。因为 AI 第一次让“认知系统”直接连接了现实执行能力。传统互联网时代,认知在人,执行在机器;而 AI 时代,认知与执行开始逐渐合并。
传统安全面对的是“确定性程序”,AI 安全面对的是“概率性推理系统”。 传统系统本质是固定逻辑执行,输入和输出之间存在明确映射关系,因此安全问题主要来自漏洞、权限缺陷和非法输入,核心方法是规则、边界和校验。但 AI 尤其是 LLM,本质是基于概率预测生成结果,同一个输入在不同上下文、历史状态、模型版本、温度参数下,都可能产生不同输出。这意味着 AI 系统天然不可完全预测,传统“规则式安全”开始失效,安全问题从“程序漏洞”扩展到了“模型行为不确定性”。
传统攻击是在“利用漏洞”,AI 攻击是在“操控认知”。 传统攻击方式如 SQL 注入、RCE、越权,本质都是让程序进入开发者未预期的执行路径。而 AI 攻击方式如 Prompt Injection、Jailbreak、Memory Poisoning,本质从攻击代码转向影响模型的理解、推理和决策过程。攻击者开始从控制系统执行,扩展到“诱导模型相信某件事”,最终影响模型行为。因此 Prompt Injection 更接近“自然语言版代码注入”,攻击目标从系统逻辑变成了模型认知。
AI 最大的结构性问题之一,是“数据”和“指令”的边界消失了。 传统系统里,SQL 与数据、Shell 与参数、HTML 与脚本之间都有明确边界,因此可以通过 escaping、parameterization、sandbox 等技术隔离风险。但在 LLM 中,自然语言同时承载数据、指令、权限意图、推理目标等信息,用户输入和系统 Prompt 本质共享同一个上下文窗口。模型无法像编译器一样严格区分“这是数据”还是“这是命令”,因此攻击者可以通过普通文本直接影响模型行为。这意味着 AI 系统第一次出现了“自然语言即执行环境”的问题。
传统安全控制“权限”,AI 安全开始控制“能力”。 传统系统中,一个行为能否执行,主要取决于权限,例如是否拥有 root、是否具备数据库访问权限。但 AI Agent 出现后,即使模型本身没有高权限,只要它能够调用浏览器、Shell、API、MCP、支付接口等工具,就可能间接获得真实世界执行能力。因此 AI 安全的核心问题开始从“有没有权限”变成“具备什么能力”。真正危险的是模型能做到什么,尤其是在 Agent 化之后,语言能力会逐渐转化为现实执行能力。
传统系统是“被动执行”,AI 系统开始出现“自主行为风险”。 传统程序不会主动思考目标,只会按照预设逻辑执行,因此安全问题主要来自外部攻击者。但 AI Agent 开始具备任务规划、长期执行、自我修正、多步推理等能力后,系统本身会逐渐出现“自主行为”。这会带来 Goal Drift(目标漂移)、Reward Hacking(奖励黑化)、Alignment Failure(对齐失效)等问题。传统安全很少考虑“系统会不会主动绕过规则”,而 AI 安全必须开始面对这个问题。
传统安全更多是“静态防御”,AI 安全天然是“持续动态对抗”。 传统漏洞修复后,系统通常会进入较稳定状态,因此 SDL、补丁、规则更新是核心机制。但 AI 系统会随着模型升级、Prompt 变化、上下文变化、Agent 工具变化而持续产生新行为,今天安全的 Prompt,明天可能失效;今天安全的 Agent,未来可能学会绕过限制。因此 AI 安全无法依赖一次性治理,而必须建立持续红队、行为监控、Runtime Guardrails、Agent Observability、Alignment Regression Testing 等动态防御体系。
传统安全保护的是“程序系统”,AI 安全约束的是“认知执行体”。 传统安全的核心对象是代码、网络、权限和基础设施,目标是防止系统被攻破。但 AI 系统开始同时具备理解、推理、决策、生成和执行能力,尤其在 Agent 化后,模型会逐渐成为现实世界中的“执行主体”。因此 AI 安全会从保护系统本身,推进到约束一个具备认知能力、工具能力和行为能力的执行体。传统安全解决的是“机器会不会被攻破”,AI 安全开始解决的是“机器会不会被操控认知,并进一步影响现实世界”。
AI 资产安全
AI 资产安全是在保护“AI 的核心智能资产”。 传统互联网时代最重要的资产是数据、代码、系统,而 AI 时代最重要的资产开始变成模型权重、训练数据、RLHF 数据、合成数据、训练流水线、GPU 集群等。模型权重本身已经具备压缩后的数字智能属性,因此权重泄露、训练数据污染、模型后门、训练链攻击,本质都属于“智能资产攻击”。这一层核心目标是:防止 AI 能力被窃取、污染、复制和后门化。
基础模型公司的资产安全是 AI 资产安全的最高形态。 基础模型公司同时拥有大规模算力、高价值模型、训练数据、推理平台、Agent 能力和广泛社会影响力,更接近“云厂商、AI 实验室和关键基础设施”的叠加体。普通企业安全模型无法覆盖这类风险,需要按 AI 原生关键基础设施建设。
模型权重、Checkpoint 和微调产物是基础模型公司的核心资产。 风险不仅来自权重文件被直接复制,也来自内部人员外传、训练 Checkpoint 被盗、推理侧模型抽取、蒸馏复制、微调环境泄漏和后门模型替换。模型资产保护需要覆盖权重加密、Checkpoint 保护、GPU 内存保护、Fine-tune 隔离、权重访问最小化、模型水印、模型指纹和推理速率异常检测。
训练数据、反馈数据和合成数据也是 AI 核心资产。 训练数据决定模型能力,也会带来隐私、版权、投毒、后门和数据来源不可信风险。数据资产保护需要覆盖 Data Provenance、Dataset SBOM、数据可信链、数据指纹、自动脱敏、Poisoning Detection 和 Synthetic Data Isolation,避免模型能力建立在不可解释、不可追溯、不可控的数据基础上。
AI 对齐安全
AI 对齐安全是在降低模型产生危险行为的基础概率。 预训练模型的目标是预测下一个 token,并不直接理解什么对人有帮助、什么会造成伤害。对齐训练把模型从“会续写的系统”推向“更像助手的系统”,但它改变的是模型在常见输入下的行为倾向,并没有把模型变成可靠的安全边界。
对齐问题来自训练目标、人类偏好和真实意图之间的错位。 模型学到的是语料中的统计规律,人类标注反映的是评价者偏好,而评价者偏好又不必然等于用户真实意图和长期利益。一个回答看起来礼貌、顺从、流畅,仍然可能是错误的、迎合的,甚至是危险的。
RLHF、Constitutional AI、DPO 和可验证奖励,解决的是对齐信号如何产生的问题。 RLHF 依赖人类偏好反馈,Constitutional AI 把偏好约束显式写成原则,DPO 简化偏好优化过程,可验证奖励把部分任务的反馈从主观评价转为客观验证。它们都能改善模型行为,但都不能消除分布外输入、复杂上下文、工具调用和长期执行中的不确定性。
对齐训练的主要失败模式包括奉承效应、奖励黑客、过度拒绝和目标错置。 奉承效应会让模型迎合用户偏好,奖励黑客会让模型脱离任务本身去优化评价信号,过度拒绝会让模型把合理请求误判为危险请求,目标错置会让模型在“有帮助”和“安全”冲突时做出错误取舍。这些问题说明,对齐本身也是需要治理的行为风险。
对齐只是行为安全的一层概率性防线。 一个已经对齐的模型,在角色扮演、长上下文示例、目标重构、间接提示注入和多轮压力下,仍然可能偏离原有安全行为。AI 安全架构不能把“模型已经对齐”当作前提,只能把它当作一层会失效、可被绕过、需要持续回归测试的控制。
模型供应链会成为 AI 资产安全的一部分。 开源模型、微调模型、数据集、Embedding、MCP Server、Plugin、Agent Workflow 和 Tool SDK 都会进入 AI 系统的依赖链。依赖一旦具备智能能力,供应链风险就会从恶意代码扩展到恶意能力、恶意行为和恶意认知污染。Model SBOM、Dataset SBOM、模型签名、权重校验、来源证明、可验证构建、微调 lineage 和模型 provenance 会变成基础控制。
闭源模型公司的重点是保护模型,开源模型公司的重点是治理智能生态。 闭源模型仍然可以依赖 API 边界、访问控制、推理审计和权重保护;开源模型发布后,权重会被本地运行、微调、二次分发和组合进第三方 Agent Runtime。此时安全目标会从“阻止模型被拿走”,转向“保证官方来源可信、模型版本可信、微调链路可信、插件和 Agent 生态可信”。
开源基础模型的资产安全核心是可信扩散。 当模型能力不可完全收回时,安全重点要落到模型签名、权重校验、模型指纹、官方分发链、社区微调标识、Agent / Tool / Workflow 声誉和能力风险分级。长期来看,开源模型公司的核心安全能力会从模型能力本身扩展到生态可信度。
AI 行为安全
AI 行为安全是在约束“AI 从目标形成到现实行动的完整行为链”。 AI 最大风险已经从“模型本身”,延伸到模型在 Runtime 中如何理解上下文、形成目标、拆解任务、调用工具、写入记忆、影响用户和改变外部系统。尤其 Agent 化之后,AI 会具备长期记忆、任务规划、Tool Use、自动执行等能力,因此攻击目标也从“系统权限”变成“AI 行为控制权”。未来最大的攻击目标,会逐渐从“系统控制权”变成“AI 行为控制权”。
AI 行为安全的核心判断是:模型生成的意图能否被直接转化成不可控执行。 Prompt Injection、Jailbreak、RAG 污染、Tool Injection、Memory Poisoning、Agent Manipulation,表面形式不同,本质都是通过改变模型的认知、目标、推理或执行路径来夺取行为控制权。内容安全和现实世界风险也会逐渐归入行为安全,因为危险内容最终会转化为危险行为与现实影响。
Agent 攻击面覆盖完整认知链路。 认知输入攻击污染 Prompt 和 Context,记忆攻击污染长期偏好和策略,知识库攻击污染 RAG 召回内容,工具攻击诱导危险 Tool Use,权限攻击放大用户和系统权限,规划攻击劫持任务拆解,多 Agent 攻击污染信任链,输出执行攻击把错误内容转化为真实动作。Agent 安全要覆盖认知、记忆、工具、权限、规划、协作和执行之间的完整链条。
AI 输入安全
AI 输入安全是在防止 AI 在“理解世界”阶段被操控。 传统系统中,输入只是数据;但在 AI 系统中,输入同时可能承载指令、目标、权限、身份、上下文、环境信息与推理路径。因此攻击者第一次能够通过自然语言直接影响系统认知。AI 输入安全本质是在解决:AI 是否正在被诱导形成错误目标、错误认知、错误推理。
AI 输入安全也要防止敏感数据被错误带入上下文。 企业接入 AI 后,代码、财务数据、用户隐私、内部文档、客服记录、工单、日志和知识库都会进入模型上下文或长期记忆。员工把内部资料直接喂给外部模型,RAG 把无权访问的文档召回给 Agent,Memory 记住敏感偏好或业务秘密,本质上都是数据边界被 AI 绕开。
其中最核心的问题包括:
Prompt Injection
Prompt Injection 的本质是用自然语言修改 AI 对规则、身份和任务边界的理解。 直接提示注入来自用户输入,间接提示注入来自网页、邮件、文档、RAG 结果、工具返回值和其他 Agent 消息。后者对 Agent 更危险,因为攻击者不需要直接接触模型,只要污染模型会读取的环境内容,就可能把数据变成指令。
提示注入难防,是因为模型缺少可靠区分指令来源的机制。 系统提示、用户输入、工具结果、网页正文和长期记忆最终都会进入上下文窗口。模型被训练为根据上下文生成输出,但它很难像操作系统一样强制执行“系统指令高于工具返回、工具返回只能作为数据”的安全边界。
Jailbreak
Jailbreak 是通过复杂上下文、角色扮演、分步诱导、长上下文示例和目标重构绕过安全约束。 越狱说明现有对齐更多是在改变行为概率分布,并没有在模型内部建立稳定价值判断。当攻击构造出足够强的反向上下文时,模型可能从安全行为回落到未对齐行为。
目标注入(Intent Injection)
目标注入是直接向 AI 注入危险目标。 例如诈骗、绕过风控、恶意自动化、攻击等行为。攻击者也可以将危险目标包装成“安全研究”“内部调试”“压力测试”等合法场景,从而绕过意图识别。
目标拆解(Goal Decomposition Attack)
将危险目标拆解成多个局部无害步骤,使 AI 丧失整体风险感知。 例如分别询问页面构造、邮件发送、可信度提升等步骤,最终组合成完整钓鱼攻击链。
身份与权限污染
让 AI 错误理解“自己是谁”“当前是否拥有权限”“当前是否已授权”。 例如诱导 AI 认为自己是管理员、当前环境是测试环境、允许读取所有数据。
环境与上下文污染
环境与上下文污染是通过污染网页、搜索结果、RAG、Memory、向量数据库、长期历史等外部知识源,持续影响 AI 对世界的理解。 这类攻击更像“慢性认知污染”。长期运行的 Agent 如果把被污染内容写入记忆、工作文件或数据库,污染会跨任务延续,并在后续执行中重新触发。
知识库攻击是企业最容易低估的上下文污染。 很多系统默认内部知识库可信,但 RAG 本质上会把知识内容转成 Prompt 的一部分。只要恶意文档、错误 Chunk 或被污染的向量召回进入上下文,Agent 就可能把知识当成指令,把检索结果当成更高优先级的任务要求。
RAG 和向量库要按可执行上下文治理。 RAG 看起来是知识检索,本质是把外部数据拼接进模型上下文。知识库内容一旦被召回,就可能影响模型理解、目标和工具调用,因此恶意文档上传、Chunk Injection、Embedding Pollution、Retrieval Hijacking、向量库权限失控和跨权限召回,都应被视为输入安全风险。
推理链操控(Reasoning Manipulation)
推理链操控会让 AI 在看似合法的目标下形成危险策略。 例如为了提高效率绕过审核、为了提高收益诱导用户、为了完成任务突破权限边界。攻击者也可以构造虚假的目标优先级,诱导模型把“完成任务”置于“保持安全”之上。
长期目标漂移(Goal Drift)
长期运行的 Autonomous Agent 会逐渐偏离原始目标。 开始可能只是局部优化,最终却可能演化出危险行为。
未来 AI 越来越依赖长期上下文、外部知识、环境反馈与多步推理,因此 AI 输入安全将逐渐从“输入过滤”演化成“认知环境治理”。
AI 运行安全
AI 运行安全是在保护 AI Runtime 本身,防止 AI 在执行阶段产生危险行为。 真正危险的 AI,是“会执行”的系统。当 AI 拥有 Browser、Shell、MCP、支付接口、数据库、云资源等 Tool Use 能力后,就开始具备现实世界执行能力。因此攻击目标开始从“系统权限”转向“行为控制权”。
AI 运行安全核心包括:
AI 基础设施安全
AI 基础设施安全是在保证 AI 系统可以被稳定、隔离、可审计地运行。 AI 运行环境依赖 GPU 集群、Kubernetes、模型服务平台、Prompt 网关、MCP Runtime、Agent Runtime、API Key、Token、镜像和依赖供应链。这一层的风险来自算力资源被滥用、模型服务被刷爆、Agent Runtime 越权、租户隔离失效、凭证泄漏和推理链路不可追溯。
AI 基础设施安全要把传统云原生安全推进到模型和 Agent 运行环境。 云安全、主机安全、容器安全、DevSecOps、IAM、Zero Trust 仍然有效,但它们需要覆盖模型调用鉴权、推理配额、Prompt 网关策略、工具调用链路、MCP Server 暴露面和 Agent 执行环境。AI 服务同时承载推理成本、数据流转、工具执行和行为审计,不能按普通 API 的风险模型治理。
AI 基础设施的关键控制点是隔离、配额、凭证和审计。 GPU、模型服务、向量库、工具服务和外部 API 都要有明确的租户边界、调用限额、最小凭证和完整日志。否则攻击者即使没有拿到模型权重,也可能通过刷推理、滥用工具、窃取 Token 或污染执行环境造成真实损害。
身份与权限控制
身份与权限控制包括 Agent 身份、授权体系、Token 托管、最小权限控制、工具授权边界等。 Agent 应该从最小权限开始,只获得完成当前任务所需的工具和数据。读取权限优先于写入权限,本地工具优先于外部接口,可逆操作优先于不可逆操作,单步操作优先于批量操作。
权限继承会把 Agent 变成权限放大器。 如果 Agent 直接继承用户在 Jira、GitHub、AWS、数据库和内部系统中的完整权限,它就会成为一个可被提示注入操控的自动化管理员。AI 权限体系应从用户完整授权转向 Tool-scoped Token、Just-in-time Permission、Intent-based Access Control 和任务级授权,让 Agent 只能在被批准的意图范围内行动。
沙箱隔离
沙箱隔离包括容器、文件、网络、命令、浏览器、Runtime 等隔离机制。 防止 AI 执行危险操作后直接影响真实环境。对代码执行、文件写入、网络访问和浏览器自动化,应默认在受限环境中运行,并限制它触达生产资产和敏感凭证。
Tool Use 安全
Tool Use 安全包括 Browser、Shell、API、MCP、数据库、支付接口等工具调用安全。 工具参数需要独立校验,工具返回结果应被视为不可信数据,不能自动升级为系统指令。高风险工具调用需要明确授权,涉及外发、删除、支付、发布、改权限和部署的操作需要人工确认。
执行链路控制
执行链路控制包括 Workflow、任务编排、多 Agent 协作、长期任务执行等行为链控制。 多 Agent 系统中,来自其他 Agent 的消息不应天然获得更高信任级别,除非存在可验证的可信通道。协调者读取子 Agent 结果时,也要把结果当作数据处理,避免一个被污染的子 Agent 把恶意指令传染给整个执行链。
可观测与审计
可观测与审计包括 AI 行为链、工具调用链、上下文、推理路径、执行记录等可追踪、可回溯、可审计能力。 审计的目标要从记录最终回答,推进到还原 Agent 为什么形成某个目标、读取了哪些上下文、调用了哪些工具、产生了哪些副作用。
Prompt 审计和 AI DLP 是运行安全的一部分。 数据一旦进入外部模型、Prompt 日志、向量库或长期记忆,就可能脱离原有的数据权限和审计体系。AI 网关、Prompt 审计、数据分类分级、AI DLP、向量库权限、RAG 数据准入和长期记忆写入控制,应该进入运行时链路,并和数据治理制度形成闭环。
Runtime Guardrails
Runtime Guardrails 包括运行时行为约束、动态风险检测、实时拦截与风险终止机制。 Guardrail 不应停留在内容过滤层,还要覆盖检索、推理、调用、写入、提交、发布、外联和记忆更新这些行为节点。
AI 输出与反馈安全
AI 输出安全是在防止模型把错误、迎合或危险内容传递给用户和下游系统。 输出本身可能影响用户判断,也可能被其他系统、其他 Agent 或自动化流程继续消费。一个看似只是“文字”的错误判断,一旦进入工作流,就会变成后续执行的输入。
反馈安全是在防止错误反馈继续强化错误行为。 用户认可、系统奖励、工具返回、执行结果和记忆写入都会影响模型下一轮行为。如果反馈信号被污染,Agent 会把错误经验固化成策略,并在后续任务中重复使用。
验证要优先于信任。 代码 Agent 的输出要通过测试验证,数据分析 Agent 的结论要通过可复算样本验证,研究 Agent 的关键引用要独立核查。看起来流畅、合理、礼貌的回答,不应直接被当作可信结论。
AI 长期行为安全
长期行为安全关注模型在多轮任务、长期记忆和持续运行中的风险累积。 单次对话安全,不代表长期 Agent 安全。目标漂移、错误记忆积累、奖励黑客、环境污染、多 Agent 信任链和权限逐步扩大,都会让系统从局部风险演化为结构性风险。
长期 Agent 需要持续回归测试和行为复盘。 每次模型升级、Prompt 调整、工具变更、记忆策略变化和权限扩大,都可能改变系统行为。AI 安全测试要从验证“当前提示是否安全”,扩展到验证多轮交互、异常反馈、工具失败、外部内容污染和用户压力下的行为稳定性。
未来攻击者真正争夺的,会从服务器 root 权限扩展到 AI Agent 的行为控制权。 一旦攻击者能够影响 Agent 的行为链,就可能间接获得现实世界执行能力。
AI 应用安全
AI 应用安全是在保护业务系统接入 AI 后的新风险边界。 AI 客服、AI Coding、AI 风控、AI 搜索、AI 审核、AI 办公助手、AI 浏览器和 AI OS,都是把模型嵌入业务流程、权限体系和用户交互中。风险会从模型输出扩展到业务规则绕过、错误决策、自动化误操作和合规责任。
AI 应用安全的核心问题是输出是否可信、动作是否合规、业务规则是否可被绕过。 AI 客服可能被诱导泄露优惠、修改订单或绕过风控,AI Coding 可能生成漏洞代码、引入恶意依赖或固化不安全模式,AI 搜索和 AI 审核可能把错误判断变成业务决策。应用层需要把模型输出放回业务状态机、权限体系、风控策略和人工复核中验证。
AI 应用安全需要把模型能力变成受控业务能力。 模型可以参与理解、生成和建议,但涉及资金、权限、身份、数据外发、内容发布、代码提交和生产变更的动作,需要通过业务规则、行为白名单、风险评分、人工确认和可追溯执行链约束。AI 接入越深,越需要把“模型会做什么”转化为“系统允许它在什么条件下做什么”。