大模型应用防火墙可根据您配置的提示词防护策略,识别用户输入的提示词中的攻击指令,并以经过训练的答案代替大模型回应用户,防止您的模型遭受攻击。确保大模型业务正常运转,同时保障终端用户的使用体验。
提示词攻击是指攻击者在提示词中写入有害内容,以达到攻击目的。这些有害内容包括要求大模型修改自身参数、控制大模型修改或删除其所在系统服务,以及诱导大模型输出泄露模型参数、系统信息等敏感信息。
提示词攻击防护支持检测 8 种攻击类型,对应 8 个检测分类标签,分别为:
检测类型 | 攻击原理 | 特点 | Prompt 示例 |
|---|---|---|---|
指令劫持 | 通过在正常提示词后附加优先级更高的指令,使模型忽略原始指令或安全限制,执行攻击者的指令。这种攻击利用了模型对最近或最强调指令的偏好。 |
|
|
角色扮演 | 利用模型在角色扮演模式下可能降低安全防护的特性,通过设定特殊角色(如"无限制的AI"、"邪恶角色"等)来绕过模型的安全限制和伦理约束。 |
|
|
反向诱导 | 利用模型的纠错或补充机制,通过提出明显错误或相反的观点,诱导模型在纠正或解释过程中泄露敏感信息或生成不当内容。 |
|
|
进入开发者模式 | 利用模型对"开发者模式"、"测试模式"等概念的理解,诱导模型相信它处于特殊权限状态,从而绕过正常的安全限制和内容过滤机制。 |
|
|
越狱攻击 | 通过复杂的提示工程技术,如多层嵌套指令、特殊格式或符号、情境设计等方式,寻找并利用模型安全防护的盲点,使模型在特定条件下绕过安全限制。 |
|
|
对抗后缀攻击 | 通过在正常提示词后添加经过精心设计的字符序列或特殊标记,干扰模型的理解和处理机制,使其产生异常行为或绕过安全过滤。 |
|
|
随机噪声攻击 | 通过在提示词中插入大量无关或随机的文本、符号或数据,增加输入的复杂性和模糊性,使模型在处理过程中出现混淆或错误判断,从而可能绕过安全检查。 |
|
|
弱语义攻击 | 通过使用同音字、形近字、同义词替换、拼写错误或特殊符号分隔等方式,改变文本的表面形式但保留基本语义,以规避基于关键词或模式匹配的安全过滤机制。 |
|
|
您将资产接入大模型应用防火墙时,平台已经创建了一条默认提示词攻击防护策略,该默认策略支持修改。如果需要为资产新增提示词防护策略,需注意不同策略关联的检测分类标签不能重复。
您已将需要防护的网站接入大模型应用防火墙。接入相关操作,请参见资产接入说明。
登录大模型应用防火墙控制台。
在顶栏选择实例所属地域。
在左侧导航选择防护>大模型防护>提示词防护。
启用策略。
单击添加规则,配置规则信息。
参数 | 说明 | 示例值 |
|---|---|---|
基本信息 | ||
规则名称 | 输入防护策略的名称。 说明
| 提示词防护1 |
规则条件 | ||
访问路径 | 选择需要匹配的域名或路径。 说明 SDK 方式接入的防护域名,暂不支持匹配到路径。 | www.volcwaf001.com |
检测分类 | 关联检测分类后,大模型应用防火墙会依据对应检测分类下的词库执行动作,包括预置词库和自定义词库。配置自定义词库可参考配置自定义词库。 注意 关联检测分类时请确保该分类暂未关联至所选资产对应的其他防护策略。 | 指令劫持、角色扮演 |
执行动作 | 检测到对应分类中的内容时,执行的处置动作。
说明 所有触发防护策略的请求都会被记录于攻击详情中。 | 优化回答 |
生效配置 | ||
规则开关 | 开启或关闭当前规则。 | 开启 |
单击确定。
配置完成后,提示词防护规则列表会生成对应规则,规则 ID 可用于日志检索和攻击详情判断。
您将资产接入大模型应用防火墙时,平台已经创建了一条默认提示词攻击防护策略。您可以直接修改该策略,例如修改规则名称、检测分类、执行动作。
注意
默认策略的生效资产范围不可修改,仅对首次配置时关联的资产生效。
说明
默认规则的名称格式为<资产名称>默认规则,例如access.omni-shield.volces.com默认规则。
注意
关联检测分类时请确保该分类暂未关联至所选资产对应的其他防护策略。
假设您为资产配置了一条提示词攻击防护规则,信息如下:
参数 | 值 |
|---|---|
规则 ID |
|
检测分类 |
|
执行动作 |
|
当用户向大模型发起请求时,如果大模型应用防火墙检测到用户提示词存在提示词攻击风险(包括指令劫持、角色扮演等),系统将自动拦截该请求。您可以随时在攻击详情页面中,通过输入规则 ID 查看相关攻击信息。