大模型应用防火墙可根据您配置的提示词防护策略,识别用户输入的提示词中的攻击指令,并以经过训练的答案代替大模型回应用户,防止您的模型遭受攻击。确保大模型业务正常运转,同时保障终端用户的使用体验。
提示词攻击是指攻击者在提示词中写入有害内容,以达到攻击目的。这些有害内容包括要求大模型修改自身参数、控制大模型修改或删除其所在系统服务,以及诱导大模型输出泄露模型参数、系统信息等敏感信息。
大模型应用防火墙支持检测以下 8 类提示词攻击:
您将资产接入大模型应用防火墙时,平台已经创建了一条默认提示词攻击防护策略,该默认策略支持修改。如果需要为资产新增提示词防护策略,需注意不同策略关联的检测分类标签不能重复。
您已将需要防护的网站接入大模型应用防火墙。接入相关操作,请参见域名接入说明。
登录大模型应用防火墙控制台。
在顶栏选择实例所属地域。
在左侧导航选择防护>大模型防护>提示词防护。
启用策略。
单击添加规则,配置规则信息。
参数 | 说明 | 示例值 |
---|---|---|
规则名称 | 输入防护策略的名称。 说明
| 提示词防护1 |
访问路径 | 选择需要匹配的域名或路径。 说明 SDK 方式接入的防护域名,暂不支持匹配到路径。 | www.volcwaf001.com |
检测分类 | 关联检测分类后,大模型应用防火墙会依据对应检测分类下的词库执行动作,包括预置词库和自定义词库。配置自定义词库可参考配置自定义词库。 注意 关联检测分类时请确保该分类暂未关联至所选资产对应的其他防护策略。 | 越狱攻击 |
执行动作 | 检测到对应分类中的内容时,执行的处置动作。
说明 所有触发防护策略的请求都会被记录于攻击详情中。 | 优化回答 |
规则开关 | 根据需要设置是否启用该规则。 | 开启 |
单击确定。
配置完成后,提示词防护规则列表会生成对应规则,规则 ID 可用于日志检索和攻击详情判断。
您将资产接入大模型应用防火墙时,平台已经创建了一条默认提示词攻击防护策略。您可以直接修改该策略,例如修改规则名称、检测分类、执行动作。
注意
默认策略的生效资产范围不可修改,仅对首次配置时关联的资产生效。
说明
默认规则的名称格式为<资产名称>默认规则
,例如access.omni-shield.volces.com默认规则
。
注意
关联检测分类时请确保该分类暂未关联至所选资产对应的其他防护策略。
X0000000000012
的防护规则,检测分类为指令劫持
、角色扮演
、反向诱导
、进入开发者模式
和弱语义攻击
,执行动作为答案优化
。弱语义攻击
风险。此时,大模型应用防火墙将生成优化后回答用于响应用户。