配置提示词攻击防护策略--大模型应用防火墙-火山引擎

文档中心

大模型应用防火墙

配置大模型防护策略

配置提示词攻击防护策略

大模型应用防火墙可根据您配置的提示词防护策略，识别用户输入的提示词中的攻击指令，并以经过训练的答案代替大模型回应用户，防止您的模型遭受攻击。确保大模型业务正常运转，同时保障终端用户的使用体验。

什么是提示词攻击？

提示词攻击是指攻击者在提示词中写入有害内容，以达到攻击目的。这些有害内容包括要求大模型修改自身参数、控制大模型修改或删除其所在系统服务，以及诱导大模型输出泄露模型参数、系统信息等敏感信息。

大模型应用防火墙支持检测以下 8 类提示词攻击：

角色扮演：攻击者通过设定或限定模型的角色属性，诱导模型采用该角色的语言风格，以此绕过安全限制，生成可能涉及知识产权、伦理道德或其他不当内容的回复。
权限提升：攻击者试图诱导模型进入更高级别的权限状态（例如开发者模式），使模型突破原有安全限制，执行任意指令。例如无视既定安全规则，产生不受控制的输出，或是执行超出授权范围的操作。
对抗前后缀：在恶意提示词的前面或后面添加特殊字符串，干扰模型判断，致使模型生成预期外或不可控的回复内容。对于这类恶意或畸形的提示词，模型在输出内容的处理过程中，应当识别并过滤无意义的字符，然后按照正常内容部分输出内容，或者回复无法识别。
目标劫持：在输入的提示词中添加具有欺骗性或误导性的指令，试图覆盖或干扰原有指令的执行，诱导模型产生特定输出。
混淆和编码：利用无意义的符号破坏过滤器，或者运用编码和加密手段绕过模型的安全防护机制。
窃取提示词：将恶意的提示指令添加到用户原始的输入提示词中，试图获取系统或用户的原始提示信息。
少量示例攻击：攻击者提供带有恶意倾向的少量回答示例，诱导模型生成恶意或者误导性的输出。
提示词攻击默认标签：指除以上几种攻击之外的其他提示词攻击。

您将资产接入大模型应用防火墙时，平台已经创建了一条默认提示词攻击防护策略，该默认策略支持修改。如果需要为资产新增提示词防护策略，需注意不同策略关联的检测分类标签不能重复。

您已将需要防护的网站接入大模型应用防火墙。接入相关操作，请参见资产接入说明。

单击添加规则，配置规则信息。

参数	说明	示例值
规则名称	输入防护策略的名称。说明以中文、字母、数字开头。允许字母、数字、中文、点“.”、下划线“_”和中划线“-”。长度为1-128个字符。	提示词防护1
资产	选择需要匹配的域名或路径。说明 SDK 方式接入的防护域名，暂不支持匹配到路径。	www.volcwaf001.com
检测分类	关联检测分类后，大模型应用防火墙会依据对应检测分类下的词库执行动作。注意关联检测分类时请确保该分类暂未关联至所选资产对应的其他防护策略。	角色扮演、目标劫持
执行动作	检测到对应分类中的内容时，执行的处置动作。观察：放行请求行为。拦截：拦截请求行为，如果该资产配置了自定义拦截响应策略，则会按照已配置内容响应用户。安全代答：以经过训练的答案代替原大模型回应用户，确保回复内容合规合法。说明所有触发防护策略的请求都会被记录于攻击详情中。	拦截
规则开关	开启或关闭当前规则。	开启

您将资产接入大模型应用防火墙时，平台已经创建了一条默认提示词攻击防护策略。您可以直接修改该策略，例如修改规则名称、检测分类、执行动作。

注意

默认策略的生效资产范围不可修改，仅对首次配置时关联的资产生效。

登录大模型应用防火墙控制台。
在顶栏选择实例所属地域。
在左侧导航选择防护>大模型防护>提示词防护。
单击默认规则对应的编辑。
说明
默认规则的名称格式为<资产名称>默认防护规则，例如access.omni-shield.volces.com_默认防护规则。
修改规则名称、检测分类、执行动作等参数。
注意
关联检测分类时请确保该分类暂未关联至所选资产对应的其他防护策略。
单击确定。

假设您为资产配置了一条提示词攻击防护规则，信息如下：

最近更新时间：2025.12.05 16:06:26

这个页面对您有帮助吗？

有用

无用