You need to enable JavaScript to run this app.
导航
配置提示词攻击防护策略
最近更新时间:2025.06.10 17:45:26首次发布时间:2025.03.28 19:07:11
我的收藏
有用
有用
无用
无用

大模型应用防火墙可根据您配置的提示词防护策略,识别用户输入的提示词中的攻击指令,并以经过训练的答案代替大模型回应用户,防止您的模型遭受攻击。确保大模型业务正常运转,同时保障终端用户的使用体验。

什么是提示词攻击?

提示词攻击是指攻击者在提示词中写入有害内容,以达到攻击目的。这些有害内容包括要求大模型修改自身参数、控制大模型修改或删除其所在系统服务,以及诱导大模型输出泄露模型参数、系统信息等敏感信息。

提示词攻击类型

大模型应用防火墙支持检测以下 8 类提示词攻击:

  • 指令劫持:在输入的提示词中添加具有欺骗性或误导性的指令,试图覆盖或干扰原有指令的执行,诱导模型产生特定输出。
  • 角色扮演:攻击者通过设定或限定模型的角色属性,诱导模型采用该角色的语言风格,以此绕过安全限制,生成可能涉及知识产权、伦理道德或其他不当内容的回复。
  • 反向诱导:一种通过逆向逻辑引导模型生成特定内容的行为。攻击者可能提出与目标相反的要求,诱导模型产生违反其安全策略的响应。
  • 进入开发者模式:通过特定操作或指令,使模型突破原有安全限制,进入一种具有更高权限或更灵活功能的模式。例如无视既定安全规则,产生不受控制的输出,或是执行超出授权范围的操作。
  • **越狱攻击:**攻击者通过精心设计的提示词或利用模型架构中的漏洞,绕过语言模型的伦理约束和安全限制,诱导其生成有害或不安全内容的行为。
  • 对抗后缀攻击:一种基于对抗性样本的攻击技术。攻击者在输入文本后添加特定的对抗性后缀,致使模型生成预期外或不可控的回复内容。
  • 随机噪声攻击:在提示词中引入随机噪声,干扰模型的正常处理过程,降低模型的准确性和稳定性。
  • 弱语义攻击:利用模型对语义变化的敏感性,通过轻微改变输入文本的语义(例如替换同义词、调整句子结构等手段),使模型在处理时产生偏差。

注意事项

您将资产接入大模型应用防火墙时,平台已经创建了一条默认提示词攻击防护策略,该默认策略支持修改。如果需要为资产新增提示词防护策略,需注意不同策略关联的检测分类标签不能重复。

前提条件

您已将需要防护的网站接入大模型应用防火墙。接入相关操作,请参见域名接入说明

新增提示词攻击防护策略

  1. 登录大模型应用防火墙控制台

  2. 在顶栏选择实例所属地域。

  3. 在左侧导航选择防护>大模型防护>提示词防护

  4. 启用策略。
    Image

  5. 单击添加规则,配置规则信息。
    Image

    参数

    说明

    示例值

    规则名称

    输入防护策略的名称。

    说明

    • 以中文、字母、数字开头。
    • 允许字母、数字、中文、点“.”、下划线“_”和中划线“-”。
    • 长度为1-128个字符。

    提示词防护1

    访问路径

    选择需要匹配的域名或路径。

    说明

    SDK 方式接入的防护域名,暂不支持匹配到路径。

    www.volcwaf001.com

    检测分类

    关联检测分类后,大模型应用防火墙会依据对应检测分类下的词库执行动作,包括预置词库和自定义词库。配置自定义词库可参考配置自定义词库

    注意

    关联检测分类时请确保该分类暂未关联至所选资产对应的其他防护策略。

    越狱攻击

    执行动作

    检测到对应分类中的内容时,执行的处置动作。

    • 优化回答:以经过训练的答案代替原大模型回应用户,确保回复内容合规合法。
    • 观察:放行请求行为。
    • 拦截:拦截请求行为,如果该资产配置了自定义拦截响应策略,则会按照已配置内容响应用户。

    说明

    所有触发防护策略的请求都会被记录于攻击详情中。

    优化回答

    规则开关

    根据需要设置是否启用该规则。

    开启

  6. 单击确定
    配置完成后,提示词防护规则列表会生成对应规则,规则 ID 可用于日志检索和攻击详情判断。
    Image

修改默认提示词攻击防护策略

您将资产接入大模型应用防火墙时,平台已经创建了一条默认提示词攻击防护策略。您可以直接修改该策略,例如修改规则名称、检测分类、执行动作。

注意

默认策略的生效资产范围不可修改,仅对首次配置时关联的资产生效。

  1. 登录大模型应用防火墙控制台
  2. 在顶栏选择实例所属地域。
  3. 在左侧导航选择防护>大模型防护>提示词防护
  4. 单击默认规则对应的编辑

    说明

    默认规则的名称格式为<资产名称>默认规则,例如access.omni-shield.volces.com默认规则

    Image
  5. 修改规则名称、检测分类、执行动作等参数。

    注意

    关联检测分类时请确保该分类暂未关联至所选资产对应的其他防护策略。

    Image
  6. 单击确定

配置效果说明

  • 策略配置:假设配置了一条 ID 为X0000000000012的防护规则,检测分类为指令劫持角色扮演反向诱导进入开发者模式弱语义攻击,执行动作为答案优化
  • 请求结果:现用户向大模型发起请求,大模型应用防火墙判断用户提示词存在弱语义攻击风险。此时,大模型应用防火墙将生成优化后回答用于响应用户。
  • 攻击详情:您可以在攻击详情页面,通过规则 ID 查询对应攻击信息。

Image