You need to enable JavaScript to run this app.
导航
配置模型滥用防护策略
最近更新时间:2025.06.18 15:30:38首次发布时间:2025.03.28 19:07:12
我的收藏
有用
有用
无用
无用

模型滥用防护策略可用于识别和处理让模型产生幻觉的提示词,防止模型由于被诱导而产生不准确、冒犯性或完全偏离主题的回复。支持针对毒品、诈骗、赌博、歧视等敏感内容的分类检测。

注意事项

您将资产接入大模型应用防火墙时,平台已经创建了一条默认模型滥用防护策略,该默认策略支持修改。如果需要为资产新增模型滥用防护策略,需注意不同策略关联的检测分类标签不能重复。

前提条件

您已将需要防护的网站接入大模型应用防火墙。接入相关操作,请参见域名接入说明

新增模型滥用防护策略

  1. 登录大模型应用防火墙控制台

  2. 在顶栏选择实例所属地域。

  3. 在左侧导航选择防护>大模型防护>模型滥用防护

  4. 启用策略。
    Image

  5. 单击添加规则,配置规则信息。

    参数

    说明

    示例值

    基本信息

    规则名称

    输入防护策略的名称。

    说明

    • 以中文、字母、数字开头。
    • 允许字母、数字、中文、点“.”、下划线“_”和中划线“-”。
    • 长度为1-128个字符。

    模型滥用防护1

    规则条件

    访问路径

    选择需要匹配的域名或路径。勾选域名后,则该域名下配置的全部路径都会纳入匹配范围。

    说明

    SDK 方式接入的防护域名,暂不支持匹配到路径。

    www.volcwaf001.com

    生效方式

    • 勾选:如需对大模型输入和输出执行相同类型的检测,则直接勾选同步生效输入与输出检测,然后配置统一的检测分类。
    • 不勾选:如希望仅检测模型输入或模型输出,或者对输入或输出内容执行不同类型的检测,则取消勾选,然后分别配置检测分类。

    勾选

    检测分类

    筛选需要检测的标签分类,包括涉敏1侮辱&歧视色情涉敏2商业违法违规欺诈赌博毒品

    注意

    关联检测分类时请确保该分类暂未关联至所选资产对应的其他防护策略。

    毒品

    执行动作

    检测到对应分类中的内容时,执行的处置动作。

    • 观察:放行请求行为。
    • 拦截:拦截请求行为,如果该资产配置了自定义拦截响应策略,则会按照已配置内容响应用户。

    说明

    所有触发防护策略的请求都会被记录于攻击详情中。

    观察

    生效配置

    规则开关

    开启或关闭当前规则。

    开启

    Image

  6. 单击确定
    配置完成后,防护规则列表会生成对应规则,规则 ID 可用于日志检索和攻击详情判断。
    Image

修改默认模型滥用防护策略

您将资产接入大模型应用防火墙时,平台已经创建了一条默认模型滥用防护策略。您可以直接修改该策略,例如修改规则名称、检测分类、执行动作。

注意

默认策略的生效资产范围不可修改,仅对首次配置时关联的资产生效。

  1. 登录大模型应用防火墙控制台
  2. 在顶栏选择实例所属地域。
  3. 在左侧导航选择防护>大模型防护>模型滥用防护
  4. 单击默认规则对应的编辑

    说明

    默认规则的名称格式为<资产名称>默认规则,例如access.omni-shield.volces.com默认规则

    Image
  5. 修改规则名称、检测分类、执行动作等参数。

    注意

    关联检测分类时请确保该分类暂未关联至所选资产对应的其他防护策略。

    Image
  6. 单击确定

配置效果说明

假设您为资产配置了一条模型滥用防护规则,信息如下:

参数

规则 ID

O000000000948

检测分类

涉敏 1

执行动作

拦截

当用户向大模型发起请求时,如果大模型应用防火墙检测到请求内容存在模型滥用风险(包括涉敏 1检测分类),将自动拦截该请求。您可以随时在攻击详情页面中,通过输入规则 ID 查看相关攻击信息。
Image