模型滥用防护策略可用于识别和处理让模型产生幻觉的提示词,防止模型由于被诱导而产生不准确、冒犯性或完全偏离主题的回复。支持针对毒品、诈骗、赌博、歧视等敏感内容的分类检测。
注意事项
- 您将资产接入大模型应用防火墙时,平台已经创建了一条默认模型滥用防护策略,该默认策略支持修改。如果需要为资产新增模型滥用防护策略,需注意不同策略关联的检测分类标签不能重复。
- 大模型应用防火墙当前提供多模态检测能力,支持检测文本、图片和文档内容。其中:
- 使用图片检测功能需要满足以下条件:
- 实例类型:预付费企业版实例或按量后付费实例。
- 图片大小:10 MB 以内。
- 图片格式:JPG、JPEG、PNG、WEBP、BMP、静态 GIF。
- 使用文档检测功能需要满足以下条件:
- 实例类型:预付费企业版实例。
- 文档大小:5 MB 以内。
- 文档格式:TXT、DOC、DOCX、XLSX、XLS、PDF。
前提条件
您已将需要防护的网站接入大模型应用防火墙。接入相关操作,请参见资产接入说明。
新增模型滥用防护策略
登录大模型应用防火墙控制台。
在顶栏选择实例所属地域。
在左侧导航选择防护>大模型防护>模型滥用防护。
启用策略。

单击添加规则,配置规则信息。
参数 | 说明 | 示例值 |
|---|
规则名称 | 输入防护策略的名称。 说明 - 以中文、字母、数字开头。
- 允许字母、数字、中文、点“.”、下划线“_”和中划线“-”。
- 长度为1-128个字符。
| 模型滥用防护1 |
资产 | 选择需要匹配的资产或路径。勾选资产后,则该资产下配置的全部路径都会纳入匹配范围。 说明 SDK 方式接入的防护资产,暂不支持匹配到路径。 | www.volcwaf001.com |
内容类型 | 设置需要检测的内容类型,当前支持检测文本、图片和文档内容。 - 所有类型:支持检测当前实例类型下支持的所有内容类型。
- 特定类型:按需选择文本、图片和文档。
注意 - 如果您的资产通过 SDK 方式接入,则输入输出方向都可以检测文本、图片和文档。
- 如果您的资产通过流量方式或模型方式接入,则:
- 输入方向可检测文本、图片和文档;
- 输出方向仅支持检测文本。
| 勾选所有类型 |
生效方式 | - 勾选:如需对大模型输入和输出执行相同类型的检测,则直接勾选同步生效输入与输出检测,然后配置统一的检测分类。
- 不勾选:如希望仅检测模型输入或模型输出,或者对输入或输出内容执行不同类型的检测,则取消勾选,然后分别配置检测分类。
| 勾选 |
检测分类 | 筛选需要检测的标签分类,包括涉敏1、色情低俗、涉敏2、歧视、商业违法、欺诈、赌博、毒品、谩骂和其他敏感内容。 | 毒品 |
执行动作 | 检测到对应分类中的内容时,执行的处置动作。 - 观察:放行请求行为。
- 拦截:拦截请求行为,如果该资产配置了自定义拦截响应策略,则会按照已配置内容响应用户。
- 安全代答:以经过训练的答案代替原大模型回应用户,确保回复内容合规合法。
说明 - 安全代答仅适用于通过 SDK 方式接入的资产。
- 所有触发防护策略的请求都会被记录于攻击详情中。
| 观察 |
防护等级 | 大模型应用防火墙根据不同的防护等级实施不同宽松程度的检测。 - 支持按照
宽松、正常、严格等级匹配规则。 - 等级越严格,则覆盖的风险范围越大,即低风险的请求也会被过滤。
- 您可以结合防护日志优化防护等级配置,例如在
正常模式下出现较多误拦截情况,可降级为宽松。
| |
规则开关 | 开启或关闭当前规则。 | 开启 |
单击确定。
修改默认模型滥用防护策略
您将资产接入大模型应用防火墙时,平台已经创建了一条默认模型滥用防护策略。您可以直接修改该策略,例如修改规则名称、检测分类、执行动作。
注意
默认策略的生效资产范围不可修改,仅对首次配置时关联的资产生效。
- 登录大模型应用防火墙控制台。
- 在顶栏选择实例所属地域。
- 在左侧导航选择防护>大模型防护>模型滥用防护。
- 单击默认规则对应的编辑。
说明
默认规则的名称格式为<资产名称>默认防护规则,例如access.omni-shield.volces.com_默认防护规则。
- 修改规则名称、检测分类、执行动作等参数。

- 单击确定。
配置效果说明
假设您为资产配置了一条模型滥用防护规则,信息如下:
参数 | 值 |
|---|
规则 ID | rule-d34ice1fi91j8q4u**** |
检测分类 | 涉敏 1 |
执行动作 | 拦截 |
- 防护结果:大模型应用防火墙检测到用户提示词存在模型滥用风险(包括涉敏等),将自动拦截该请求。
- 日志查询:您可以在防护日志页面,通过筛选规则 ID 查询对应日志信息。