模型滥用防护策略可用于识别和处理让模型产生幻觉的提示词,防止模型由于被诱导而产生不准确、冒犯性或完全偏离主题的回复。支持针对毒品、诈骗、赌博、歧视等敏感内容的分类检测。
您将资产接入大模型应用防火墙时,平台已经创建了一条默认模型滥用防护策略,该默认策略支持修改。如果需要为资产新增模型滥用防护策略,需注意不同策略关联的检测分类标签不能重复。
您已将需要防护的网站接入大模型应用防火墙。接入相关操作,请参见域名接入说明。
登录大模型应用防火墙控制台。
在顶栏选择实例所属地域。
在左侧导航选择防护>大模型防护>模型滥用防护。
启用策略。
单击添加规则,配置规则信息。
参数 | 说明 | 示例值 |
---|---|---|
基本信息 | ||
规则名称 | 输入防护策略的名称。 说明
| 模型滥用防护1 |
规则条件 | ||
访问路径 | 选择需要匹配的域名或路径。勾选域名后,则该域名下配置的全部路径都会纳入匹配范围。 说明 SDK 方式接入的防护域名,暂不支持匹配到路径。 | www.volcwaf001.com |
生效方式 |
| 勾选 |
检测分类 | 筛选需要检测的标签分类,包括 注意 关联检测分类时请确保该分类暂未关联至所选资产对应的其他防护策略。 | 毒品 |
执行动作 | 检测到对应分类中的内容时,执行的处置动作。
说明 所有触发防护策略的请求都会被记录于攻击详情中。 | 观察 |
生效配置 | ||
规则开关 | 开启或关闭当前规则。 | 开启 |
单击确定。
配置完成后,防护规则列表会生成对应规则,规则 ID 可用于日志检索和攻击详情判断。
您将资产接入大模型应用防火墙时,平台已经创建了一条默认模型滥用防护策略。您可以直接修改该策略,例如修改规则名称、检测分类、执行动作。
注意
默认策略的生效资产范围不可修改,仅对首次配置时关联的资产生效。
说明
默认规则的名称格式为<资产名称>默认规则
,例如access.omni-shield.volces.com默认规则
。
注意
关联检测分类时请确保该分类暂未关联至所选资产对应的其他防护策略。
假设您为资产配置了一条模型滥用防护规则,信息如下:
参数 | 值 |
---|---|
规则 ID |
|
检测分类 |
|
执行动作 |
|
当用户向大模型发起请求时,如果大模型应用防火墙检测到请求内容存在模型滥用风险(包括涉敏 1
检测分类),将自动拦截该请求。您可以随时在攻击详情页面中,通过输入规则 ID 查看相关攻击信息。