You need to enable JavaScript to run this app.
导航
防护策略介绍
最近更新时间:2025.09.16 23:14:49首次发布时间:2025.09.16 23:14:49
复制全文
我的收藏
有用
有用
无用
无用

您将业务接入大模型应用防火墙时,平台会在接入的返回页面展示大模型防护策略的默认配置,便于您快速开启配置。您也可以前往控制台防护模块,单独配置各个场景下的防护策略。本文介绍大模型应用防火墙支持的防护策略类型和适用范围。

策略类型说明

策略类型

说明

相关文档

访问管控

访问管控策略是指对符合设定规则的 IP 的访问行为进行管控限制,您可以通过手动添加 IP 地址、引用地址组或者是选择 IP 所属地理位置的方式来设置访问源。此外,设置特定的访问特征路径可以帮助控制策略的生效范围。支持设置禁止访问名单和允许访问名单。

配置访问管控策略

算力消耗防护

配置算力消耗攻击策略后,大模型应用防火墙会自动识别针对大模型服务的恶意算力消耗行为,并执行对应防护动作,以帮助提升服务的稳定性。

配置算力消耗防护策略

提示词攻击防护

大模型应用防火墙可根据您配置的提示词防护策略,识别用户输入的提示词中的攻击指令,并以经过训练的答案代替大模型回应用户,防止您的模型遭受攻击。

配置提示词攻击防护策略

模型滥用防护

模型滥用防护策略可用于识别和处理让模型产生幻觉的提示词,防止模型由于被诱导而产生不准确、冒犯性或完全偏离主题的回复。支持针对毒品、诈骗、赌博、歧视等敏感内容的分类检测。

配置模型滥用防护策略

敏感数据防护

敏感数据防护策略基于强大的敏感数据检测机制,实时识别输入输出内容中的隐私数据,并根据预设策略进行拦截处理。确保用户在使用大模型服务时,个人身份信息、联系方式等敏感数据不会被泄露或滥用,保护用户的隐私安全。

配置敏感数据防护策略

自定义词库

大模型应用防火墙内置词库,用于匹配输入和输出内容中的敏感信息或者不合规内容。此外,大模型应用防火墙还支持自定义词库,以适配更符合您业务实际场景的内容检测需要。

说明

关联提示词攻击防护、模型滥用防护或敏感数据防护的检测分类后生效。

配置自定义词库

话题控制

话题控制是大模型应用防火墙的一项定制化防护功能,它可以基于您提供的敏感话题内容(包括敏感词、黑白样本等)进行智能训练,并自动生成检测语料。通过实时分析用户输入与语料的关联性,大模型应用防火墙可以有效拦截敏感输入,防止大模型被滥用于生成不合规或可能引发舆论风险的内容。

说明

话题控制策略当前仅对华北地域实例生效。

配置话题控制策略

自定义拦截响应

自定义拦截响应策略支持设置响应码和响应页面信息,为命中策略且执行动作为拦截的请求返回特定内容,为客户端展示自定义信息。

说明

防护策略的执行动作为拦截时生效。

配置自定义响应拦截策略

大模型防护策略对比

以下表格针对提示词攻击防护、模型滥用防护和敏感数据防护这三种策略进行对比,帮助您快速了解其差别。

特性

提示词攻击防护

模型滥用防护

敏感数据防护

主要功能

识别用户输入的提示词中的攻击指令,防止模型遭受攻击

识别和处理让模型产生幻觉的提示词,防止模型产生不准确或不适当回复

实时识别输入输出内容中的隐私数据,保护用户隐私安全

应用场景

防止攻击者通过精心设计的提示词控制或破坏大模型

防止大模型产生有害、不当或违规内容

防止用户敏感信息在大模型交互中泄露

防护对象

大模型系统安全

模型输出质量和合规性

用户隐私数据

检测分类

指令劫持、角色扮演、反向诱导、进入开发者模式、越狱攻击、对抗后缀攻击、随机噪声攻击、弱语义攻击

涉敏1、侮辱&歧视、色情、涉敏2、商业违法违规、欺诈、赌博、毒品

身份证号、护照号、银行卡号、电子邮箱、移动电话号码、地址

执行动作

优化回答、观察、拦截

观察、拦截

观察、拦截

生效方式

检测输入提示词

可选择对输入和输出同时检测,或分别配置

可选择对输入和输出同时检测,或分别配置