You need to enable JavaScript to run this app.
大模型应用防火墙

大模型应用防火墙

复制全文
防护
防护策略介绍
复制全文
防护策略介绍

您将业务接入大模型应用防火墙时,平台会在接入的返回页面展示大模型防护策略的默认配置,便于您快速开启配置。您也可以前往控制台防护模块,单独配置各个场景下的防护策略。本文介绍大模型应用防火墙支持的防护策略类型和适用范围。

策略类型

策略类型

说明

相关文档

访问控制

访问管控策略是指对符合设定规则的 IP 的访问行为进行管控限制,您可以通过手动添加 IPv4 地址或 IPv4 CIDR 地址段的方式来设置访问源,以放行或拦截特定 IP 的请求流量。

配置访问控制策略

算力消耗攻击防护

配置算力消耗攻击策略后,大模型应用防火墙会自动识别针对大模型服务的恶意算力消耗行为,并执行对应防护动作,以帮助提升服务的稳定性。

配置算力消耗攻击防护策略

提示词攻击防护

大模型应用防火墙可根据您配置的提示词防护策略,识别用户输入的提示词中的攻击指令,并以经过训练的答案代替大模型回应用户,防止您的模型遭受攻击。

配置提示词攻击防护策略

模型滥用防护

模型滥用防护策略可用于识别和处理让模型产生幻觉的提示词,防止模型由于被诱导而产生不准确、冒犯性或完全偏离主题的回复。支持针对毒品、诈骗、赌博、歧视等敏感内容的分类检测。

配置模型滥用防护策略

敏感数据防护

敏感数据防护策略基于强大的敏感数据检测机制,实时识别输入输出内容中的隐私数据,并根据预设策略进行拦截处理。确保用户在使用大模型服务时,个人身份信息、联系方式等敏感数据不会被泄露或滥用,保护用户的隐私安全。

配置敏感数据防护策略

自定义词库

大模型应用防火墙内置词库,用于匹配输入和输出内容中的敏感信息或者不合规内容。此外,大模型应用防火墙还支持自定义词库,以适配更符合您业务实际场景的内容检测需要。

说明

关联提示词攻击防护、模型滥用防护或敏感数据防护的检测分类后生效。

配置自定义词库

话题控制

话题控制是大模型应用防火墙的一项定制化防护功能,它可以基于您提供的敏感话题内容(包括敏感词、黑白样本等)进行智能训练,并自动生成检测语料。通过实时分析用户输入与语料的关联性,大模型应用防火墙可以有效拦截敏感输入,防止大模型被滥用于生成不合规或可能引发舆论风险的内容。

配置话题控制策略

自定义防护

基于您提供的样本内容训练自定义模型,生成符合业务实际场景的专属防护模型,以提高防护的针对性和有效性。

自定义防护说明

自定义代答库

为命中风险标签(对应特定问题的场景)提供定制化替代回答,同时支持灵活的内容管理与分类关联,其应用场景主要集中在 AIGC 内容安全防护、智能客服、企业内部知识问答等领域,能有效提升应答效率和用户体验。

配置自定义代答库

自定义拦截响应

自定义拦截响应策略支持设置响应码和响应页面信息,为命中策略且执行动作为拦截的请求返回特定内容,为客户端展示自定义信息。

说明

防护策略的执行动作为拦截时生效。

配置自定义响应拦截策略

大模型防护策略对比

以下表格针对提示词攻击防护、模型滥用防护和敏感数据防护这三种策略进行对比,帮助您快速了解其差别。

特性

提示词攻击防护

模型滥用防护

敏感数据防护

主要功能

识别用户输入的提示词中的攻击指令,防止模型遭受攻击

识别和处理让模型产生幻觉的提示词,防止模型产生不准确或不适当回复

实时识别输入输出内容中的隐私数据,保护用户隐私安全

应用场景

防止攻击者通过精心设计的提示词控制或破坏大模型

防止大模型产生有害、不当或违规内容

防止用户敏感信息在大模型交互中泄露

防护对象

大模型系统安全

模型输出质量和合规性

用户隐私数据

检测分类

角色扮演、权限提升、对抗后缀攻击、目标劫持、混淆和编码、少量示例攻击、窃取提示词、提示词攻击默认标签

涉敏1、色情低俗、涉敏2、歧视、商业违法、诈骗、赌博、毒品、谩骂、其他敏感内容

身份证号、银行卡号、电子邮箱、电话号码、其他隐私数据

执行动作

观察、拦截、安全代答

观察、拦截、安全代答

观察、拦截、脱敏、安全代答

生效方式

检测输入提示词

可选择对输入和输出同时检测,或分别配置

可选择对输入和输出同时检测,或分别配置

大模型防护策略优先级说明

您在使用大模型应用防火墙时,可能会配置多种不同的防护策略,当一个请求同时触发多条策略时,系统最终的执行动作会依据以下逻辑:

  1. 正向词库:具备最高优先级,只要命中了正向词库规则,该请求直接被放行。
  2. 负向词库:如果请求未命中正向词库,但命中了负向词库,该请求直接被拦截。
  3. 其他大模型防护策略:同步检测,多个策略同时命中时,按照拦截 > 脱敏 > 安全代答 > 观察的优先级执行,即优先执行最严格的处置动作。

您可以参考以下决策场景,更直观地了解不同防护策略的优先级及执行逻辑。

触发的策略组合

最终执行动作

决策逻辑

正向词库(放行) + 提示词攻击(拦截)

放行

正向词库(白名单)拥有最高优先级,其“放行”动作覆盖了所有其他策略的动作。

负向词库(拦截)+ 模型滥用(观察)

拦截

未命中白名单时,负向词库(黑名单)的优先级高于其他安全策略。

提示词攻击(拦截) + 敏感数据(脱敏)

拦截

两条安全策略的优先级相同,因此系统选择更严格的“拦截”动作。

敏感数据(脱敏) + 模型滥用(观察)

脱敏

两条安全策略优先级相同,系统选择更严格的“脱敏”动作。

最近更新时间:2025.12.05 16:06:26
这个页面对您有帮助吗?
有用
有用
无用
无用