您将业务接入大模型应用防火墙时,平台会在接入的返回页面展示大模型防护策略的默认配置,便于您快速开启配置。您也可以前往控制台防护模块,单独配置各个场景下的防护策略。本文介绍大模型应用防火墙支持的防护策略类型和适用范围。
策略类型 | 说明 | 相关文档 |
|---|---|---|
访问控制 | 访问管控策略是指对符合设定规则的 IP 的访问行为进行管控限制,您可以通过手动添加 IPv4 地址或 IPv4 CIDR 地址段的方式来设置访问源,以放行或拦截特定 IP 的请求流量。 | |
算力消耗攻击防护 | 配置算力消耗攻击策略后,大模型应用防火墙会自动识别针对大模型服务的恶意算力消耗行为,并执行对应防护动作,以帮助提升服务的稳定性。 | |
提示词攻击防护 | 大模型应用防火墙可根据您配置的提示词防护策略,识别用户输入的提示词中的攻击指令,并以经过训练的答案代替大模型回应用户,防止您的模型遭受攻击。 | |
模型滥用防护 | 模型滥用防护策略可用于识别和处理让模型产生幻觉的提示词,防止模型由于被诱导而产生不准确、冒犯性或完全偏离主题的回复。支持针对毒品、诈骗、赌博、歧视等敏感内容的分类检测。 | |
敏感数据防护 | 敏感数据防护策略基于强大的敏感数据检测机制,实时识别输入输出内容中的隐私数据,并根据预设策略进行拦截处理。确保用户在使用大模型服务时,个人身份信息、联系方式等敏感数据不会被泄露或滥用,保护用户的隐私安全。 | |
自定义词库 | 大模型应用防火墙内置词库,用于匹配输入和输出内容中的敏感信息或者不合规内容。此外,大模型应用防火墙还支持自定义词库,以适配更符合您业务实际场景的内容检测需要。 说明 关联提示词攻击防护、模型滥用防护或敏感数据防护的检测分类后生效。 | |
话题控制 | 话题控制是大模型应用防火墙的一项定制化防护功能,它可以基于您提供的敏感话题内容(包括敏感词、黑白样本等)进行智能训练,并自动生成检测语料。通过实时分析用户输入与语料的关联性,大模型应用防火墙可以有效拦截敏感输入,防止大模型被滥用于生成不合规或可能引发舆论风险的内容。 | |
自定义防护 | 基于您提供的样本内容训练自定义模型,生成符合业务实际场景的专属防护模型,以提高防护的针对性和有效性。 | |
自定义代答库 | 为命中风险标签(对应特定问题的场景)提供定制化替代回答,同时支持灵活的内容管理与分类关联,其应用场景主要集中在 AIGC 内容安全防护、智能客服、企业内部知识问答等领域,能有效提升应答效率和用户体验。 | |
自定义拦截响应 | 自定义拦截响应策略支持设置响应码和响应页面信息,为命中策略且执行动作为拦截的请求返回特定内容,为客户端展示自定义信息。 说明 防护策略的执行动作为拦截时生效。 |
以下表格针对提示词攻击防护、模型滥用防护和敏感数据防护这三种策略进行对比,帮助您快速了解其差别。
特性 | 提示词攻击防护 | 模型滥用防护 | 敏感数据防护 |
|---|---|---|---|
主要功能 | 识别用户输入的提示词中的攻击指令,防止模型遭受攻击 | 识别和处理让模型产生幻觉的提示词,防止模型产生不准确或不适当回复 | 实时识别输入输出内容中的隐私数据,保护用户隐私安全 |
应用场景 | 防止攻击者通过精心设计的提示词控制或破坏大模型 | 防止大模型产生有害、不当或违规内容 | 防止用户敏感信息在大模型交互中泄露 |
防护对象 | 大模型系统安全 | 模型输出质量和合规性 | 用户隐私数据 |
检测分类 | 角色扮演、权限提升、对抗后缀攻击、目标劫持、混淆和编码、少量示例攻击、窃取提示词、提示词攻击默认标签 | 涉敏1、色情低俗、涉敏2、歧视、商业违法、诈骗、赌博、毒品、谩骂、其他敏感内容 | 身份证号、银行卡号、电子邮箱、电话号码、其他隐私数据 |
执行动作 | 观察、拦截、安全代答 | 观察、拦截、安全代答 | 观察、拦截、脱敏、安全代答 |
生效方式 | 检测输入提示词 | 可选择对输入和输出同时检测,或分别配置 | 可选择对输入和输出同时检测,或分别配置 |
您在使用大模型应用防火墙时,可能会配置多种不同的防护策略,当一个请求同时触发多条策略时,系统最终的执行动作会依据以下逻辑:
拦截 > 脱敏 > 安全代答 > 观察的优先级执行,即优先执行最严格的处置动作。您可以参考以下决策场景,更直观地了解不同防护策略的优先级及执行逻辑。
触发的策略组合 | 最终执行动作 | 决策逻辑 |
|---|---|---|
正向词库(放行) + 提示词攻击(拦截) | 放行 | 正向词库(白名单)拥有最高优先级,其“放行”动作覆盖了所有其他策略的动作。 |
负向词库(拦截)+ 模型滥用(观察) | 拦截 | 未命中白名单时,负向词库(黑名单)的优先级高于其他安全策略。 |
提示词攻击(拦截) + 敏感数据(脱敏) | 拦截 | 两条安全策略的优先级相同,因此系统选择更严格的“拦截”动作。 |
敏感数据(脱敏) + 模型滥用(观察) | 脱敏 | 两条安全策略优先级相同,系统选择更严格的“脱敏”动作。 |