您将业务接入大模型应用防火墙时,平台会在接入的返回页面展示大模型防护策略的默认配置,便于您快速开启配置。您也可以前往控制台防护模块,单独配置各个场景下的防护策略。本文介绍大模型应用防火墙支持的防护策略类型和适用范围。
策略类型 | 说明 | 相关文档 |
|---|---|---|
访问管控 | 访问管控策略是指对符合设定规则的 IP 的访问行为进行管控限制,您可以通过手动添加 IP 地址、引用地址组或者是选择 IP 所属地理位置的方式来设置访问源。此外,设置特定的访问特征路径可以帮助控制策略的生效范围。支持设置禁止访问名单和允许访问名单。 | |
算力消耗防护 | 配置算力消耗攻击策略后,大模型应用防火墙会自动识别针对大模型服务的恶意算力消耗行为,并执行对应防护动作,以帮助提升服务的稳定性。 | |
提示词攻击防护 | 大模型应用防火墙可根据您配置的提示词防护策略,识别用户输入的提示词中的攻击指令,并以经过训练的答案代替大模型回应用户,防止您的模型遭受攻击。 | |
模型滥用防护 | 模型滥用防护策略可用于识别和处理让模型产生幻觉的提示词,防止模型由于被诱导而产生不准确、冒犯性或完全偏离主题的回复。支持针对毒品、诈骗、赌博、歧视等敏感内容的分类检测。 | |
敏感数据防护 | 敏感数据防护策略基于强大的敏感数据检测机制,实时识别输入输出内容中的隐私数据,并根据预设策略进行拦截处理。确保用户在使用大模型服务时,个人身份信息、联系方式等敏感数据不会被泄露或滥用,保护用户的隐私安全。 | |
自定义词库 | 大模型应用防火墙内置词库,用于匹配输入和输出内容中的敏感信息或者不合规内容。此外,大模型应用防火墙还支持自定义词库,以适配更符合您业务实际场景的内容检测需要。 说明 关联提示词攻击防护、模型滥用防护或敏感数据防护的检测分类后生效。 | |
话题控制 | 话题控制是大模型应用防火墙的一项定制化防护功能,它可以基于您提供的敏感话题内容(包括敏感词、黑白样本等)进行智能训练,并自动生成检测语料。通过实时分析用户输入与语料的关联性,大模型应用防火墙可以有效拦截敏感输入,防止大模型被滥用于生成不合规或可能引发舆论风险的内容。 说明 话题控制策略当前仅对华北地域实例生效。 | |
自定义拦截响应 | 自定义拦截响应策略支持设置响应码和响应页面信息,为命中策略且执行动作为拦截的请求返回特定内容,为客户端展示自定义信息。 说明 防护策略的执行动作为拦截时生效。 |
以下表格针对提示词攻击防护、模型滥用防护和敏感数据防护这三种策略进行对比,帮助您快速了解其差别。
特性 | 提示词攻击防护 | 模型滥用防护 | 敏感数据防护 |
|---|---|---|---|
主要功能 | 识别用户输入的提示词中的攻击指令,防止模型遭受攻击 | 识别和处理让模型产生幻觉的提示词,防止模型产生不准确或不适当回复 | 实时识别输入输出内容中的隐私数据,保护用户隐私安全 |
应用场景 | 防止攻击者通过精心设计的提示词控制或破坏大模型 | 防止大模型产生有害、不当或违规内容 | 防止用户敏感信息在大模型交互中泄露 |
防护对象 | 大模型系统安全 | 模型输出质量和合规性 | 用户隐私数据 |
检测分类 | 指令劫持、角色扮演、反向诱导、进入开发者模式、越狱攻击、对抗后缀攻击、随机噪声攻击、弱语义攻击 | 涉敏1、侮辱&歧视、色情、涉敏2、商业违法违规、欺诈、赌博、毒品 | 身份证号、护照号、银行卡号、电子邮箱、移动电话号码、地址 |
执行动作 | 优化回答、观察、拦截 | 观察、拦截 | 观察、拦截 |
生效方式 | 检测输入提示词 | 可选择对输入和输出同时检测,或分别配置 | 可选择对输入和输出同时检测,或分别配置 |