防护策略介绍--大模型应用防火墙-火山引擎

文档中心

大模型应用防火墙

防护

防护策略介绍

防护策略介绍

您将业务接入大模型应用防火墙时，平台会在接入的返回页面展示大模型防护策略的默认配置，便于您快速开启配置。您也可以前往控制台防护模块，单独配置各个场景下的防护策略。本文介绍大模型应用防火墙支持的防护策略类型和适用范围。

策略类型说明

策略类型	说明	相关文档
访问管控	访问管控策略是指对符合设定规则的 IP 的访问行为进行管控限制，您可以通过手动添加 IP 地址、引用地址组或者是选择 IP 所属地理位置的方式来设置访问源。此外，设置特定的访问特征路径可以帮助控制策略的生效范围。支持设置禁止访问名单和允许访问名单。	配置访问管控策略
算力消耗防护	配置算力消耗攻击策略后，大模型应用防火墙会自动识别针对大模型服务的恶意算力消耗行为，并执行对应防护动作，以帮助提升服务的稳定性。	配置算力消耗防护策略
提示词攻击防护	大模型应用防火墙可根据您配置的提示词防护策略，识别用户输入的提示词中的攻击指令，并以经过训练的答案代替大模型回应用户，防止您的模型遭受攻击。	配置提示词攻击防护策略
模型滥用防护	模型滥用防护策略可用于识别和处理让模型产生幻觉的提示词，防止模型由于被诱导而产生不准确、冒犯性或完全偏离主题的回复。支持针对毒品、诈骗、赌博、歧视等敏感内容的分类检测。	配置模型滥用防护策略
敏感数据防护	敏感数据防护策略基于强大的敏感数据检测机制，实时识别输入输出内容中的隐私数据，并根据预设策略进行拦截处理。确保用户在使用大模型服务时，个人身份信息、联系方式等敏感数据不会被泄露或滥用，保护用户的隐私安全。	配置敏感数据防护策略
自定义词库	大模型应用防火墙内置词库，用于匹配输入和输出内容中的敏感信息或者不合规内容。此外，大模型应用防火墙还支持自定义词库，以适配更符合您业务实际场景的内容检测需要。说明关联提示词攻击防护、模型滥用防护或敏感数据防护的检测分类后生效。	配置自定义词库
话题控制	话题控制是大模型应用防火墙的一项定制化防护功能，它可以基于您提供的敏感话题内容（包括敏感词、黑白样本等）进行智能训练，并自动生成检测语料。通过实时分析用户输入与语料的关联性，大模型应用防火墙可以有效拦截敏感输入，防止大模型被滥用于生成不合规或可能引发舆论风险的内容。说明话题控制策略当前仅对华北地域实例生效。	配置话题控制策略
自定义拦截响应	自定义拦截响应策略支持设置响应码和响应页面信息，为命中策略且执行动作为拦截的请求返回特定内容，为客户端展示自定义信息。说明防护策略的执行动作为拦截时生效。	配置自定义响应拦截策略

大模型防护策略对比

以下表格针对提示词攻击防护、模型滥用防护和敏感数据防护这三种策略进行对比，帮助您快速了解其差别。

特性	提示词攻击防护	模型滥用防护	敏感数据防护
主要功能	识别用户输入的提示词中的攻击指令，防止模型遭受攻击	识别和处理让模型产生幻觉的提示词，防止模型产生不准确或不适当回复	实时识别输入输出内容中的隐私数据，保护用户隐私安全
应用场景	防止攻击者通过精心设计的提示词控制或破坏大模型	防止大模型产生有害、不当或违规内容	防止用户敏感信息在大模型交互中泄露
防护对象	大模型系统安全	模型输出质量和合规性	用户隐私数据
检测分类	指令劫持、角色扮演、反向诱导、进入开发者模式、越狱攻击、对抗后缀攻击、随机噪声攻击、弱语义攻击	涉敏1、侮辱&歧视、色情、涉敏2、商业违法违规、欺诈、赌博、毒品	身份证号、护照号、银行卡号、电子邮箱、移动电话号码、地址
执行动作	优化回答、观察、拦截	观察、拦截	观察、拦截
生效方式	检测输入提示词	可选择对输入和输出同时检测，或分别配置	可选择对输入和输出同时检测，或分别配置

最近更新时间：2025.09.16 23:14:49

这个页面对您有帮助吗？

有用

有用

无用

无用