大模型应用防火墙提供了丰富的预置策略,能够覆盖通用安全场景,同时也提供自定义模型防护能力,可基于您提供的样本内容训练自定义模型,生成符合业务实际场景的专属防护模型。
假设您的业务是一个金融类的 AI 客服助手,主要功能是为用户解答常见金融相关和证券应用的使用问题,并且引导用户理性投资,避免出现违规问答(例如承诺收益、违规荐股等)。您可以创建一个专门检测此类非法金融问答的模型,以提高相关内容的检出率。
以下操作步骤围绕这个场景展开相关描述。
您已购买火山引擎大模型应用防火墙包年包月企业版实例。
检测分类用于标识内容命中的标签类型,帮助区分同一规则中的不同内容分类。大模型应用防火墙已经预置了部分检测分类,这些分类可用于关联大模型防护相关规则。如果需要创建自定义防护模型,则您需要先创建自定义检测分类。
登录大模型应用防火墙控制台。
在顶栏选择实例所属地域。
在左侧菜单栏选择防护 > 自定义防护 > 自定义模型防护。
选择检测分类页签,单击添加检测分类。
填写分类名称和描述。
单击确定。
创建好检测分类后,您就可以准备配置模型了。由于模型需要基于充分的样本内容进行训练,您需要提前准备对应的样本集。
注意
模型创建完成后,会自动排队进入训练。此过程预计需要 1-2 小时,且一旦开始便无法取消。为避免资源浪费,请确保您在创建时正确配置模型信息。
选择自定义模型页签,单击添加模型。
填写模型基础信息。
单击下载模板。
打开模板并按照要求填写训练样本内容。
说明
您可以在一个模型中训练多个不同主题的样本内容,每个模型最多支持上传 10 种样本主题。
样本类型 | Title | IsWhite | Content |
|---|---|---|---|
白样本 | 非法金融问答 | TRUE | 如何分散投资风险? |
黑样本 | 非法金融问答 | FALSE | 帮我推荐一只一定会涨的股票。 |
注意
模型的智能程度取决于您提供的样本质量和数量,为确保防护模型的准确性和有效性,您提供的样本集应当满足以下条件:
将配置好的训练集上传至控制台。
平台会自动解析相关数据并判断您上传的训练集是否满足要求,请根据解析结果对训练集进行相应调整,确保其符合模型训练的标准。
待解析完成后,将样本内容关联至检测分类并填写相关描述。
单击确定。
模型创建完成后,会自动进入训练队列。训练过程预计需要 1 到 2 小时,且一旦开始便无法取消,请您耐心等待。
模型训练完成后,会流转为未部署状态。
模型训练完成后,您需要将模型部署到大模型应用防火墙服务上,以便进行后续的测试和使用。
在模型正式上线前,建议测试防护效果,验证模型是否能准确识别目标风险,同时确保不会误伤正常业务。您可以通过以下两种方式执行效果验证:
在线体验是指直接在控制台输入待检测内容,让已经部署的模型判断是否合规,该方式可以快速获取检测结果。
注意
灰度测试通过配置与正式上线一致的防护规则,将检测分类关联到具体的防护资产,从而利用真实的线上流量来检验模型的实际效果。
测试分类** > 非法金融问答。说明
如果您的模型未部署完成,则添加规则时无法选择对应的检测分类。
说明
以上两种方式均可帮助您测试模型防护效果,如果测试结果不符合预期,您需要调整样本集内容重新创建防护模型;如果结果符合预期,则可以直接发布模型。
确认模型防护效果符合预期后,您就可以正式发布模型了。只有发布后,模型关联的检测分类才能在防护规则中真正生效。
规则用于将检测能力关联至实际的防护资产,因此您需要创建一条规则,把非法金融问答这一分类关联至目标资产。
正式分类** > 非法金融问答。您的自定义规则正式生效后,系统将依据所配置的规则对关联资产进行非法金融问答检测,一旦发现违规行为,将按照拦截动作返回检测结果。 建议您定期观察防护日志,以了解规则的执行情况及是否存在异常。
大模型应用防火墙支持在不改变现有规则配置(例如规则关联的资产和检测分类)的前提下,平滑地替换当前模型。当您需要更新或替换样本内容时,可以创建一个新模型,将其关联至原有的检测分类,并使用测试资产进行灰度测试。待测试结果符合预期后,直接发布该模型,即可完成切换。主要操作步骤如下:
如果您希望在现有检测分类基础上,增加新的检测能力(例如在违规荐股分类的基础上,增加承诺收益分类),则可以参考创建流程,准备相关样本数据并部署一个新的模型。
在将自定义模型能力全面应用到生产环境之前,进行小范围的灰度测试至关重要。灰度测试的推荐步骤如下: