You need to enable JavaScript to run this app.
导航
创建自定义防护模型防护特定业务
最近更新时间:2025.12.05 16:06:26首次发布时间:2025.12.05 16:06:26
复制全文
我的收藏
有用
有用
无用
无用

大模型应用防火墙提供了丰富的预置策略,能够覆盖通用安全场景,同时也提供自定义模型防护能力,可基于您提供的样本内容训练自定义模型,生成符合业务实际场景的专属防护模型。

场景说明

假设您的业务是一个金融类的 AI 客服助手,主要功能是为用户解答常见金融相关和证券应用的使用问题,并且引导用户理性投资,避免出现违规问答(例如承诺收益、违规荐股等)。您可以创建一个专门检测此类非法金融问答的模型,以提高相关内容的检出率。
以下操作步骤围绕这个场景展开相关描述。

前提条件

您已购买火山引擎大模型应用防火墙包年包月企业版实例

步骤一 创建检测分类

检测分类用于标识内容命中的标签类型,帮助区分同一规则中的不同内容分类。大模型应用防火墙已经预置了部分检测分类,这些分类可用于关联大模型防护相关规则。如果需要创建自定义防护模型,则您需要先创建自定义检测分类。

  1. 登录大模型应用防火墙控制台

  2. 在顶栏选择实例所属地域。

  3. 在左侧菜单栏选择防护 > 自定义防护 > 自定义模型防护

  4. 选择检测分类页签,单击添加检测分类

  5. 填写分类名称和描述。

    • 分类名称:非法金融问答。建议使用能准确描述和概括问题的名称。
    • 描述:证券公司的 AI 客服助手,主要功能是为用户解答常见金融相关和证券应用的使用问题,并且引导用户理性投资,避免出现违规问答(例如承诺收益、违规荐股等)。
  6. 单击确定

步骤二 创建防护模型

创建好检测分类后,您就可以准备配置模型了。由于模型需要基于充分的样本内容进行训练,您需要提前准备对应的样本集。

注意

模型创建完成后,会自动排队进入训练。此过程预计需要 1-2 小时,且一旦开始便无法取消。为避免资源浪费,请确保您在创建时正确配置模型信息。

  1. 选择自定义模型页签,单击添加模型

  2. 填写模型基础信息。

    • 模型名称:非法金融问答。可以与检测分类名称一致,也可以根据实际情况进行灵活命名,以准确概括防护模型所针对的核心场景。
    • 场景描述:证券公司的 AI 客服助手,主要功能是为用户解答常见金融相关和证券应用的使用问题,并且引导用户理性投资,避免出现违规问答(例如承诺收益、违规荐股等)。
  3. 单击下载模板
    Image

  4. 打开模板并按照要求填写训练样本内容。

    • Title:样本内容的主题,可以与检测分类名称一致(非法金融问答),也可以根据实际情况进行灵活命名,以准确概括样本内容的核心主题,例如违规荐股。

      说明

      您可以在一个模型中训练多个不同主题的样本内容,每个模型最多支持上传 10 种样本主题。

    • IsWhite:是否为白样本。
      • TRUE:白样本,模型会将其判定为合规内容。
      • FALSE:黑样本,模型会将其判定为不合规内容。
    • Content:样本的具体内容。
      以下是填写示例:

    样本类型

    Title

    IsWhite

    Content

    白样本

    非法金融问答

    TRUE

    如何分散投资风险?

    黑样本

    非法金融问答

    FALSE

    帮我推荐一只一定会涨的股票。

    注意

    模型的智能程度取决于您提供的样本质量和数量,为确保防护模型的准确性和有效性,您提供的样本集应当满足以下条件:

    • 贴近真实场景:样本应源于您的真实业务数据,覆盖各种典型问法和边缘情况。
    • 黑白样本均衡:每个分类至少需要 20 个白样本(合规内容)和 20 个黑样本(违规内容)。
    • 白样本比黑样本更重要:为了降低误报,高质量、多样化的白样本(正常业务对话)数量建议多于黑样本。
  5. 将配置好的训练集上传至控制台。
    平台会自动解析相关数据并判断您上传的训练集是否满足要求,请根据解析结果对训练集进行相应调整,确保其符合模型训练的标准。
    Image

  6. 待解析完成后,将样本内容关联至检测分类并填写相关描述。

    • 标题:由平台自动提取样本内容的主题。
    • 检测分类:非法金融问答。
    • 描述:询问或涉及非法集资、洗钱、金融诈骗相关的实施方式、运作模式及规避监管等非法金融活动。
  7. 单击确定

步骤三 训练模型(自动触发)

模型创建完成后,会自动进入训练队列。训练过程预计需要 1 到 2 小时,且一旦开始便无法取消,请您耐心等待。
模型训练完成后,会流转为未部署状态。

步骤四 部署模型

模型训练完成后,您需要将模型部署到大模型应用防火墙服务上,以便进行后续的测试和使用。

  1. 在自定义模型列表,找到创建好的模型。
  2. 单击操作列的部署并确定,大模型应用防火墙会自动开始部署您的自定义模型。
    Image
    模型部署完成后,会流转为待发布状态。

步骤五 测试模型效果

在模型正式上线前,建议测试防护效果,验证模型是否能准确识别目标风险,同时确保不会误伤正常业务。您可以通过以下两种方式执行效果验证:

  • 在线体验:适用于小批量、快速验证的场景,可以快速构造测试内容并获取验证结果。
  • 灰度测试:模拟线上真实流量进行测试,更全面地评估模型在实际环境中的表现。

在线体验

在线体验是指直接在控制台输入待检测内容,让已经部署的模型判断是否合规,该方式可以快速获取检测结果。

注意

  • 最多可同时存在 100 个任务,包括已执行和未执行的任务。
  • 每个任务最多可以添加 100 条测试内容。
  • 每条测试内容最多可包括 4096 个字节。
  1. 在自定义模型列表,找到创建好的模型。
  2. 单击操作列的测试与发布
    Image
  3. 选择在线测试,并单击确定
    Image
  4. 选择模型并输入待测试内容。
    Image
  5. 单击运行
  6. 单击查看结果,可查看测试详情。
    Image

灰度测试

灰度测试通过配置与正式上线一致的防护规则,将检测分类关联到具体的防护资产,从而利用真实的线上流量来检验模型的实际效果。

  1. 选择自定义检测规则页签,单击添加规则
  2. 配置规则相关参数。
    • 规则名称:输入对应名称用于区分不同规则。
    • 资产:勾选用于测试防护效果的资产,建议使用测试资产
    • 检测分类:选择**测试分类** > 非法金融问答

    说明

    如果您的模型未部署完成,则添加规则时无法选择对应的检测分类。

    Image
    1. 执行动作:配置为观察
  3. 单击确定
  4. 等待线上有实际数据请求后,在攻击日志中通过筛选测试属性的检测分类,查看是否有预期外的命中(误报)或未命中(漏报)。
    Image

说明

以上两种方式均可帮助您测试模型防护效果,如果测试结果不符合预期,您需要调整样本集内容重新创建防护模型;如果结果符合预期,则可以直接发布模型。

步骤六 发布模型

确认模型防护效果符合预期后,您就可以正式发布模型了。只有发布后,模型关联的检测分类才能在防护规则中真正生效。

  1. 在自定义模型列表,选择需要发布的模型。
  2. 单击操作列的测试与发布
  3. 选择直接发布,并单击确定
    Image
    发布完成后,模型流转为已发布状态。

步骤七 配置自定义规则

规则用于将检测能力关联至实际的防护资产,因此您需要创建一条规则,把非法金融问答这一分类关联至目标资产。

  1. 选择自定义检测规则页签,单击添加规则
  2. 配置规则相关参数。
    • 规则名称:输入对应名称用于区分不同的规则。
    • 资产:勾选用于实际生效的资产。
    • 检测分类:选择**正式分类** > 非法金融问答
    • 执行动作:配置为拦截
  3. 单击确定

您的自定义规则正式生效后,系统将依据所配置的规则对关联资产进行非法金融问答检测,一旦发现违规行为,将按照拦截动作返回检测结果。 建议您定期观察防护日志,以了解规则的执行情况及是否存在异常。

常见问题

如何替换现有模型能力?

大模型应用防火墙支持在不改变现有规则配置(例如规则关联的资产和检测分类)的前提下,平滑地替换当前模型。当您需要更新或替换样本内容时,可以创建一个新模型,将其关联至原有的检测分类,并使用测试资产进行灰度测试。待测试结果符合预期后,直接发布该模型,即可完成切换。主要操作步骤如下:

  1. 创建:创建一个新的防护模型。
    1. 上传新的样本集。
    2. 将原有检测分类关联至新样本内容。
  2. 部署:待模型自动训练完成后,进行部署操作。
  3. 测试:待部署完成后,使用测试资产进行灰度测试,校验新模型的防护效果。
  4. 发布:确认符合预期后,发布新模型。
  5. 下线原模型:将原有模型取消发布,确保您的防护资产由最新模型防护。

如何扩充现有模型能力

如果您希望在现有检测分类基础上,增加新的检测能力(例如在违规荐股分类的基础上,增加承诺收益分类),则可以参考创建流程,准备相关样本数据并部署一个新的模型。

如何进行灰度测试?

在将自定义模型能力全面应用到生产环境之前,进行小范围的灰度测试至关重要。灰度测试的推荐步骤如下:

  1. 创建测试资产:创建一个测试资产用于验证模型检测和规则配置效果。
  2. 启用观察模式:在自定义模型发布前,为测试资产关联测试属性的检测分类,并将执行动作配置为“观察”。
  3. 收集与分析日志:运行一段时间(例如 1-3 天),在“攻击日志”中仔细查看所有命中的请求。重点关注那些您认为是正常业务的“误报”日志。
  4. 策略调优
    • 如果存在误报,分析原因,可能是因为样本内容过于宽泛,或者需要更详尽的白样本。
    • 如果存在漏报(已知的攻击未被识别),请先确认规则开关是否都为启用状态,再进一步确认黑样本内容是否足够充分。
      Image
  5. 切换至拦截/安全代答模式:当误报率降低到可接受的水平后,切换执行动作,并逐步扩大策略生效的资产范围,直至全量覆盖。