You need to enable JavaScript to run this app.
导航
内容安全护栏
最近更新时间:2025.12.03 13:54:07首次发布时间:2025.12.03 13:54:07
复制全文
我的收藏
有用
有用
无用
无用

为了保障大模型输入输出的内容安全合规,火山方舟平台提供内容安全护栏功能,在豆包模型原生安全能力之上,能够帮助企业自动识别并过滤用户在调用推理点过程中的涉敏、涉黄等风险,从而保障客户业务生态的健康与安全。

护栏方案对比

根据模型不同,内容安全护栏包含多种方案供您选择。

模型类型

默认方案

自定义方案

关闭

豆包模型

火山方舟默认的内容安全机制,广泛覆盖内容安全通用需求,保障底线安全。

火山方舟原生支持调用火山引擎内容风险识别服务,识别多模态内容中的潜在合规风险并支持定制策略,满足企业对于内容审核的场景化需求。

/

三方/开源/精调模型

火山方舟为三方/开源/精调模型额外提供的基础过滤词。

支持关闭内容安全护栏

说明

历史部分模型支持的 “基础” 内容安全方案,因已不适配当前风险场景,计划下线。若您有推理点已选择该方案,可通过安全管理 - 内容安全统一查询,建议尽快前往编辑推理点 - 编辑内容安全护栏切换为 “默认” 方案。

配置自定义方案

方案介绍

火山引擎内容风险识别(以下简称“火山风控”)的主要功能包括:

  • 多维度风险识别:支持从涉黄、涉敏、违禁、谩骂、联系方式、广告、诈骗等多个维度,对用户输入的对话内容以及模型的输出内容进行精准识别和拦截,确保内容符合合规要求。
  • 自定义词:支持企业根据自身业务特点,维护自定义的敏感词库,提升风险识别的准确性。

使用限制

  • 自定义护栏仅支持拦截 推理API 的内容,其他渠道暂不支持。
  • 自定义护栏当前仅支持生图、生视频、生3D模型,生文模型未来支持。
  • 火山方舟火山引擎内容风险识别 TOS 对象存储 需要在同一个火山引擎主账号下。

配置步骤

步骤一:在火山风控平台配置内容审核策略

请参考文档 火山引擎-内容风险识别-产品接入操作手册进行配置。配置过程中如有问题,请联系火山风控工作人员。

步骤二:在火山方舟平台配置推理点审核策略

查看/编辑内容安全护栏入口:

  • 在线推理-创建自定义推理点
  • 在线推理-编辑预置/自定义推理点
  • 安全管理-内容安全

在选择内容安全护栏-自定义方案时,显示配置安全策略列表:

  • 审核场景:方舟将自动根据当前模型的模态匹配需要审核的风险识别类型,如文本、图片、视频。
  • 风险识别类型:对应火山风控控制台的文本风险识别、图片风险识别等服务。
  • 场景(biztype):方舟将自动匹配当前账号的火山风控产品权限、服务权限、appid、biztype数据,请选择当前审核场景对应的appid以及biztype。appid以及biztype可前往火山风控控制台查询。

阅读并确认《自定义内容审核机制合规承诺函》,完成策略配置。

步骤三:验证策略生效

完成配置后,通过以下步骤验证内容安全策略是否生效。

  1. 通过 API 调用推理点,尝试输入包含敏感词或违规内容的信息,如果模型 response 中错误码code 包含 Sensitive,则表示内容安全策略生效。
    • 错误码详情:错误码
      文本被拦截的返回示例如下:

      # API请求参数
      {
          "model": "ep-************",
          "prompt": "*****",
          "response_format": "url",
          "size": "1024x1024",
          "guidance_scale": 3,
          "watermark": true
      }
      # 错误响应
      {
          "error": {
              "code": "InputTextSensitiveContentDetecteed",
              "message": "The request failed because the input text may contain sensitive information. Requestid: 021***213274668fd7e*********538983d3199357a1****80873",
              "param": ", ",
              "type": ""
          }
      }
      
    • 详细测试方式:请咨询火山风控工作人员。

  2. 前往火山风控控制台,在左侧导航栏选择对应的场景,如文本风险识别 > 日志查询,查看拦截的消息日志。

费用说明

使用火山引擎内容风险识别服务会涉及如下两项费用,这些费用将自动从你的火山引擎账户余额中扣款。

  • 内容风险识别产品相关费用:包括文本风险识别和图片风险识别等,具体收费标准请参见购买内容风险识别套餐时页面的费用说明。
  • TOS 对象存储的存储容量费用:具体收费标准可参考对象存储计费概述