为了保障大模型输入输出的内容安全合规，火山方舟平台提供内容安全护栏功能，在豆包模型原生安全能力之上，能够帮助企业自动识别并过滤用户在调用推理点过程中的涉敏、涉黄等风险，从而保障客户业务生态的健康与安全。 # 护栏方案对比根据模型不同，内容安全护栏包含多种方案供您选择。 |模型类型 |默认方案 |自定义方案 |关闭 | |---|---|---|---| |豆包模型 |火山方舟默认的内容安全机制，广泛覆盖内容安全通用需求，保障底线安全。 |火山方舟原生支持调用[火山引擎内容风险识别](https://www.volcengine.com/product/business-security)服务，识别多模态内容中的潜在合规风险并支持定制策略，满足企业对于内容审核的场景化需求。 |/ | |三方/开源/精调模型 |火山方舟为三方/开源/精调模型额外提供的基础过滤词。 ||支持关闭内容安全护栏 |

说明

历史部分模型支持的 “基础” 内容安全方案，因已不适配当前风险场景，计划下线。若您有推理点已选择该方案，可通过安全管理 \- 内容安全统一查询，建议尽快前往编辑推理点 \- 编辑内容安全护栏切换为 “默认” 方案。

# 配置自定义方案 ## 方案介绍 [火山引擎内容风险识别](https://www.volcengine.com/product/business-security)（以下简称“[火山风控](https://www.volcengine.com/product/business-security)”）的主要功能包括： * **多维度风险识别**：支持从涉黄、涉敏、违禁、谩骂、联系方式、广告、诈骗等多个维度，对用户输入的对话内容以及模型的输出内容进行精准识别和拦截，确保内容符合合规要求。 * **自定义词**：支持企业根据自身业务特点，维护自定义的敏感词库，提升风险识别的准确性。 ## 使用限制 * 自定义护栏仅支持拦截 **推理API** 的内容，其他渠道暂不支持。 * 自定义护栏当前**仅支持生图、生视频、生3D模型**，生文模型未来支持。 * **火山方舟**、[火山引擎内容风险识别](https://www.volcengine.com/product/business-security) 和[ TOS 对象存储](https://www.volcengine.com/product/TOS) 需要在同一个火山引擎主账号下。 ## 配置步骤 ### 步骤一：在火山风控平台配置内容审核策略请参考文档 [火山引擎-内容风险识别-产品接入操作手册](https://bytedance.larkoffice.com/docx/doxcnJHMZNxNMYlZpDEvwSYQYKh)进行配置。配置过程中如有问题，请联系**火山风控**工作人员。 ### 步骤二：在火山方舟平台配置推理点审核策略查看/编辑内容安全护栏入口： * 在线推理\-创建自定义推理点 * 在线推理\-编辑预置/自定义推理点 * 安全管理\-内容安全在选择内容安全护栏\-自定义方案时，显示配置安全策略列表： * 审核场景：方舟将自动根据当前模型的模态匹配需要审核的风险识别类型，如文本、图片、视频。 * 风险识别类型：对应[火山风控控制台](https://console.volcengine.com/rmc/main/product/overview)的文本风险识别、图片风险识别等服务。 * 场景(biztype)：方舟将自动匹配当前账号的**火山风控**产品权限、服务权限、appid、biztype数据，请选择当前审核场景对应的appid以及biztype。appid以及biztype可前往[火山风控控制台](https://console.volcengine.com/rmc/main/product/overview)查询。阅读并确认《[自定义内容审核机制合规承诺函](https://www.volcengine.com/docs/82379/1985878)》，完成策略配置。

说明

由于策略需要等待生效，请在确认后同步火山风控工作人员进行详细的策略配置，并建议您在测试环境完整测试效果后再正式应用于生产环境。

### 步骤三：验证策略生效完成配置后，通过以下步骤验证内容安全策略是否生效。 1. 通过 API 调用推理点，尝试输入包含敏感词或违规内容的信息，如果模型 response 中错误码**code** 包含 **Detection**，则表示内容安全策略生效。 * 错误码详情：[错误码](https://www.volcengine.com/docs/82379/1299023) * 错误码含义： * ARKRequest ID：方舟的 reqid。 * CSDRequestId：火山风控的 reqid。 * CSDcode：火山风控返回的 code，对应火山风控错误码。 * Label：火山风控返回的一级标签。 * SubLabel：火山风控返回的二级标签。 * CSDmessage：火山风控返回的 message。 * 返回示例：输入文本被拦截的返回示例如下。 ```Bash # API请求 curl https://ark-stg.cn-beijing.volces.com/api/v3/images/generations \ -X POST \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $ARK_API_KEY" \ -d '{ "model": "ep-202512***11216-s***8", "prompt": "***", "sequential_image_generation": "disabled", "response_format": "url", "size": "2K", "stream": false, "watermark": true }' # 错误响应 { "error": { "code": "InputTextRiskDetection", "message": "The request could not be processed because the input text includes sensitive content that violates ContentSecurityDetection. ARKRequest ID:021765****13792227e****0937189e****51ab5db4627482fe3e;CSDRequestId:2025120****01316****E02E****00F1E7;Label:103,103;SubLabel:103001,103011 Request id: 02176520001379****e2a160937189e7c6751ab5db4627482fe3e", "param": "", "type": "" } } ``` * 详细测试方式：请咨询火山风控工作人员。 2. 前往[火山风控控制台](https://console.volcengine.com/rmc/main/product/overview)，在左侧导航栏选择对应的场景，如**文本风险识别** \> **日志查询**，查看拦截的消息日志。 # 费用说明使用**火山引擎内容风险识别服务**会涉及如下两项费用，这些费用将自动从你的火山引擎账户余额中扣款。 * 内容风险识别产品相关费用：包括文本风险识别和图片风险识别等，具体收费标准请参见购买内容风险识别套餐时页面的费用说明。 * TOS 对象存储的存储容量费用：具体收费标准可参考[对象存储计费概述](https://www.volcengine.com/docs/6349/78455)。