视频点播 AI 视频翻译(声影智译)功能依托于火山引擎豆包大模型,支持文本级翻译、语音级翻译和面容级翻译,为您提供高效、专业的 AI 视频翻译解决方案,助力您轻松实现视频内容的多语言翻译与本土化,满足全球化传播的需求。该功能适用于短剧出海、跨境电商、在线教育等需要快速实现内容本土化的领域。
本文详细介绍声影智译功能的优势特性、计费规则,并提供在视频点播控制台从创建任务到在线编辑、最终导出翻译视频的详细操作步骤。
功能介绍
- 文本级翻译:智能识别视频中的语音并生成源语言字幕文本,将源语言字幕翻译成多种目标语言字幕,确保多语言用户能够无障碍理解视频内容。
- 语音级翻译:在文本级翻译的基础上,提供灵活的音色复刻方案。支持复刻原视频音色(自动提取视频中原说话人的音色、语调和情感特征,并使用该音色进行目标语言的语音播报)和使用自定义音色(支持您上传一个指定的音频文件,AI 将复刻该音频中的音色用于目标语言的语音播报)。无论使用哪种方式,生成的语音都能保留声音特质,并实现与视频时长的精准对齐,确保翻译后的语音与视频画面无缝融合。
- 面容级翻译:在前两种翻译能力的基础上,进一步实现说话人口型的对齐。能够根据翻译后的语音内容,自动调整说话人的口型,使其与目标语言的发音相匹配,提供更加自然、逼真的视觉体验。
- 翻译结果二次编辑:支持对翻译结果进行二次编辑和调整。用户可以根据需要对翻译结果进行语音级修改,确保翻译结果的准确性和流畅性。
优势特性
- 多语种支持:声影智译支持多种语言的翻译,输入语言支持中文和英语,输出语言支持中文、英语、日语、印尼语、西班牙语、葡萄牙语等。依托于大模型的强大翻译能力,能够实现极高的翻译准确率,满足全球化内容传播的需求。
- 精准的声音复刻:能够精准提取视频中原说话人的音色、语调和情感特征,生成的目标语言语音能够 1:1 还原原说话人的声音特质。同时,翻译后的语音能够与原始视频的时长精准对齐,确保视频的流畅性和一致性。
- 自然的虚拟口型:声影智译通过结合海量音视频处理数据,能够实现多语言驱动的虚拟口型对齐功能。能够根据翻译后的语音内容,自动调整说话人的口型,使其与目标语言的发音无缝贴合,从而实现更加自然、逼真的 AI 换脸效果。
适用场景
- 短剧出海:快速本土化国内短剧,并实现音色复刻和口型对齐,确保翻译后的短剧在语言、声音和视觉上与原始内容保持一致,助力短剧在全球市场的快速传播。
- 跨境电商:高效翻译产品介绍视频,保留原说话人音色与口型,提升海外用户购买体验。
- 在线教育:支持课程视频多语言翻译,适配目标地区语言需求,助力教育内容全球化。
翻译效果示例
计费说明
使用 AI 视频翻译功能会产生以下费用:
AI 翻译费用:根据您选择的翻译类型和输出文件的时长进行计费。此外,若您在创建 AI 视频翻译任务时开启了擦除原字幕,还会产生字幕擦除费用。
计费项 | 单价(元/分钟) |
|---|
文本翻译 | 3 |
语音翻译 | 4 |
面容翻译 | 7 |
精细化字幕擦除 | 4 |
媒资存储费用:您上传用于翻译的原始视频,以及翻译后生成的新视频,都需要存储在视频点播空间中。这将根据存储量和存储时长产生费用,详见媒资存储计费。
视频分发费用:如果您通过视频点播的 CDN 分发加速功能来播放或下载翻译后生成的视频,将产生分发加速费用,详见分发加速计费。
使用限制
- 输入视频限制:当前仅支持输入时长不超过 10 分钟的 MP4 视频。
- 自定义音色的音频文件限制:
- 时长:20-60 秒。
- 内容:仅包含单人说话的声音,请勿包含多人对话。
- 质量:音频文件需尽可能清晰、发音标准、无严重口音,且无背景音或环境噪音(如风声、回声)效果更佳。
前提条件
通过控制台进行 AI 视频翻译
步骤 1:创建 AI 视频翻译任务
登录视频点播控制台。
单击左侧导航栏 AI 工具箱 > AI 视频翻译。
单击选择空间并开始翻译任务。
选中目标空间并单击确定。
在创建视频翻译任务页面,进行以下操作:

配置项 | 说明 |
|---|
视频来源 | 单击从空间选择或从本地上传。 |
翻译语言 | 您需要选择视频源语言和目标语言。 - 源语言支持:
- 目标语言支持:
- 中文
- 英语
- 日语
- 韩语
- 德语
- 法语
- 俄语
- 西班牙语
- 葡萄牙语
- 意大利语
- 印尼语
- 越南语
- 泰语
- 阿拉伯语
- 土耳其语
|
翻译方式 | 您需要选择翻译方式: - 字幕翻译:(必选)即文本翻译,系统会从片源视频中提取字幕文本、翻译为目标语言并展示在视频中。
- 语音翻译:(可选)在文本翻译的基础上,实现音色复刻,使用原说话人音色进行字幕播报并完成音频回填,保留原始视频中人物的音色、语调、情绪,并实现视频时长与原始视频对齐。
- 面容翻译 (Beta):(可选)在文本翻译和语音翻译的基础上,实现说话人口型对齐,支持更具场景质感的 AI 换脸效果。
|
字幕来源 | 您可选择字幕来源: - 视频画面文字识别 (OCR):识别片源视频画面中的字幕文字,将其转换成可编辑的文字字幕,用于视频翻译。
- 自动语言识别 (ASR):识别片源视频中的语音内容,并将其转写为文字字幕,用于视频翻译。
- 上传字幕文件:直接上传已有的字幕文件(支持 WebVTT 和 SRT 格式的文件)。系统将通过字幕文件中的时间轴关联视频。
|
硬字幕 | 您可选择是否开启硬字幕。开启后,系统将在生成翻译后的视频时直接将字幕嵌入视频内容。您可自定义设置硬字幕字号。 |
擦除原字幕 | 您可选择是否开启擦除原字幕。开启后,系统将智能识别并擦除片源视频中的字幕内容,默认擦除画面下方 50% 区域的内容。 |
单击创建。系统会自动跳转至 AI 视频翻译任务列表,任务状态为处理中。
步骤 2:在线编辑字幕并预览效果
- 任务状态变为处理完成后,单击操作列的编辑按钮。
- 在编辑页面,您可以对视频进行逐句精细化调整:

- 编辑原字幕:对于源语言字幕识别不准确的句段,您可在此编辑,然后单击翻译按钮重新翻译当前句段。
- 编辑目标语言字幕:对于目标语言翻译不满意的句段,您可在此编辑,然后单击生成语音按钮重新合成语音。
- 更换说话人音色:如果您对某个句段的音色不满意,或希望使用特定的声音进行配音,可以在句段上方的 Speaker 下拉菜单中,为当前句段更换音色,或添加全新的自定义音色。具体步骤如下:
- 在 Speaker 下拉菜单中选择一个已有的说话人或单击添加说话人。

- 在添加说话人弹窗中,您可以进行以下操作:

- 从已有音色库选择:在已有音色库页签下,选择系统提供的预置高品质音色。
- 使用自定义音色:在我的音色页签下,上传符合使用限制的音频文件。上传成功后,系统将自动进行音色复刻。
注意
更换音色后,您必须单击该句段右侧的生成语音按钮,系统才会使用新的音色重新合成音频。其他句段的语音不会自动更新。
- 开关口型对齐:开启或关闭单个句段的口型对齐。当某个句段的 AI 口型生成效果不佳或不自然时,可关闭此句段的口型对齐功能,保留原始视频的口型。
- 调整参数:调整各个句段的时长、音量,确保语速和音量均衡。
步骤 3:导出视频和字幕文件
- 在线编辑和调整完成后,单击编辑页面右上角的导出至视频列表按钮。系统会自动跳转至 AI 视频翻译任务列表,任务状态为导出中。
说明
系统会为导出的视频重新生成一个 Vid。导出视频名称为“原视频名称+translation+导出时间”,例如:烟花translation20241108201211。
- 任务状态变为导出完成后,单击操作列的查看导出视频按钮。

- 在字幕文件页签下,找到目标字幕文件,在其操作列下单击下载。
开发者参考
除了通过控制台手动创建任务,您还可以调用 API,将 AI 视频翻译能力无缝集成到您自己的业务系统中。如需了解开发流程、API 详情和请求示例,请查阅通过 API 接入 AI 视频翻译。