You need to enable JavaScript to run this app.
导航
声影同传
最近更新时间:2025.06.10 20:14:00首次发布时间:2025.06.10 19:59:49
我的收藏
有用
有用
无用
无用

本文档说明如何接入火山引擎声影同传服务,并完成多语言直播配置。方案集成豆包同声传译模型、多语种字幕、数字人口型和声音复刻等能力,支持将直播音频实时转换为多语言内容,适用于双语直播、国际会议等场景。

功能架构


该架构图展示了声影同传在直播推流场景下的整体处理流程,主要包括以下五个环节:

  1. 音源分离:从直播流中提取人声与背景音,为后续处理提供干净音源。
  2. 语音识别与翻译:通过豆包同声传译模型识别人声内容,并实时翻译生成多语种字幕。
  3. 声音复刻:构建同步口型的数字人口型,保留原声音色,优化音量并进行降噪处理。
  4. 音频融合:将复刻人声与背景音自然融合,提升音频整体质量。
  5. 音视频合成:将处理后的音频与字幕一并生成最终输出,实现自然的多语言直播效果。

功能亮点

  • 沉浸式体验:结合声音克隆与口型同步技术,输出接近真人的配音和面部动作,显著提升视频自然度。
  • 多语言支持:支持中文和英文互译。
  • 低延迟处理:适配直播场景,提供端到端的低延迟处理体验。
  • 多种模式选择:支持“翻译字幕+声音复刻”、“配音模式”、“配音+口型模式”三种能力组合,灵活应对不同业务需求。
  • 支持录播与直播:兼容本地视频上传、实时摄像头采集、远程拉流等多种输入方式。

应用场景

  • 跨国会议与直播:适用于多语言交流场合,如国际会议、线上研讨会等。
  • 教育培训:支持多语言课程内容制作,提高跨语言教学效率。
  • 游戏娱乐:增强跨国玩家的交流体验。
  • 媒体内容制作:降低多语言内容生产的成本,提升效率。

前提条件

  • 已完成火山引擎账号注册实名认证,并开通视频直播服务。
  • 根据输入方式准备所需内容:
    • 本地开播:需具备连接良好的摄像头与麦克风。
    • 上传视频:准备 MP4 格式的视频文件,单个文件大小不得超过 100MB。
    • 拉取直播流:需提供有效的直播流地址,支持 HLS、FLV、RTMP 格式。
  • 网络连接稳定,确保音视频数据的连续传输。

操作步骤

1. 进入声影同传

  1. 登录视频直播控制台。

  2. 在左侧导航栏选择直播工具 > 声影同传,进入功能主页面。

    alt

2. 选择开播方式

在功能主页,您将看到四个输入方式选项卡。根据您的需求选择其中一种开播方式。

开播方式说明
本地开播适用于通过本地设备(摄像头、麦克风)进行直播,并即时进行声影同传处理的场景。例如,在线教学、直播会议等。
上传视频适用于对已有的本地视频文件(例如录制好的课程、宣传片等)进行声影同传处理后,再进行分发或存档的场景。
拉取直播流适用于从外部直播源(例如其他直播平台的直播流、CDN 回源流等)拉取内容,并进行实时声影同传处理后,再推送到目标平台的场景。
演示直播 Demo适用于快速了解和体验声影同传功能效果,可直接进入预览模式无需额外配置。这是一个便捷的预览工具。

3. 配置同传任务

根据您在步骤 2 中选择的开播方式,配置相应的同传参数。

说明

如果您选择演示直播 Demo 开播方式,可直接进入预览模式,无需进行以下配置。

配置项适用开播方式说明配置详情

翻译模式

本地开播、上传视频、拉取直播流

选择声影同传的处理方式,不同模式有不同的效果和延迟。

  • 翻译+声音克隆+口型:翻译语音、克隆音色并同步口型,提供沉浸式体验。
  • 翻译+声音克隆:翻译语音、克隆音色,但不调整口型。
  • 仅翻译字幕:仅将语音翻译为字幕显示在画面中。

语言

本地开播、上传视频、拉取直播流

选择源语言和目标翻译语言。

  • 源语种:选择输入视频的原始语言,支持选择中文和英文。
  • 翻译为:选择翻译后的目标语言,支持选择中文和英文。

本地设备

本地开播

选择音视频输入设备。

  • 摄像头:从列表中选择要使用的摄像头设备。
  • 麦克风 :从列表中选择要使用的麦克风设备。
本地文件上传视频上传待处理的本地视频文件。选择上传视频,支持 MP4 格式,单个文件大小不超过 100MB。

拉流地址

拉取直播流

输入直播流的播放地址。

输入 HLS、FLV、RTMP 格式的有效直播拉流地址。

说明

地址中不可包含多字节编码字符,如包含需转换为单字节编码。

体验时长本地开播、上传视频、拉取直播流选择需要体验功能的时长。选择 10、60 或 100 分钟的体验时长,任务将在所选时长结束后自动停止。

4. 预览与开始同传

  1. 在配置过程中,您可以在右侧的效果预览区域实时查看源画面和经过声影同传处理后的输出画面效果。

  2. 完成所有配置后,点击页面底部的开始体验按钮,系统将开始处理您的音视频流。

    • 源画面区域将显示原始输入。
    • 输出画面区域在处理完成后会自动开始播放。
    • 在播放过程中,您可以点击暂停开始按钮来控制播放。

    alt

5. 停止同传

在同传任务进行过程中,您可以随时点击页面底部的停止体验按钮来结束当前任务。