You need to enable JavaScript to run this app.
实时音视频

实时音视频

复制全文
进阶功能
控制语音播报内容
复制全文
控制语音播报内容

如果大模型生成的文本中包含非对话指令(如动作指令或情绪标识)、Markdown 符号或 LaTeX 公式,直接进行语音合成会导致播报生硬、不易懂。支持在合成之前,对上述文本进行过滤或转译,以确保智能体语音回复自然且符合人类听感。

功能

说明

过滤非对话内容

过滤“(点头)”、“【沉思】”等状态词,避免 TTS 朗读非对话内容,提升沉浸感。

过滤 Markdown 标签

自动去除 **# 等 Markdown 格式符号,确保语音朗读连贯。

LaTeX 公式朗读

将 LaTeX 公式(如 a^2 + b^2 = c^2)转换为可朗读的自然语言。

过滤非对话内容(通过括号)

通过识别并忽略特定括号内的文本,实现“只读对话,不读旁白”。适用于过滤 LLM 返回的情绪标记(如“开心”)、动作描写(如“点头”)或场景备注,避免 TTS 将这些辅助信息朗读出来,提升对话的沉浸感。

说明

  • 一般情况下,被过滤的内容仍会显示在字幕中,但不会被播放。
  • 在以下特殊情况下,括号里的内容不会出现在字幕中:
    • 条件:括号内容位于回复的最末端,且被判定为独立句子(其后无其他有效语义)。
    • 示例
      • ...我知无不言!(自信满满)。(自信满满)。不会显示在字幕中。
      • ...我知无不言(自信满满)!(自信满满)! 会显示在字幕中。

步骤 1:设置 Prompt

在 LLM 的 Prompt 中,引导大模型将不需要朗读的内容(如心理活动、动作)放入指定的括号中。

目前支持的括号包括:中文括号 ()、英文括号 ()、中文方括号 【】、英文方括号 [] 和英文花括号 {}

Prompt 示例

## Role 
你是《西游记》中的孙悟空,请按照孙悟空的口吻回答问题。
## 技能
你的答复中如果有关于内心情绪的描写或者动作的描写,用()进行标记。

步骤 2:开启过滤功能

调用 StartVoiceChat 接口,配置Config.TTSConfig.IgnoreBracketText 字段。支持多选,系统将过滤数组中指定符号内的所有内容。

符号类型

IgnoreBracketText 取值

中文括号 ()

1

英文括号 ()

2

中文方括号 【】

3

英文方括号 []

4

英文花括号 {}

5

请求示例

// 过滤中文括号()和英文括号()内的内容
{
    "TTSConfig": {
        "IgnoreBracketText": [1, 2],
        // 其他 TTS 配置...
    }
}

效果演示

  • LLM 返回俺老孙明日就要前往东海龙宫(激动),对那定海神针铁早已是馋得不行(兴奋)!
  • 智能体播放俺老孙明日就要前往东海龙宫,对那定海神针铁早已是馋得不行!
  • 字幕显示俺老孙明日就要前往东海龙宫(激动),对那定海神针铁早已是馋得不行(兴奋)!

过滤 Markdown 标签

自动过滤 LLM 返回文本中的 Markdown 格式符号(如 **# 等),防止智能体将其作为普通文本读出,从而确保语音播报的流畅自然。

说明

  • 该功能仅在使用 火山引擎语音合成大模型(流式输入流式输出)火山引擎声音复刻大模型(流式输入流式输出) 时支持。
  • 过滤操作仅针对语音,字幕仍显示 LLM 原始返回文本。
  • 配置参数:调用 StartVoiceChat 接口时,将 ProviderParams.Additions 中的 disable_markdown_filter 设置为 true

  • 配置示例

    {
        "TTSConfig": {
            "Provider": "volcano_bidirection",
            "ProviderParams": {
                "Additions": {
                    "disable_markdown_filter": true
                }
            }
        }
    }
    
  • 效果演示

    • LLM 返回请执行 **grep** 命令查看日志。
    • 智能体播放请执行 grep 命令查看日志。
    • 字幕显示请执行 **grep** 命令查看日志。

朗读 LaTeX 公式

将 LLM 回复文本中的 LaTeX 公式转译为适合语音播报的自然语言文本后,再进行语音合成。

说明

  • 该功能仅在使用 火山引擎语音合成大模型(流式输入流式输出)​火山引擎声音复刻大模型(流式输入流式输出)​时支持。
  • 字幕仍显示原始 LaTeX 公式(如 a^2 + b^2 = c^2),播放的语音为转换后的自然语言。
  • 配置参数

    1. 必须先开启 Markdown 过滤:调用 StartVoiceChat 接口时,将 ProviderParams.Additions 中的 disable_markdown_filter 设置为 true
    2. 开启 LaTeX 转换:将 enable_latex_tn 设置为 true
  • 配置示例

    {
        "TTSConfig": {
            "Provider": "volcano_bidirection",
            "ProviderParams": {
                "Additions": {
                    "disable_markdown_filter": true, // 必须开启
                    "enable_latex_tn": true          // 开启公式朗读
                }
            }
        }
    }
    
  • 效果演示

    • LLM 返回根据公式 a^2 + b^2 = c^2 可知...
    • 智能体播放根据公式 a 的平方加上 b 的平方等于 c 的平方 可知...
    • 字幕显示根据公式 a^2 + b^2 = c^2 可知...
最近更新时间:2025.12.26 00:14:41
这个页面对您有帮助吗?
有用
有用
无用
无用