You need to enable JavaScript to run this app.
实时音视频

实时音视频

复制全文
进阶功能
控制语音播报内容
复制全文
控制语音播报内容

如果大模型生成的文本中包含非对话内容(如旁白、状态词)、Markdown 符号或 LaTeX 公式,直接进行语音合成会导致播报生硬、不易懂。支持在合成之前,对上述文本进行过滤或转译,以确保 AI 语音回复自然且符合人类听感。

功能

说明

过滤非对话内容

过滤“(点头)”、“【沉思】”等状态词,避免 TTS 朗读非对话内容,提升沉浸感。

过滤 Markdown 标签

自动去除 **# 等 Markdown 格式符号,确保语音朗读连贯。

LaTeX 公式朗读

将 LaTeX 公式(如 a^2 + b^2 = c^2)转换为可朗读的自然语言。

过滤非对话内容(通过括号)

通过识别并忽略特定括号内的文本,实现“只读对话,不读旁白”。适用于过滤 LLM 返回的情绪标记(如“开心”)、动作描写(如“点头”)或场景备注,避免 TTS 将这些辅助信息朗读出来,提升对话的沉浸感。

说明

  • 一般情况下,被过滤的内容仍会显示在字幕中,但不会被播放。
  • 在以下特殊情况下,括号里的内容不会出现在字幕中:
    • 条件:括号内容位于回复的最末端,且被判定为独立句子(其后无其他有效语义)。
    • 示例
      • ...我知无不言!(自信满满)。(自信满满)。不会显示在字幕中。
      • ...我知无不言(自信满满)!(自信满满)! 会显示在字幕中。

步骤 1:设置 Prompt

在 LLM 的系统提示词中引导 LLM 将不需要朗读的内容(如心理活动、动作)放入指定的括号中。

对于方舟或第三方大模型,需在 LLMConfig.SystemMessages 编写 Prompt。

约束限制

  • 支持以下括号:中文括号 ()、英文括号 ()、中文方括号 【】、英文方括号 [] 和英文花括号 {}
  • 括号里的内容不可超过 500 字符。若超过此限制,该部分文本仍可能被朗读。

Prompt 示例

## Role 
你是《西游记》中的孙悟空,请按照孙悟空的口吻回答问题。
## 技能
你的答复中如果有关于内心情绪的描写或者动作的描写,用()进行标记,单个()中的内容不可超过 500 字符。

步骤 2:开启过滤功能

调用 StartVoiceChat 接口,配置Config.TTSConfig.IgnoreBracketText 字段。支持多选,系统将过滤数组中指定符号内的所有内容。

符号类型

IgnoreBracketText 取值

中文括号 ()

1

英文括号 ()

2

中文方括号 【】

3

英文方括号 []

4

英文花括号 {}

5

请求示例

// 过滤中文括号()和英文括号()内的内容
{
    "TTSConfig": {
        "IgnoreBracketText": [1, 2],
        // 其他 TTS 配置...
    }
}

效果演示

  • LLM 返回俺老孙明日就要前往东海龙宫(激动),对那定海神针铁早已是馋得不行(兴奋)!
  • AI 播报俺老孙明日就要前往东海龙宫,对那定海神针铁早已是馋得不行!
  • 字幕显示俺老孙明日就要前往东海龙宫(激动),对那定海神针铁早已是馋得不行(兴奋)!

过滤 Markdown 标签

自动过滤 LLM 返回文本中的 Markdown 格式符号(如 **# 等),防止 AI 将其作为普通文本读出,从而确保语音播报的流畅自然。

说明

  • 该功能仅在使用 火山引擎语音合成大模型(流式输入流式输出)火山引擎声音复刻大模型(流式输入流式输出) 时支持。
  • 过滤操作仅针对语音,字幕仍显示 LLM 原始返回文本。
  • 配置方法:调用 StartVoiceChat 接口时,将 ProviderParams.Additions 中的 disable_markdown_filter 设置为 true

  • 配置示例

    {
        "TTSConfig": {
            "Provider": "volcano_bidirection",
            "ProviderParams": {
                "Additions": {
                    "disable_markdown_filter": true
                }
            }
        }
    }
    
  • 效果演示

    • LLM 返回请执行 **grep** 命令查看日志。
    • AI 播报请执行 grep 命令查看日志。
    • 字幕显示请执行 **grep** 命令查看日志。

朗读 LaTeX 公式

将 LLM 回复文本中的 LaTeX 公式转译为适合语音播报的自然语言文本后,再进行语音合成。

说明

  • 该功能仅在使用 火山引擎语音合成大模型(流式输入流式输出)​火山引擎声音复刻大模型(流式输入流式输出)​时支持。
  • 字幕仍显示原始 LaTeX 公式(如 a^2 + b^2 = c^2),播放的语音为转换后的自然语言。
  • 配置方法

    1. 必须先开启 Markdown 过滤:调用 StartVoiceChat 接口时,将 ProviderParams.Additions 中的 disable_markdown_filter 设置为 true
    2. 开启 LaTeX 转换:将 enable_latex_tn 设置为 true
  • 配置示例

    {
        "TTSConfig": {
            "Provider": "volcano_bidirection",
            "ProviderParams": {
                "Additions": {
                    "disable_markdown_filter": true, // 必须开启
                    "enable_latex_tn": true          // 开启公式朗读
                }
            }
        }
    }
    
  • 效果演示

    • LLM 返回根据公式 a^2 + b^2 = c^2 可知...
    • AI 播报根据公式 a 的平方加上 b 的平方等于 c 的平方 可知...
    • 字幕显示根据公式 a^2 + b^2 = c^2 可知...
最近更新时间:2026.01.23 14:05:56
这个页面对您有帮助吗?
有用
有用
无用
无用