提升多语言 AI 交互体验--实时音视频-火山引擎

文档中心

实时音视频

请输入

最佳实践

提升多语言 AI 交互体验

本文将介绍在不同语种场景中，如何配置 ASR（语音识别）、LLM（大模型）和 TTS（语音合成）模块，提升多语言交互体验。

中外混合场景

该场景适用于 AI 陪聊等应用，真人用户自由切换输入语言，AI 自动识别真人用户输入语种并使用相同语种回答。你可按照以下推荐操作配置 StartVoiceChat 接口的 ASR、LLM 和 TTS模块。

模块	建议配置
ASR	使用流式语音识别大模型服务。该模型支持自动识别语言（中英文、方言等），详细支持语种列表参看支持语种。
LLM	在系统提示词适当增加多语言处理规则。例如： `"SystemMessages": [ "输出语种自动匹配输入语种。", "乱码输入检测规则：1. 非中英字符触发乱码提示，2：乱码响应模板："这是乱码"。", "输出英文需语法正确，且表达自然。" ]`
TTS	使用语音合成大模型服务。该模型支持英、日、西班牙等多国语言，详细列表参看音色列表。

模块

建议配置

ASR

使用流式语音识别大模型服务。
该模型支持自动识别语言（中英文、方言等），详细支持语种列表参看支持语种。

LLM

在系统提示词适当增加多语言处理规则。例如：

"SystemMessages": [
    "输出语种自动匹配输入语种。",
    "乱码输入检测规则：1. 非中英字符触发乱码提示，2：乱码响应模板："这是乱码"。",
    "输出英文需语法正确，且表达自然。"
]

TTS

使用语音合成大模型服务。
该模型支持英、日、西班牙等多国语言，详细列表参看音色列表。

纯外语场景

该场景适用于外语陪练等应用， AI 与真人用户使用外语进行对话。你可按照以下推荐操作配置 StartVoiceChat 接口的 ASR、TTS 和 LLM 模块。

模块	建议配置
ASR	可使用一下下 ASR 模型：流式语音识别：支持英、日、法等多国语言，详细列表参看场景&语种支持。流式语音识别大模型：该模型支持自动识别语言（中英文、方言等），详细支持语种列表参看支持语种。
LLM	在系统提示词适当增加多语言处理规则。例如： `"SystemMessages": [ "输入文本无论是中文还是英文，最终回答都必须是英文。", "如果输入是中文,请识别出,这是中文,并回复(这是中文)。", "如果输入的内容是乱码、既不是中文也不是英文,请识别出,这是乱码,并回复(这是乱码)。", "确保输出的英文表达准确、自然,符合语法规则。", "回复尽量贴近真人的表达。" ]`
TTS	使用语音合成大模型服务。该模型支持英、日、西班牙等多国语言，详细列表参看音色列表。

模块

建议配置

ASR

可使用一下下 ASR 模型：

流式语音识别：支持英、日、法等多国语言，详细列表参看场景&语种支持。
流式语音识别大模型：该模型支持自动识别语言（中英文、方言等），详细支持语种列表参看支持语种。

LLM

在系统提示词适当增加多语言处理规则。例如：

"SystemMessages": [
    "输入文本无论是中文还是英文，最终回答都必须是英文。",
    "如果输入是中文,请识别出,这是中文,并回复(这是中文)。",
    "如果输入的内容是乱码、既不是中文也不是英文,请识别出,这是乱码,并回复(这是乱码)。",
    "确保输出的英文表达准确、自然,符合语法规则。",
    "回复尽量贴近真人的表达。"
]

TTS

使用语音合成大模型服务。该模型支持英、日、西班牙等多国语言，详细列表参看音色列表。

中外互译场景

该场景适用于翻译等场景，真人用户输入后， AI 翻译并输出。你可按照以下推荐操作配置 StartVoiceChat 接口的 ASR、TTS 和 LLM 模块。

模块	建议配置
ASR	可使用一下 ASR 模型：流式语音识别：支持英、日、法等多国语言，详细列表参看场景&语种支持。流式语音识别大模型：该模型支持自动识别语言（中英文、方言等），详细支持语种列表参看支持语种。
LLM	在系统提示词适当增加多语言处理规则。例如： `"SystemMessages": [ "输入文本为中文,最终回答必须是英文。", "如果输入不是中文,请识别出,这不是中文,并回复(这不是中文)。", "如果输入的内容是乱码、既不是中文也不是英文,请识别出,这是乱码,并回复(这是乱码)。", "确保输出的英文表达准确、自然,符合语法规则。", "回复尽量贴近真人的表达。" ]`
TTS	使用语音合成大模型服务。该模型支持英、日、西班牙等多国语言，详细列表参看音色列表。

模块

建议配置

ASR

可使用一下 ASR 模型：

流式语音识别：支持英、日、法等多国语言，详细列表参看场景&语种支持。
流式语音识别大模型：该模型支持自动识别语言（中英文、方言等），详细支持语种列表参看支持语种。

LLM

在系统提示词适当增加多语言处理规则。例如：

"SystemMessages": [
    "输入文本为中文,最终回答必须是英文。",
    "如果输入不是中文,请识别出,这不是中文,并回复(这不是中文)。",
    "如果输入的内容是乱码、既不是中文也不是英文,请识别出,这是乱码,并回复(这是乱码)。",
    "确保输出的英文表达准确、自然,符合语法规则。",
    "回复尽量贴近真人的表达。"
]

TTS

使用语音合成大模型服务。该模型支持英、日、西班牙等多国语言，详细列表参看音色列表。

最近更新时间：2026.01.09 10:56:37

这个页面对您有帮助吗？

有用

无用

实时音视频

中外混合场景 #

纯外语场景 #

中外互译场景 #

中外混合场景

纯外语场景

中外互译场景