本文将介绍在不同语种场景中,如何配置 ASR(语音识别)、LLM(大模型)和 TTS(语音合成)模块,提升多语言交互体验。
中外混合场景
该场景适用于 AI 陪聊等应用,真人用户自由切换输入语言,AI 自动识别真人用户输入语种并使用相同语种回答。你可按照以下推荐操作配置 StartVoiceChat 接口的 ASR、LLM 和 TTS模块。
模块 | 建议配置 |
|---|
ASR | 使用流式语音识别大模型服务。
该模型支持自动识别语言(中英文、方言等),详细支持语种列表参看支持语种。 |
LLM | 在系统提示词适当增加多语言处理规则。例如: "SystemMessages": [
"输出语种自动匹配输入语种。",
"乱码输入检测规则:1. 非中英字符触发乱码提示,2:乱码响应模板:"这是乱码"。",
"输出英文需语法正确,且表达自然。"
]
|
TTS | 使用语音合成大模型服务。
该模型支持英、日、西班牙等多国语言,详细列表参看音色列表。 |
纯外语场景
该场景适用于外语陪练等应用, AI 与真人用户使用外语进行对话。你可按照以下推荐操作配置 StartVoiceChat 接口的 ASR、TTS 和 LLM 模块。
模块 | 建议配置 |
|---|
ASR | 可使用一下下 ASR 模型: - 流式语音识别:支持英、日、法等多国语言,详细列表参看场景&语种支持。
- 流式语音识别大模型:该模型支持自动识别语言(中英文、方言等),详细支持语种列表参看支持语种。
|
LLM | 在系统提示词适当增加多语言处理规则。例如: "SystemMessages": [
"输入文本无论是中文还是英文,最终回答都必须是英文。",
"如果输入是中文,请识别出,这是中文,并回复(这是中文)。",
"如果输入的内容是乱码、既不是中文也不是英文,请识别出,这是乱码,并回复(这是乱码)。",
"确保输出的英文表达准确、自然,符合语法规则。",
"回复尽量贴近真人的表达。"
]
|
TTS | 使用语音合成大模型服务。该模型支持英、日、西班牙等多国语言,详细列表参看音色列表。 |
中外互译场景
该场景适用于翻译等场景,真人用户输入后, AI 翻译并输出。你可按照以下推荐操作配置 StartVoiceChat 接口的 ASR、TTS 和 LLM 模块。
模块 | 建议配置 |
|---|
ASR | 可使用一下 ASR 模型: - 流式语音识别:支持英、日、法等多国语言,详细列表参看场景&语种支持。
- 流式语音识别大模型:该模型支持自动识别语言(中英文、方言等),详细支持语种列表参看支持语种。
|
LLM | 在系统提示词适当增加多语言处理规则。例如: "SystemMessages": [
"输入文本为中文,最终回答必须是英文。",
"如果输入不是中文,请识别出,这不是中文,并回复(这不是中文)。",
"如果输入的内容是乱码、既不是中文也不是英文,请识别出,这是乱码,并回复(这是乱码)。",
"确保输出的英文表达准确、自然,符合语法规则。",
"回复尽量贴近真人的表达。"
]
|
TTS | 使用语音合成大模型服务。该模型支持英、日、西班牙等多国语言,详细列表参看音色列表。 |