多音色文本转语音（TTS）：Python实现方案及角色语音切换格式咨询

多音色文本转语音（TTS）：Python实现方案及角色语音切换格式咨询

阿华AIGC实验室

2026-5-15

嘿，这个需求太贴合剧本类内容的场景了——让每个角色用专属音色朗读，完全可以实现！我来给你捋捋可行的方案和关键细节：

一、实现多角色音色朗读的程序/Python方案

目前有两种主流方向：调用云端API（快速上手，音色选择多）、本地开源模型（隐私性强，自定义度高），我分别给你举例：

1. 云端API方案：ElevenLabs（推荐，音色细腻支持自定义）

ElevenLabs的TTS API支持创建专属音色（甚至可以上传声音样本克隆），完美匹配剧本角色的个性化需求。

先安装依赖：

pip install elevenlabs pydub

然后是示例代码，自动解析剧本、按角色生成对应音色并合并音频：

from elevenlabs import generate, set_api_key
from pydub import AudioSegment
import os

# 替换成你的ElevenLabs API密钥（官网注册获取）
set_api_key("YOUR_ELEVENLABS_API_KEY")

# 配置角色与音色ID的映射（音色ID可以在ElevenLabs平台创建/选择）
character_voice_map = {
    "Anna": "21m00Tcm4TlvDq8ikWAM",  # 示例：温柔女声
    "George": "AZnzlk1XvdvUeBnXmlld" # 示例：沉稳男声
}

# 示例莎士比亚风格剧本
script_content = """Anna: Good morrow, kind sir! Dost thou know where the town square lies?
George: Good morrow, lady! 'Tis but a short walk past the old oak yonder.
Anna: I thank thee kindly. May thy day be filled with joy!
George: And thine as well, fair Anna."""

# 分割剧本行，逐个处理角色台词
audio_parts = []
for line in script_content.split("\n"):
    if ": " in line:
        char_name, dialogue = line.split(": ", 1)
        # 获取对应角色的音色，没有则用默认
        voice_id = character_voice_map.get(char_name, character_voice_map["Anna"])
        # 生成语音
        audio_data = generate(
            text=dialogue,
            voice=voice_id,
            model="eleven_monolingual_v1"
        )
        # 临时保存并转为AudioSegment对象
        temp_path = "temp_voice.wav"
        with open(temp_path, "wb") as f:
            f.write(audio_data)
        audio_parts.append(AudioSegment.from_wav(temp_path))
        os.remove(temp_path)

# 合并所有语音段
final_audio = AudioSegment.empty()
for part in audio_parts:
    final_audio += part + AudioSegment.silent(duration=500)  # 角色间加0.5秒停顿

# 保存最终音频
final_audio.export("shakespeare_script_voiceover.wav", format="wav")

2. 本地开源方案：Coqui TTS

如果不想依赖云端，Coqui TTS是个不错的选择——完全本地运行，支持训练自定义音色，适合隐私敏感的场景。你可以先安装：

pip install TTS

然后可以用预训练模型生成不同音色的语音，或者上传角色的声音样本训练专属模型（官方文档有详细训练教程）。

二、语音切换的文件格式选择

这里分两种场景：

生成单文件包含所有角色语音：推荐用WAV（无压缩，音质最佳，适合后期编辑）、MP3（高压缩率，文件小，适合分享）、FLAC（无损压缩，兼顾音质和文件大小）。代码里的示例用的就是WAV，兼容性最好。
分角色单独生成文件：可以每个角色的台词生成单独的WAV/MP3文件，之后用音频编辑工具（比如Audacity）手动合并，或者用代码自动拼接，这种方式更灵活，方便调整角色间的停顿时长。

另外，如果需要更精细的控制（比如给音频添加角色标记），可以考虑MP4格式支持的章节标记，但对于剧本朗读来说，直接合并成连续音频是最实用的方式。

内容的提问来源于stack exchange，提问作者Uwe.Schneider

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠