UTF-8编解码问题求助：文本转语音流程中文件读写报错

阿华AIGC实验室

2026-5-27

解决Merlin文本转语音中的编码问题

我太懂这种被编码问题卡好几天的痛苦了！咱们先把问题拆解清楚，再一步步解决：

问题核心

从错误栈能看出来，Merlin在读取你保存的文本文件时，用UTF-8解码遇到了0xa4这个无效字节——这个字节通常属于GBK/GB2312编码（比如对应中文里的“￥”符号），说明你保存的文件编码和Merlin预期的UTF-8不匹配。

你之前尝试的问题分析

直接保存POST文本：POST请求过来的原始数据可能是GBK编码，你直接保存成了GBK格式的文件，但Merlin用UTF-8读取，自然解码失败。
encode('utf-8').split()再decode：这个操作逻辑有问题——split()会把字节串拆成字节列表，之后再decode是对每个字节元素解码，完全不符合预期，等于把文本拆碎了再乱解码。
直接写bytes到codecs.open：codecs.open的w+模式默认是写入字符串，你直接传bytes对象肯定会报类型错误。

正确的解决方案

第一步：正确解析POST请求的文本

首先要把POST过来的原始字节数据解码成Python字符串，关键是要匹配POST数据的实际编码（大概率是GBK，因为出现了0xa4字节）：

# 以Flask为例，获取POST原始数据
raw_data = request.get_data()

# 先尝试用GBK解码（针对0xa4字节的常见场景）
try:
    text = raw_data.decode('gbk')
except UnicodeDecodeError:
    # 如果GBK不行， fallback到UTF-8，或者根据你的业务调整编码
    text = raw_data.decode('utf-8', errors='replace')

第二步：以UTF-8编码保存文件

用Python3的open函数直接指定编码（比codecs.open更简洁可靠），同时用with语句自动管理文件：

with open(filename, 'w', encoding='utf-8') as f:
    f.write(text)

验证方法

保存文件后，用终端命令file filename查看编码，如果输出显示UTF-8 Unicode text，说明保存正确；也可以用文本编辑器（比如VS Code）打开，确认编码是UTF-8。

额外注意点

如果你不确定POST数据的编码，可以先打印raw_data的前几个字节，或者查看请求头里的Content-Type字段（比如Content-Type: text/plain; charset=gbk），里面会明确标注编码。
Merlin的配置里如果有指定读取编码的选项，确保它和你保存文件的编码一致（这里我们统一用UTF-8就没问题）。

内容的提问来源于stack exchange，提问作者Tuma