Google ML Engine训练后模型保存失败，请求排查

阿华AIGC实验室

2026-5-29

解决Google ML Engine模型保存阶段的UnicodeDecodeError问题

问题根源

从你的错误栈可以明确定位问题：你用文本模式读取了二进制的Keras模型文件（.h5格式）。错误信息里的0x89是HDF5文件的起始字节标识，它不属于UTF-8文本字符范畴，当代码尝试用UTF-8解码读取的内容时，就触发了UnicodeDecodeError。

具体修复方案

修改你代码中的copy_file_to_gcs函数，将文件打开模式从文本模式改为二进制模式即可：

原代码：

def copy_file_to_gcs(job_dir, file_path):
    with file_io.FileIO(file_path, mode='r') as input_f:
        with file_io.FileIO(os.path.join(job_dir, file_path), mode='w+') as output_f:
            output_f.write(input_f.read())

修改后：

def copy_file_to_gcs(job_dir, file_path):
    with file_io.FileIO(file_path, mode='rb') as input_f:
        with file_io.FileIO(os.path.join(job_dir, file_path), mode='wb+') as output_f:
            output_f.write(input_f.read())