使用pandas.to_csv导出CSV时出现乱码,该用何种编码?
解决法语字符CSV导出乱码的问题
这问题我碰到过好多次了,尤其是处理带西欧语言字符的文件时特别容易踩坑!咱们一步步来捋清楚:
首先,你用ISO-8859-1加载Excel没问题,说明文件本身的字符编码和这个格式兼容,但导出utf-8后乱码,大概率是Windows下的文本编辑器(比如记事本)默认不识别无BOM的UTF-8文件,把它当成了ANSI编码解析,才导致法语字符显示乱码。
给你两个靠谱的解决方案,按优先级来:
1. 使用带BOM的UTF-8编码导出
直接把导出编码改成utf-8-sig,这个编码会在文件开头添加一个UTF-8 BOM(字节顺序标记),让Windows的文本编辑器和Excel都能正确识别UTF-8格式:
p.to_csv(outputfile, delimiter='|', encoding='utf-8-sig')
(顺便提一句,你之前的代码里delimeter拼错了,应该是delimiter,这个小细节别忽略哦)
2. 用Windows西欧字符编码导出
如果上面的方法还是有问题,可以试试cp1252编码(它是ISO-8859-1的超集,Windows下专门用来处理西欧语言字符):
p.to_csv(outputfile, delimiter='|', encoding='cp1252')
用这个编码导出后,打开文件时选择对应编码(比如Excel导入时选「Windows (Western Europe)」编码),就能正常显示法语字符了。
一般来说第一种方法就能解决大部分问题,你可以先试试~
内容的提问来源于stack exchange,提问作者HHH




