使用AWS Glue脚本（Spark环境）读取以¶为分隔符的CSV文件时触发Assertion Error的问题求助

阿华AIGC实验室

2026-4-27

解决AWS Glue中用pandas读取¶分隔文件的Assertion Error问题

我来帮你搞定这个问题！你遇到的Assertion Error大概率和特殊分隔符的编码处理或者Spark环境下使用pandas的兼容性有关，下面给你几个可行的解决方案：

方案1：改用Spark原生API读取（推荐）

既然你在AWS Glue的Spark环境中，优先用Spark分布式的DataFrame API会更稳妥，不仅避免pandas单机处理的限制，还能更好适配Glue的运行环境。示例代码如下：

# 读取文件并自动识别表头（匹配你的源文件结构）
df = spark.read.csv(
    f"s3://{inbound_bucket}/{file_name}",
    sep='¶',  # 直接使用分隔符，或者用Unicode编码'\u00B6'
    header=True,
    encoding='utf-8'
)

# 如果需要和原代码逻辑一致：跳过第一行表头，手动指定列名
df = spark.read.csv(
    f"s3://{inbound_bucket}/{file_name}",
    sep='¶',
    header=False,
    skipRows=1,
    encoding='utf-8'
)
# 手动设置列名
df = df.toDF("Cust_name", "Age", "ID")

方案2：调整pandas的读取参数（如果一定要用pandas）

如果必须用pandas处理，试试下面两个优化点：

1. 用Unicode编码指定分隔符

直接写sep='¶'可能在某些编码环境下被解析异常，换成它的Unicode编码\u00B6试试：

import pandas as pd
from io import StringIO

obj = s3.get_object(Bucket=inbound_bucket, Key=file_name)
# 先把S3对象内容读取为字符串，再传给pandas
content = obj['Body'].read().decode('utf-8')
df = pd.read_csv(
    StringIO(content),
    skiprows=1,
    sep='\u00B6',
    header=None,
    encoding='utf-8',
    engine='python'
)