PySpark RDD split属性错误排查：筛选指定日期数据失败

阿华AIGC实验室

2026-5-6

解决Spark RDD Row对象调用split方法的AttributeError问题

嘿，我一眼就瞅出问题所在啦！你碰到的AttributeError: split错误，根源是把Spark的Row对象当成字符串来处理了～

错误原因拆解

你的insuredatarepart RDD里的元素是Spark的Row对象（样例像Row(BusinessDate=u'01-10-2019', DentalOnlyPlan=u'No', ...)），这是Spark用来存储结构化数据的专用类型，它压根没有split方法。你之前写的map(lambda y: y.split(",",-1))试图对Row对象调用字符串的split方法，自然会抛出属性不存在的错误。

正确的过滤写法

完全不需要做split操作，直接在filter里访问Row的BusinessDate属性就能筛选目标数据，代码修改如下：

print("\n ### Filter RDD by business date field:") 
rdd_201901001 = insuredatarepart.filter(lambda row: row.BusinessDate == u'01-10-2019') 
print(" ### count of rdd_201901001:",rdd_201901001.count())