如何排查PIG中Python UDF问题：日志输出与索引错误处理

阿华AIGC实验室

2026-5-29

解决Pig Python UDF的日志调试与索引越界问题

一、如何在Hadoop日志中查看Python UDF的调试输出

你用print语句看不到输出是因为Pig的Python UDF里，print的内容默认会被定向到Task的stdout，但Hadoop不会自动把这部分内容聚合到可直接查看的日志中。要让调试信息出现在Hadoop的Task日志里，你需要把输出写入stderr流——Hadoop会捕获这部分内容并保存到Task的日志文件中。

具体做法是导入sys模块，用sys.stderr.write()输出调试信息，示例如下：

import sys
@outputSchema("date: chararray") 
def to_date2(dt):
    # 将调试信息写入stderr，会被Hadoop日志捕获
    sys.stderr.write(f"Received dt parameter: {dt}\n")
    if not dt:
        sys.stderr.write("Warning: dt is empty or None\n")
        return None
    a = dt.split("/")
    sys.stderr.write(f"Split result for '{dt}': {a}\n")
    if len(a) != 3:
        sys.stderr.write(f"Invalid date format: '{dt}' split into {len(a)} parts\n")
        return None
    return "20" + a[2] + a[0].zfill(2) + a[1].zfill(2)

之后你可以通过YARN的ResourceManager页面找到对应的Pig作业，进入具体Task的日志页面（查看stderr日志），就能看到这些调试输出了。