计数数据零值处理及Poisson回归零偏差手动计算问题

阿华AIGC实验室

2026-5-20

Great questions—let’s tackle them clearly, since zero values in count data are a common pitfall, especially when doing manual calculations alongside glm outputs.

1. 如何处理计数数据中的零值？

The approach depends on why the zeros exist and what you’re trying to model:

保留零值，选用适配模型：基础的Poisson回归本身就支持零值（Poisson分布明确包含Pr(Y=0) = e^(-λ)的情况）。如果数据存在超额零值（零值数量远超Poisson分布的预期），可以使用零膨胀模型，比如零膨胀Poisson(ZIP)或零膨胀负二项(ZINB)，或者 hurdle模型。这类模型将数据生成过程拆分为两部分：一部分预测零值是否出现，另一部分预测非零计数的大小。
避免随意替换零值（除非万不得已）：用0.00001这类极小值替换零值是下下策。这会扭曲原始数据的分布特性，引入人为偏差，最终导致模型结果失真。这种操作或许能用于快速可视化（比如对数转换后的绘图），但绝对不能用于正式的统计建模。
排查零值的成因：区分结构零值（计数不可能发生的情况，比如从未使用过某项服务的人，其服务使用次数必然为零）和抽样零值（理论上可能有计数，但偶然未观测到）。结构零值需要用零截断回归这类模型处理，抽样零值则可以用标准模型或零膨胀模型应对。

2. 手动计算Poisson回归零偏差时log(0)的问题

你遇到这个问题，大概率是因为误用了Poisson对数似然公式。glm函数根本不会计算log(0)——下面解释原因并给出正确的手动计算方法：

正确的Poisson对数似然公式

对于每个观测值(i)，对数似然项为：
[
\ell_i = Y_i \log(\mu_i) - \mu_i - \log(Y_i!)
]
当(Y_i = 0)时：

(Y_i \log(\mu_i) = 0)（0乘以任何数都为0）
(\log(Y_i!) = \log(0!) = \log(1) = 0)
因此该项简化为(\ell_i = -\mu_i)——完全不会涉及log(0)的计算！

手动计算零偏差的步骤

零偏差的定义是(-2 \times (\text{零模型对数似然} - \text{饱和模型对数似然}))：

零模型：仅包含截距项，因此每个观测的预测值(\mu_0 = \bar{Y})（响应变量的均值）
饱和模型：完美预测每个(Y_i)，因此预测值(\mu_i = Y_i)

下面是一个R语言示例，结果会和glm的输出完全匹配：

# 生成带零值的计数数据
set.seed(123)
y <- rpois(100, lambda = 2)
y[1:10] <- 0 # 加入10个零值

# 获取glm计算的零偏差
glm_fit <- glm(y ~ 1, family = poisson)
cat("GLM计算的零偏差:", glm_fit$null.deviance, "\n")

# 手动计算零偏差
mu_null <- mean(y)

# 饱和模型对数似然
log_lik_saturated <- sum(
  ifelse(y == 0, 0, y * log(y) - y - lfactorial(y))
)

# 零模型对数似然
log_lik_null <- sum(
  ifelse(y == 0, -mu_null, y * log(mu_null) - mu_null - lfactorial(y))
)

# 计算零偏差
manual_null_deviance <- -2 * (log_lik_null - log_lik_saturated)
cat("手动计算的零偏差:", manual_null_deviance, "\n")

运行这段代码，你会发现手动计算结果和glm完全一致——根本不需要替换零值。