试次数量不均的3种被试内条件下重复测量技术咨询

阿华AIGC实验室

2026-5-19

嘿，我来帮你梳理下这个针对不平衡被试内设计的数据分析问题，这类情况在行为科学或者心理实验里真的挺常见的，咱们一步步来拆解：

针对试次数量不均的被试内设计的分析技术

首先先给你列几个适用的技术，再逐个解答你的疑问：

一、可用的重复测量分析技术

混合效应模型（Multilevel/Mixed-Effects Models）：这绝对是首选方案！不管你的因变量是连续（用线性混合模型LMM）还是分类（用广义线性混合模型GLMM，比如logistic混合模型处理二分类结果），它都能灵活应对试次数量不均的情况。核心是把被试设为随机效应，捕捉个体间的差异，把实验条件设为固定效应，同时还能加入试次相关的协变量（比如试次顺序、反应时之类的）。完全不需要平衡数据，对缺失/不平衡的容忍度很高。
广义估计方程（GEE）：你已经尝试过这个方法，它适合关注总体平均效应的情况，不需要建模随机效应，也能处理相关的重复测量数据。不过你遇到了报错，后面咱们专门说解决办法。
稳健重复测量ANOVA：如果你的数据是完全随机缺失（MCAR），可以考虑用带Greenhouse-Geisser或Huynh-Feldt校正的稳健ANOVA，但这是退而求其次的选择，因为它还是依赖较强的假设，而且如果有被试缺失某个条件的试次，通常会直接删除该被试，容易损失样本量和引入偏差。

二、重复测量ANOVA是否可行？

结论很明确：普通的重复测量ANOVA不太适合你的情况。

普通重复测量ANOVA的核心假设之一就是「平衡设计」——每个被试在所有条件下的观测次数完全相同。如果你的数据是不平衡的（比如A=8、B=6、C=5），软件通常会采用「列表删除」的方式处理，直接删掉所有在任何条件下有缺失的被试，这会导致样本量骤降，而且如果缺失不是完全随机的（比如有些被试因为任务太难没做完C条件），结果会有很大偏差。
就算数据是MCAR，调整后的稳健ANOVA也不如混合模型灵活可靠，所以除非你有特别的理由，否则不推荐用普通重复测量ANOVA。

三、GEE出现「Hessian matrix is singular」报错的解决办法

这个报错本质是模型拟合时，信息矩阵（Hessian）不可逆，通常是数据或模型结构的问题，试试这些方法：

先简化模型结构：先去掉复杂的交互项，只拟合条件的主效应，看看能不能正常运行。如果可以，再逐步加入交互项，排查是不是某个交互项导致的问题——比如你的C条件试次只有5次，和其他条件的组合可能导致预测变量没有足够的变异。
调整协方差结构：GEE默认用「交换相关结构（exchangeable）」，试试换成「独立（independent）」或者「自回归AR(1)」结构，有时候换个协方差结构就能解决奇异问题。
检查完全分离问题：如果你做的是logistic回归，看看是不是某个条件下的因变量全部是0或者全部是1（比如C条件下所有试次的反应都是正确的），这会导致「完全分离」，让Hessian矩阵奇异。这种情况下，你可以考虑合并试次较少的条件，或者转用带惩罚项的模型（比如Firth惩罚）——不过GEE本身不支持惩罚，这时候换GLMM会更合适，GLMM对完全分离的鲁棒性更强。
重新参数化变量：比如把条件变量换成虚拟编码（而不是效应编码），检查有没有其他协变量和条件变量高度相关，共线性也会导致Hessian奇异。
如果试次实在太少：比如C条件只有5次，要是没法收集更多数据，不如直接转用混合模型，它对小样本的适应性比GEE好很多。

总结推荐

优先选择广义线性混合模型（GLMM），它是处理不平衡被试内设计的黄金标准，能同时捕捉个体差异和实验效应，结果最可靠。如果一定要用GEE，先按上面的方法排查问题。普通重复测量ANOVA只在数据严格平衡且缺失是完全随机的情况下才考虑，否则别用。

内容的提问来源于stack exchange，提问作者Estuche