如何计算联合概率密度函数？关于连续变量MLE联合密度求解的疑问

阿华AIGC实验室

2026-5-19

关于联合概率密度与MLE的问题解答

嘿，很高兴能帮你梳理这些概率和极大似然估计的核心问题，咱们一个个来拆解：

问题1：如何计算联合概率密度函数？

计算联合概率密度的方法取决于变量之间是否独立，主要分两种情况：

独立连续随机变量的情况
如果有n个相互独立的连续随机变量 (X_1, X_2, ..., X_n)，它们各自的边缘概率密度函数为 (f_1(x_1), f_2(x_2), ..., f_n(x_n))，那么它们的联合概率密度函数就是各个边缘密度的乘积：
f(x₁, x₂, ..., xₙ) = f₁(x₁) × f₂(x₂) × ... × fₙ(xₙ)
这是独立随机变量的核心性质——联合分布（连续场景下是密度，离散场景下是概率）等于边缘分布的乘积。
非独立连续随机变量的情况
当变量不独立时，需要用条件概率密度的链式法则来推导。比如对于两个变量X和Y，联合密度可以表示为：
f(x, y) = f(x) × f(y|x)
其中 (f(y|x)) 是Y在X=x条件下的条件概率密度。推广到n个变量的话，链式法则的形式是：
f(x₁, x₂, ..., xₙ) = f(x₁) × f(x₂|x₁) × f(x₃|x₁,x₂) × ... × f(xₙ|x₁,...,xₙ₋₁)
如果变量服从特定的多元分布（比如多元正态分布），也可以直接套用该分布的联合密度公式，这类公式通常基于变量的均值向量和协方差矩阵构建。

问题2：连续变量MLE中，能否直接将各原始密度相乘得到联合密度？

完全可以这么做，而且这是MLE推导中的标准操作，核心依据来自两个关键点：

1. 独立样本的联合密度规则

对于独立同分布（i.i.d.）的样本，不管是离散还是连续场景，联合分布（密度/概率）等于单个样本边缘分布（密度/概率）的乘积。在连续场景下，这个规则同样成立——因为独立意味着一个变量的取值不会影响另一个变量的密度，所以联合密度就是各单个样本密度的乘积，这是概率理论中的基本结论，不需要额外的特殊规则。

2. MLE的核心逻辑支撑

你提到的“用概率密度替代概率”的思路非常准确。在连续场景下，单个观测值 (x_i) 的实际概率 (P(X=x_i)=0)，但密度 (f(x_i;θ)) 描述的是 (x_i) 附近微小邻域内的概率“密集程度”：
P(xᵢ - ε < Xᵢ < xᵢ + ε) ≈ 2ε × f(xᵢ;θ)
当ε趋近于0时，这个近似的精度无限高。对于n个独立样本，它们同时落在各自微小邻域内的联合概率是：
P(∩₁ⁿ (xᵢ - ε < Xᵢ < xᵢ + ε)) ≈ (2ε)ⁿ × ∏₁ⁿ f(xᵢ;θ)
要最大化这个联合概率，由于 ((2ε)^n) 是和参数θ无关的常数，所以等价于最大化各样本密度的乘积——也就是联合概率密度函数。这就是为什么MLE中直接用联合密度（即各单个密度的乘积）作为似然函数的原因。

内容的提问来源于stack exchange，提问作者Magnus