You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

概率测度间Radon-Nikodym导数的含义解析(含KL散度场景)

Radon-Nikodym导数在Kullback-Leibler散度及概率测度中的含义

嘿,这个问题问到点子上了!Radon-Nikodym(咱们简称RN)导数说白了就是两个概率测度之间的**「密度比值」**,不管是在一般概率测度的场景里,还是在KL散度这种机器学习常用的指标里,它的核心作用都是帮我们量化一个分布相对于另一个分布的「权重缩放关系」。咱们先从基础的概率测度层面讲起,再落到KL散度里具体看它的含义。

一、RN导数在一般概率测度间的核心含义

首先得明确前提:当两个概率测度$P$和$Q$定义在同一个样本空间上,并且$P$相对于$Q$是绝对连续的(简单说就是,任何被$Q$判定为“不可能发生”的集合,$P$也会判定为不可能发生),这时候RN导数$\frac{dP}{dQ}$就存在,它的本质可以从两个角度理解:

  • 点wise的密度/质量比值:如果样本空间是连续的(比如实数轴),RN导数就是我们熟悉的概率密度函数比值$\frac{p(x)}{q(x)}$;如果是离散的,那就是概率质量的比值$\frac{P(x)}{Q(x)}$。它直接告诉我们,在每个样本点上,$P$分配的“概率权重”相对于$Q$的权重是多少。
  • 测度的缩放转换因子:对于任何可测集合$A$,$P(A) = \int_A \frac{dP}{dQ}(x) dQ(x)$。你可以把$Q$当成一把“基准尺子”,RN导数就是每个点上的缩放比例,用这把尺子乘以缩放比例再积分,就能得到$P$在$A$上的测度值。

举个接地气的例子:假设$Q$是标准正态分布$N(0,1)$,$P$是$N(1,1)$,那RN导数就是$\frac{\phi(x;1,1)}{\phi(x;0,1)} = e^{x - 0.5}$。这意味着在$x=1$这个点,$P$分配的密度是$Q$的$e{0.5}≈1.65$倍;在$x=-1$这个点,$P$的密度只有$Q$的$e{-1.5}≈0.22$倍。

二、RN导数在KL散度中的具体含义

KL散度的定义是:
$$D_{KL}(P_\theta || P_{\theta_0}) = \mathbb{E}{P\theta}\left[ \log \frac{dP_\theta}{dP_{\theta_0}} \right]$$
这里的$\frac{dP_\theta}{dP_{\theta_0}}$就是模型分布$P_\theta$(对应参数$\theta$的数据集分布,即$P(D|\theta)$)相对于真实分布$P_{\theta_0}$的RN导数,它的作用可以拆解为:

  1. 点wise的对数似然比:对于每个可能的数据集$D$,$\log \frac{dP_\theta}{dP_{\theta_0}}(D)$就是模型认为$D$发生的概率,相对于真实分布认为$D$发生概率的对数比值。如果模型对$D$的概率估计比真实情况高,这个值就是正的;反之则为负。
  2. 整体的分布差异量化:对$P_\theta$取期望后,KL散度就变成了模型分布相对于真实分布的**「平均对数似然比」**。它衡量的是用$P_\theta$去近似$P_{\theta_0}$时的“信息损失”——如果两个分布完全一致,RN导数处处为1,对数为0,KL散度就是0;如果模型和真实分布差异越大,这个平均对数比值就会越大(KL散度始终非负)。

再拿独立同分布的数据集举例:假设每个样本的密度是$p(x;\theta)$,那数据集$D={x_1,x_2,...,x_n}$的模型分布是$P_\theta(D)=\prod_{i=1}^n p(x_i;\theta)$,真实分布是$P_{\theta_0}(D)=\prod_{i=1}^n p(x_i;\theta_0)$,这时候RN导数就是$\prod_{i=1}^n \frac{p(x_i;\theta)}{p(x_i;\theta_0)}$,取对数后就是$\sum_{i=1}^n \log \frac{p(x_i;\theta)}{p(x_i;\theta_0)}$——这不就是模型在数据集$D$上的对数似然与真实对数似然的差值总和嘛!对$P_\theta$取期望后,就得到了KL散度,也就是模型分布下,这种差值的平均水平。

内容的提问来源于stack exchange,提问作者user56834

火山引擎 最新活动