You need to enable JavaScript to run this app.
优惠活动
大模型
产品
解决方案
定价
更多
文档控制台
免费开始使用

关于高斯图拉索问题中最优解存在性的疑问(基于凸优化与强制函数)

关于高斯图拉索问题中最优解存在性的疑问(基于凸优化与强制函数)

嗨,你的问题刚好戳中了高斯图拉索(Graphical Lasso)优化里的一个核心基础点——最优解的存在性,咱们一步步拆解来看:

首先,你定义的目标函数是在对称正定矩阵集合上最小化:
$$\langle \Theta, \hat \Sigma \rangle - \log \det \Theta + \lambda_n \lVert \Theta \rVert_{1, \text{off}}$$
其中内积$\langle A,B \rangle = \text{tr}(A^T B)$,$\lVert \Theta \rVert_{1, \text{off}}$是矩阵非对角元素的L1范数(也就是所谓的“off-diagonal L1 penalty”)。你已经推导出来的KKT条件是对的:最优解$\hat \Theta$需要满足$\hat \Sigma - \hat \Theta^{-1} + \lambda_n \hat Z = 0$,其中$\hat Z$是$\lVert \hat \Theta \rVert_{1, \text{off}}$在$\hat \Theta$处的次梯度。

现在回到你关心的存在性问题,核心确实和强制函数(coercive function)以及凸优化的基本性质有关,咱们从几个关键角度验证:


1. 目标函数是凸函数

先确认一个前提:这个目标函数是凸的,理由很简单:

  • $\langle \Theta, \hat \Sigma \rangle$是线性函数,天然凸;
  • $-\log \det \Theta$在对称正定矩阵集合(记为$\mathbb{S}_{++}^p$,$p$是矩阵维度)上是凸函数——你可以通过验证它的Hessian矩阵正定,或者用凸函数的定义直接推导;
  • $\lambda_n \lVert \Theta \rVert_{1, \text{off}}$是L1范数的变体,显然也是凸函数;
    凸函数的和还是凸函数,所以整个目标函数$f(\Theta)$是凸的。

2. 优化集合的闭包处理

对称正定矩阵集合$\mathbb{S}{++}p$是**开集**,但我们可以把优化范围扩展到它的闭包$\mathbb{S}_+p$(对称半正定矩阵集合)——因为当$\Theta$是半正定奇异矩阵时,$\log \det \Theta = -\infty$,所以$-\log \det \Theta = +\infty$,目标函数值会趋向无穷大,不可能成为最小值点。所以问题等价于在闭凸集$\mathbb{S}+^p$上最小化$f(\Theta)$。

3. 验证目标函数的强制性

凸优化里有个关键结论:如果凸函数在非空闭凸集上是强制的(也就是当$\Theta$的范数趋向无穷大时,$f(\Theta)$趋向$+\infty$),那么这个函数一定存在最小值点。咱们来验证$f(\Theta)$的强制性:

当$|\Theta| \to \infty$时,分两种情况讨论:

  • 情况1:$\Theta$的迹$\text{tr}(\Theta) \to \infty$
    此时$\langle \Theta, \hat \Sigma \rangle = \text{tr}(\Theta \hat \Sigma)$,而$\hat \Sigma$作为样本协方差矩阵,通常是正定的(只要样本量足够),所以$\text{tr}(\Theta \hat \Sigma) \geq \lambda_{\text{min}}(\hat \Sigma) \cdot \text{tr}(\Theta)$,其中$\lambda_{\text{min}}(\hat \Sigma)$是$\hat \Sigma$的最小特征值(正数)。这一项会随着$\text{tr}(\Theta)$线性趋向无穷大。
    而$-\log \det \Theta$的增长速度是对数级的:根据AM-GM不等式,$\det \Theta \leq (\text{tr}\Theta / p)^p$,所以$-\log \det \Theta \geq -p \log(\text{tr}\Theta / p)$,对数增长远慢于线性增长。
    至于$\lambda_n \lVert \Theta \rVert_{1, \text{off}}$,它的增长速度最多是多项式级,同样赶不上线性增长的$\langle \Theta, \hat \Sigma \rangle$。所以整体$f(\Theta) \to +\infty$。
  • 情况2:$\Theta$的迹有界,但$|\Theta| \to \infty$
    这种情况根本不可能发生——对于半正定对称矩阵,$|\Theta|_F^2 = \text{tr}(\Theta^2) \leq (\text{tr}\Theta)^2$(因为所有特征值非负,平方和不超过和的平方),所以迹有界的话,Frobenius范数也有界,算子范数等其他范数自然也有界,不可能趋向无穷。

哪怕$\hat \Sigma$是半正定的(比如样本量不足导致协方差矩阵奇异),只要$\hat \Sigma$不是零矩阵,同样能推导$f(\Theta)$的强制性:当$|\Theta| \to \infty$时,要么$\langle \Theta, \hat \Sigma \rangle$趋向无穷(如果$\Theta$在$\hat \Sigma$的支撑方向上有分量),要么$\Theta$的特征值趋向0,但此时$\Theta$的范数不会趋向无穷,所以$f(\Theta)$依然会趋向无穷。


结论

既然$f(\Theta)$是闭凸集$\mathbb{S}+^p$上的凸强制函数,那么根据凸优化的基本定理,它一定存在最小值点$\hat \Theta$,而且这个最小值点必然在$\mathbb{S}{++}^p$里(因为闭包上的奇异矩阵处函数值无穷大),所以你推导的KKT条件对应的$\hat \Theta$是一定存在的。

备注:内容来源于stack exchange,提问作者Phil

火山引擎 最新活动