指数函数内矩阵与向量乘积对向量β的求导可行性咨询
当然可行啦!咱们一步步把这个问题拆解明白:
先明确各变量的维度:β是p维列向量,X是n×p矩阵,所以Xβ会得到一个n维列向量。这里的指数函数$\exp(Xβ)$是逐元素作用在这个n维向量上的,最终得到的也是一个n维列向量,它的第i个元素就是$\exp\left(\sum_{j=1}^p X_{ij}\beta_j\right)$。
接下来要计算的是这个n维向量对p维向量β的导数,本质上是求雅可比矩阵(维度为n×p),矩阵里第(i,j)位置的元素就是$\frac{\partial}{\partial \beta_j} \exp(X_{i\cdot}\beta)$($X_{i\cdot}$代表X的第i行)。
用链式法则就能算出具体元素:
$$\frac{\partial}{\partial \beta_j} \exp(X_{i\cdot}\beta) = \exp(X_{i\cdot}\beta) \cdot \frac{\partial}{\partial \beta_j}(X_{i\cdot}\beta) = \exp(Xβ)i \cdot X{ij}$$
这里$\exp(Xβ)_i$指的是$\exp(Xβ)$的第i个元素。最后可以把整个雅可比矩阵用更简洁的形式表示:$\text{diag}(\exp(Xβ)) \cdot X$,其中$\text{diag}(\exp(Xβ))$是一个n×n的对角矩阵,对角线上的元素就是$\exp(Xβ)$的各个元素。
如果是在统计、机器学习这类场景(比如广义线性模型的推导)里遇到这个导数,它其实是个很常用的结果,完全可以放心计算~
备注:内容来源于stack exchange,提问作者adrimsvieira




