Fenrier Lab

瑞利商与极值计算

对于一个埃尔米特矩阵 \(M\) 及非零向量 \(x\),定义瑞利商

\[R(M, x) = \frac{x^* M x}{x^* x}\]

这里的 \(x^* {}\) 是 \(x\) 的共轭转置矩阵,如果 \(M,x\) 都由实数元素组成,那么瑞利商可以写成

\[R(M, x) = \frac{x^T M x}{ x^T x}\]

设 \(M\) 的特征值与特征向量分别为 \(\lambda_1, \lambda_2,,,\lambda_n\),\(v_1, v_2,,,v_n\) ,并且有

\[\lambda_{min} =\lambda_1 \le \lambda_2 \le ... \le \lambda_n = \lambda_{max}\]

下面将证明,在 \(M\) 确定的情况下

\[\max_{x} R(M, x) = \lambda_n\\ \min_{x} R(M, x) = \lambda_1\]

由于 \(M\) 是一个埃尔米特矩阵,所以存在一个酉矩阵 \(U\) 满足

\[M = U A U^T\]

其中 \(A = diag(\lambda_1, \lambda_2,,,\lambda_n)\) ,将上式代入瑞利商

\[\begin{aligned} R(M, x) &= \frac{x^T U A U^T x}{x^T x}\\ &= \frac{(U^T x)^T A (U^T x)}{x^T x} \end{aligned}\]

假设 \(p = U^T x\) 那么

\[\begin{aligned} R(M, x) &= \frac{p^T A p}{x^T x}\\ &=\frac{\sum_{i=1}^n \lambda_i |p_i|^2}{\sum_{i=1}^n |x_i|^2} \end{aligned}\]

根据特征值的大小关系,可得如下不等式

\[\lambda_1\sum_{i=1}^n |p_i|^2\le \sum_{i=1}^n \lambda_i |p_i|^2 \le \lambda_n\sum_{i=1}^n |p_i|^2\]

于是有

\[\frac{\lambda_1\sum_{i=1}^n |p_i|^2} {\sum_{i=1}^n |x_i|^2}\le R(M, x)\le \frac{\lambda_n\sum_{i=1}^n |p_i|^2}{\sum_{i=1}^n |x_i|^2}\]

设 \(U\) 的第 i 行,第 j 列元素为 \(u_{ij}\),\(U^T {}\) 的第 i 行,第 j 列元素为 \(u_{ji}\),那么

\[p_i = \sum_{j=1}^n u_{ji} x_j\\ p_i^T = \sum_{j=1}^n x_j u_{ij}\\ |p_i|^2 = p_i^T p_i = \sum_{j=1}^n \sum_{k=1}^n x_j u_{ij} u_{ki} x_k\]

于是

\[\begin{aligned} \sum_{i=1}^n |p_i|^2&=\sum_{j=1}^n \sum_{k=1}^n \left(\sum_{i = 1}^n u_{ki} u_{ij}\right) x_j x_k\\ \end{aligned}\]

由于 \(U\) 是酉矩阵,即

\[U^T U = I\]

写成展开形式为

\[I_{jk} = \sum_{i=1}^n u_{ji} u_{ik}\]

当 \(j \ne k\) 时,\(I_{jk} = 0\) ,当 \(j=k\) 时,\(I_{jk} = 1\)。所以可以得到

\[\sum_{i = 1}^n |p_i|^2 = \sum_{i=1}^n |x_i|^2\]

代入上述不等式,可得

\[\lambda_1 \le R(M, x) \le \lambda_n\]

并且当 \(x = v_1\) 时 \(R(M,x) = \lambda_1\), 当 \(x = v_n\) 时 \(R(M, x) = \lambda_n\)。这就证明了前面的结论。

另一方面,如果我们用 \(x' = cx\) 来取代 \(x\),其中 \(c\) 为非零的实数,发现

\[R(M, x') = \frac{x'^T M x'}{x'^T x} = \frac{cx^T M xc}{cx^T xc} = R(M, x)\]

也就是说,对 \(x\) 进行等比例缩放并不会影响瑞利商的值,即

\[R(M, cx) = R(M, x)\]

于是,我们可以令 \(x^T x = 1\),这样就有 \(R(M,x) = x^T M x\)。此时对瑞利商求极值就是在约束 \(x^T x = 1\) 条件下,对 \(x^T M x\) 求极值。下面使用拉格朗日乘子法来解,定义拉格朗日函数

\[L(x, \lambda) = x^T M x - \lambda (x^T x - 1)\]

对 \(x\) 求梯度,并令值为0

\[\nabla_x L = M x - \lambda x = 0\]

即 \(M\) 的特征值能使得瑞利商取得极值,并且 \(R(M, x)=\lambda\)。

瑞利商的另一种推广形式——广义瑞利商,在 Fisher 线性判别分析中有重要应用。定义

\[R(M, x, Q) = \frac{x^T M x}{x^T Q x}\]

其中 \(Q\) 为对称正定矩阵,基于同样的理由,我们缩放 \(x\) 使得 \(x^T Q x = 1\) ,然后利用拉格朗日乘子法求 \(x^T M x\) 的极值,定义

\[L(x, \lambda) = x^T M x - \lambda(x^T Q x - 1)\]

然后求梯度取零

\[\begin{aligned} &\nabla_x L = M x - \lambda Q x = 0\\ &\Leftrightarrow Mx=\lambda Qx\\ &\Leftrightarrow Q^{-1} M x = \lambda x \end{aligned}\]

也就是说,\(R(M, x, Q)\) 的极值在 \(Q^{-1}M\) 的特征向量上取得,其驻值就为特征值。

本文遵守 CC-BY-NC-4.0 许可协议。

Creative Commons License

欢迎转载,转载需注明出处,且禁止用于商业目的。