如何使用算法抠图——Closed Form Matting 算法以及优化-1

本文算法思想主要来自于下文，算法优化部分为原创

A. Levin, D. Lischinski and Y. Weiss, “A Closed-Form Solution to Natural Image Matting,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 30, no. 2, pp. 228-242, Feb. 2008.

我们先对算法进行介绍，然后再考虑优化问题。

简介

抠图是一种很常见的图像处理应用，简单来说，抠图就是保留需要的像素，并删去图片的其他部分。于是潜在地，图片就被分为了两个部分，被称为前景和背景，若前景像素用 F 表示，背景像素用 B 来表示，那么图片中的每个像素都能通过是 F 和 B 的线性插值得到

\[I = \alpha F + (1 - \alpha) B\]

其中向量 \(\alpha\) 的每个元素是对应像素的透明度。对于一张待抠取的图片来说，\(I\) 是已知的，因为这是能看见的部分，而 \(F, B, \alpha\) 属于未知量，因为不同的抠图目的，前景和背景的定义肯定不同。进一步，对于一般有三个颜色通道的 RGB 图片，那么在每个通道上都能列出一个方程，于是有

\[\begin{aligned} I_r = \alpha F_r + (1 - \alpha) B_r\\ I_g = \alpha F_g + (1 - \alpha) B_g\\ I_b = \alpha F_b + (1 - \alpha) B_b \end{aligned}\]

也就是说，在每个像素上，都能得到一个像上面这样的线性方程组，但却有 7 个未知量，因此需要添加额外的约束条件。如果能解出上述方程组，那么只需单独拿出前景部分，问题就解决了。

目标函数推导

为了简化讨论，首先从单通道问题入手，即求解方程组

\[I_i = \alpha_i F_i + (1 - \alpha_i) B_i\]

这里的下标 \(i\) 表示像素索引。假设在图片的任意一个像素窗口 \(w_j\) 上（如图所示）（其中 j 表示窗口索引），\(F_i, B_i ,\alpha_i\) 近似为常量，那么上述等式关系可以在该窗口上近似成立，即

\[I_i \approx \alpha_i F_j + (1 - \alpha_i) B_j \,,\quad i \in w_j\]

对上述方程进行变换

\[\begin{aligned} I_i &\approx \alpha_i F_j + (1 - \alpha_i) B_j\\ \Rightarrow I_i &\approx\alpha_i F_j + B_j - \alpha_i B_j\\ \Rightarrow \alpha_i &\approx \frac {I_i} {F_j - B_j} - \frac{B_j}{F_j - B_j}\\ \Rightarrow \alpha_i &\approx a_j I_i + b_j \,,\quad i \in w_j \end{aligned}\]

其中 \(a = \frac 1 {F_j - B_j}, b = - \frac{B_j}{F_j - B_j}\)，也就是说，如果在窗口 \(w_j\) 上，能找到 \(\alpha_i, a_j, b_j\) 使上述公式成立，那么问题就解决了。如果令

\[J_j(\alpha_i,a_j, b_j) = \sum_{i \in \omega_j} (\alpha_i - a_j I_i - b_j)^2 \,,\quad i \in w_j\]

那么问题便转换成了求解 \(J_j(\alpha_i, a_j, b_j)\) 取最小值时的参数，由于整张图是由许多互相重叠的窗口组成的，那么总体的目标函数就可以表达为

\[J(\alpha, a, b) = \sum_{j \in W}\left(\sum_{i \in \omega_j} (\alpha_i - a_j I_i - b_j)^2 + \epsilon a_j^2\right)\]

其中 \(W\) 表示窗口索引集合，\(\epsilon\) 表示正则项系数。若假设窗口尺寸为 3 x 3 ，且窗口总数为 n，那么

\[\begin{aligned} J(\alpha, a, b) &= \sum_{k=1}^n\left(\sum_{i =1}^9 (\alpha_{ki} - a_k I_{ki} - b_j)^2 + \epsilon a_j^2\right)\\ &= \sum_{k=1}^n \left( \left| \left[ \begin{aligned} a_k I_{k1} + b_k \\...\\ a_k I_{k9} + b_k\\\sqrt{\epsilon}a_k \end{aligned} \right] - \left[ \begin{aligned} \alpha_{k1}\\...\\\alpha_{k9} \\0 \end{aligned} \right] \right|^2 \right) \\ &= \sum_{k=1}^n \left( \left| \left[ \begin{aligned} I_{k1} &\quad 1 \\...\\ I_{k9} &\quad 1\\\sqrt{\epsilon}&\quad 0 \end{aligned} \right] \cdot \left[\begin{aligned} a_k \\ b_k \end{aligned}\right] - \left[ \begin{aligned} \alpha_{k1}\\...\\\alpha_{k9} \\0 \end{aligned} \right] \right|^2 \right) \end{aligned}\]

若令

\[G_k = \left[ \begin{aligned} I_{k1} &\quad 1 \\...\\ I_{k9} &\quad 1\\\sqrt{\epsilon}&\quad 0 \end{aligned} \right] , \bar{\alpha}_k = \left[ \begin{aligned} \alpha_{k1}\\...\\\alpha_{k9} \\0 \end{aligned} \right] , c_k = \left[\begin{aligned} a_k \\ b_k \end{aligned}\right]\]

则目标函数可以写成矩阵形式

\[J(\alpha, a, b) = \sum_{k = 1}^n \left|G_k \cdot c_k -\bar{\alpha}_k \right|^2\]

为了最小化目标函数，在每一个窗口上对其求偏导数，并令偏导数等于 0

\[\frac{\partial J(\alpha, a, b)}{\partial c_k} = 2G_k^T (G_k c_k - \bar{\alpha}_k) = 0\]

通过上式，计算 \(c_k\) 等于

\[c_k = (G_k^T G_k)^{-1}(G_k \bar{\alpha}_k)\]

将上式代入目标函数后，得到只与 \(\alpha\) 有关的目标函数

\[\min J(\alpha, a,b) = \min_{c_k = (G_k^T G_k)^{-1}(G_k \bar{\alpha}_k)} J(\alpha)\]

其中

\[\begin{aligned} G_k \cdot c_k - \bar{\alpha}_k&= G_k (G_k^T G_k)^{-1} G_k^T \bar {\alpha}_k - \bar{\alpha}_k \\ &= \left[G_k (G_k^T G_k)^{-1} G_k^T - I\right] \bar{\alpha}_k\\ &= \bar{G}_k \bar{\alpha}_k \end{aligned}\]

在这里 \(\bar{G}_k=G_k (G_k^T G_k)^{-1} G_k^T - I\)，于是

\[\begin{aligned} J(\alpha) &=\sum_{k=1}^n \left|G_k \cdot c_k -\bar{\alpha}_k \right|^2\\ &= \sum_{k=1}^n (G_k \cdot c_k -\bar{\alpha}_k)^T (G_k \cdot c_k -\bar{\alpha}_k)\\ &=\sum_{k=1}^n \bar{\alpha}_k^T \bar{G}_k^T \bar{G}_k \bar{\alpha}_k \\ &= \sum_{i=1}^n \bar{\alpha}_k^T L_k \bar{\alpha}_k \end{aligned}\]

在上面最后一步中 \(L_k = \bar{G}_k^T \bar{G}_k\)。当然这只是在单通道图片（即灰度图）中的情况，接下来讨论彩色图片的情况。

彩色图片情况

在彩色图片中，以 RGB 模式为例，每个像素点都有 3 个颜色值，这就组成了一个颜色空间，以下图为例

如果用每个像素点的 RGB 值为坐标，则该图片在颜色空间中的形状如下

可以看到，这些点大致呈线性关系，为了进一步说明，我们随机选择 9 个 3 x 3 的像素窗口，并绘制像素点在颜色空间中的位置，如下所示

同样也呈现出明确的线性关系，于是给出如下假设：

在彩色图片上的一个小范围内，所有像素点在颜色空间中大致呈线性排列，即 \(I_i = \beta_i I_1 + (1 - \beta_i) I_2\)

当然，前景和背景颜色同样满足上述关系，于是在任一个像素窗口 \(w_j\)内有

\[\begin{aligned} F_i &= \beta_i^F F_1 + (1- \beta_i^F)F_2\\ B_i &= \beta_i^B B_1 + (1- \beta_i^B)B_2 \end{aligned}\]

其中的 \(F_1, F_2, B_1, B_2\) 是与具体窗口有关的量，它们描述了此窗口的像素点在颜色空间中的方向，然后代入公式

\[I_i = \alpha_i F_i + (1 - \alpha_i) B_i\]

得到

\[\begin{aligned} & I_i = \alpha_i \beta_i^F F_1 + \alpha_i (1 - \beta_i^F) F_2 + (1-\alpha_i) \beta_i^B B_1 + (1-\alpha_i)(1 - \beta_i^B) B_2\\ & \Rightarrow I_i - B_2 = \alpha_i \beta_i^F F_1 - \alpha_i \beta_i^F F_2 + \alpha_i F_2 + \beta_i^B B_1 - \alpha_i \beta_i^B B_1 + \alpha_i \beta_i^B B_2 -\beta_i^B B_2 - \alpha_i B_2 \\ &\Rightarrow I_i - B_2 = \alpha_i \beta_i^F (F_1 - F_2) +( \beta_i^B - \alpha_i \beta_i^B) (B_1 - B_2) + \alpha_i (F_2- B_2 )\\ &\Rightarrow \left[(F_1 - F_2)\quad (B_1 - B_2) \quad (F_2 - B_2)\right]\cdot \left[\begin{aligned} \alpha_i \beta_i^F \\ \beta_i^B - \alpha_i \beta_i^B\\ \alpha_i \end{aligned}\right] = I_i - B_2 \end{aligned}\]

由于在多通道情况中，每个像素都有 3 个颜色值，所以这里的\(F_i, B_i, I_i\) 都是 3 x 1 的向量，所以上式又可展开成

\[\left[ \begin{aligned} (F_1^1 - F_2^1)\quad (B_1^1 - B_2^1) \quad (F_2^1 - B_2^1)\\ (F_1^2 - F_2^2)\quad (B_1^2 - B_2^2) \quad (F_2^2 - B_2^2)\\ (F_1^3 - F_2^3)\quad (B_1^3 - B_2^3) \quad (F_2^3 - B_2^3) \end{aligned} \right] \cdot \left[\begin{aligned} \alpha_i \beta_i^F \\ \beta_i^B - \alpha_i \beta_i^B\\ \alpha_i \end{aligned}\right] = \left[ \begin{aligned} I_i^1 - B_2^1\\I_i^2 - B_2^2\\I_i^3 - B_2^3 \end{aligned} \right]\]

若令

\[H_j = \left[(F_1 - F_2)\quad (B_1 - B_2) \quad (F_2 - B_2)\right]\]

则有

\[\left[\begin{aligned} \alpha_i \beta_i^F \\ \beta_i^B - \alpha_i \beta_i^B\\ \alpha_i \end{aligned}\right] = H_j^{-1} \cdot \left[ \begin{aligned} I_i^1 - B_2^1\\I_i^2 - B_2^2\\I_i^3 - B_2^3 \end{aligned} \right]\]

假设 \(H_j^{-1}\) 的最后一行等于 \([a_j^1\quad a_j^2 \quad a_j^3]\)，那么可以得到

\[\begin{aligned} \alpha_i &= a_j^1 (I_i^1 - B_2^1) + a_j^2 (I_i^2 - B_2^2) + a_j^3 (I_i^3 - B_2^3)\\ &= \sum_{t=1}^3 a_j^t I_i^t + b_j \end{aligned}\]

接下来，与之前单通道情况类似，定义目标函数

\[J(\alpha, a, b) = \sum_{j\in W} \left( \sum_{i \in w_j} \left( \alpha_i - \sum_{t=1}^3 a_j^t I_i^t - b_j \right)^2 + \epsilon \sum_{t=1}^3(a_j^t)^2 \right)\]

用和之前一样的方法，将上式化简为

\[J(\alpha, a, b) = \sum_{i = 1}^n \left| G_k c_k -\bar{\alpha}_k \right|^2\]

其中

\[G_k = \left[ \begin{aligned} I_1^1 \quad I_1^2 \quad I_1^3 \quad 1 \\ I_2^1 \quad I_2^2 \quad I_2^3 \quad 1 \\ I_3^1 \quad I_3^2 \quad I_3^3 \quad 1 \\ ...\\ I_9^1 \quad I_9^2 \quad I_9^3 \quad 1 \\ \sqrt{\epsilon} \quad 0 \quad 0 \quad 0 \\ 0 \quad \sqrt{\epsilon} \quad 0 \quad 0 \\ 0 \quad 0 \quad \sqrt{\epsilon} \quad 0 \end{aligned} \right], c_k = \left[ \begin{aligned} a_j^1 \\ a_j^2 \\ a_j^3 \\ b_j \end{aligned} \right] ,\bar\alpha_k = \left[ \begin{aligned} \alpha_{k_1}\\ \alpha_{k_2}\\ \alpha_{k_3}\\ ... \\ \alpha_{k_9}\\ 0 \\ 0 \\ 0 \end{aligned} \right]\]

之后同样可推得

\[J(\alpha) = \sum_{i=1}^n \bar{\alpha}_k^T L_k \bar{\alpha}_k\]

构建拉普拉斯矩阵

首先，我们复习下矩阵乘法的分块形式，假设矩阵 \(M\) 和向量 \(v\) 按如下分块

\[M =\left[ \begin{aligned} M_{00} &\quad M_{01} \\ M_{10} &\quad M_{11} \end{aligned} \right], v = \left[ \begin{aligned} v_1 \\ v_2 \end{aligned} \right]\]

那么

\[\begin{aligned} v^TMv &= [v_0^T \quad v_1^T] \left[ \begin{aligned} M_{00} &\quad M_{01} \\ M_{10} &\quad M_{11} \end{aligned} \right] \left[ \begin{aligned} v_0 \\ v_1 \end{aligned} \right] \\ &=[v_0^T M_{00} + v_1^T M_{10} \quad v_1^T M_{01} + v_1^T M_{11}] \left[ \begin{aligned} v_0 \\ v_1 \end{aligned} \right]\\&=v_0^T M_{00}v_0 + v_0^T M_{10}v_1 + v_1^T M_{01} v_0 + v_1^T M_{11} v_1 \end{aligned}\]

如果我们假设 \(M_{10} = 0, M_{01} = 0\)，即 \(M\) 是一个带状矩阵，那么就有

\[v^T M v = \sum_{i=0}^1 v_i^T M_{ii} v_i\]

这让我们看到了和前面推导的公式的相似之处

\[J(\alpha) = \sum_{i=1}^n \bar{\alpha}_k^T L_k \bar{\alpha}_k\]

而且我们知道，\(\bar{\alpha}_k\) 其实就是向量 \(\alpha\) 的一个子向量，这和 \(v_i\) 与 \(v\) 的关系相当，唯一的区别是 \(\bar{\alpha}_k\) 元素的位置在 \(\alpha\) 上不是连续的，但这并不重要。于是，通过这种类比，我们可以推断，存在一个矩阵 \(L\) ，使得

\[J(\alpha) = \sum_{i=1}^n \bar{\alpha}_k^T L_k \bar{\alpha}_k = \alpha^T L \alpha\]

由于刚才我们假设 \(M\) 是带状矩阵，那么有理由相信 \(L\) 肯定也是带状矩阵。因为 \(\bar{\alpha}_k\) 在 \(\alpha\) 上不是连续的，对于单个 \(\bar{\alpha}_k^T L_k \bar{\alpha}_k\) 来说，其乘法关系在全量的矩阵表示形式下如图所示，图中黑色的部分代表对应的 \(\bar{\alpha}_k\) 和 \(L_k\)。

现在，我们面临着和矩阵乘法分块相反的问题，那就是把已经分块的矩阵重新拼凑成原矩阵，即组装 \(L\)。这与有限元中通过单元刚度矩阵组装总体刚度矩阵的方法十分相似，说不定它们之间还存在着更深刻的联系。

在讨论如何通过 \(L_k\) 来组装 \(L\) 之前，我们先回顾 \(\bar{\alpha}_k, \alpha\) 这两个量的物理意义，\(\alpha\) 是由每个像素的透明度组成的向量，由于图片是二维的，所以我们按横向扫描所有像素，它的具体形式为

\[\alpha = [\alpha_1 \quad \alpha_2 \quad ... \quad \alpha_N]^T\]

而 \(\bar{\alpha}_k\) 是第 \(k\) 个窗口的所有像素透明度组成的向量，同样按横向扫描

\[\bar{\alpha}_k = [\alpha_{k_1} \quad \alpha_{k_2}\quad ...\quad \alpha_{k_9}]^T\]

其中的下标 \(k_1, k_2,…\) 等是 \(\alpha\) 中的元素索引。这里需要注意一下，前面在定义 \(\bar{\alpha}_k\) 的时候，最后还有一个元素为 0，这里我们去掉了，因为可以证明，如果向量 \(v\) 的某些位等于 0，那么只需要去掉这些位，以及相应的 \(M\) 的行和列，其结果是等价的

\[v^T M v = \hat{v}^T \hat{M}^T \hat{v}\]

其中 \(\hat{v},\hat{M}\) 是修改之后的向量和矩阵。

现在我们举个简单的例子，假设

\[\alpha = [\alpha_1 \quad \alpha_2 \quad \alpha_3 \quad \alpha_4]^T\] \[\bar{\alpha}_k = [\alpha_1 \quad \alpha_2\quad \alpha_4]^T\] \[L_k = \left[ \begin{aligned} L_{11}^k&\quad L_{12}^k \quad L_{13}^k\\ L_{21}^k&\quad L_{22}^k \quad L_{23}^k\\ L_{31}^k&\quad L_{32}^k \quad L_{33}^k \end{aligned} \right]\]

那么按照向量矩阵乘法的要求， \(L_k\) 在 \(L\) 中的位置分布如下

\[L = \left[ \begin{aligned} L_{11}^k&\quad L_{12}^k\quad 0 \quad L_{13}^k\\ L_{21}^k&\quad L_{22}^k\quad 0 \quad L_{23}^k\\ 0&\quad 0\quad \quad0 \quad 0\\ L_{31}^k&\quad L_{32}^k\quad 0 \quad L_{33}^k \end{aligned} \right]\]

也就是说，\(L_k\) 的元素在 \(L\) 中的位置与 \(\bar{\alpha}_k\) 元素的下标有关，其对应关系为

\[L_k(i, j) \rightarrow L(k_i, k_j)\]

其中 \(k_i\) 为 \(\bar{\alpha}_k\) 中第 \(i\) 个元素的下标。由于不同的 \(L_k\) 可能在 \(L\) 上的位置重叠，我们只需要将它们相加即可，因为矩阵乘法只是简单的线性操作。

使用上述方法构造出 \(L\) 之后，我们便得到了关于目标函数的新的表示形式

\[J(\alpha)=\sum_{i=1}^n \bar{\alpha}_k^T L_k \bar{\alpha}_k = \alpha^T L \alpha\]

其中，\(L\) 又被称为拉普拉斯矩阵。从而，优化的目标为

\[\min_{\alpha}\quad \alpha^T L \alpha\]

根据前面我们对 \(\bar{G}_k, L_k, L\) 的推导可以证明， \(L\) 的每一个元素都是非负的，并且按照定义 \(\alpha\) 的每一个元素也是非负的，这样一来，就只需要令 \(\alpha\) 的每一个元素都为 0，从而使 \(\alpha^T L \alpha\) 达到极小值 0，但这显然毫无意义。

这里的问题就出在我们没有对 \(\alpha\) 施加约束条件，因为，我们知道肯定有一部分 \(\alpha_i\) 是等于 1 的（即我们要提取的前景），所以大部分抠图算法都要求使用者提供约束条件，也就是说，给出部分绝对正确的前景和背景。Trimap 图便是一种这样的约束形式。

考虑上面第一张图，如果我们要抠取小狗的图像，那么其对应的 trimap 图如第二张图所示。其实就是把原图分割成三个部分，分别是100%背景，100%前景以及不那么确定的部分，这个不确定的部分就是我们要求解的，其余的都算约束。于是加上约束的优化目标就变成了

\[\begin{aligned} &\min \alpha^T L \alpha\\ s.t. \quad &\alpha_i = 0 \quad for \quad i\in BG\\ &\alpha_i = 1 \quad for \quad i\in FG \end{aligned}\]

其中 \(BG\) 是背景索引集合，\(FG\) 是前景索引集合。

问题的求解

现在我们使用拉格朗日乘子法来求解该问题，首先建立拉格朗日函数

\[\begin{aligned} l(\alpha, \lambda) &= \alpha^T L \alpha + \sum_{i\in BG}\xi_i \alpha_i + \sum_{i\in FG} \eta_i (1-\alpha_i) \\ &=\alpha^T L \alpha + \sum_{i=1}^N \lambda_i \alpha_i + \sum_{i\in FG}\eta_i\\ &=\alpha^T L \alpha + \lambda \alpha + C \end{aligned}\]

其中 \(C\) 为常数，\(\lambda\) 在索引 \(i \notin BG \land i\notin FG\) （即 \(\alpha_i\) 未知）上的值为 0。然后计算拉格朗日函数对 \(\alpha\) 的导数，并令其等于 0，便可获得最优解

\[\frac{\partial l(\alpha, \lambda)}{\partial \alpha} = L \alpha + \lambda = 0\]

于是，问题转化成了求解线性方程组

\[L\alpha = -\lambda\]

需要注意的是，\(\alpha\) 和 \(\lambda\) 中都有部分是已知量，并且在\(\alpha\) 上是未知量的索引，在 \(\lambda\) 上的值刚好等于 0。我们可以用下图直观的表示

其中黑色部分都是未知量。关于这种情况的线性方程组，有好几种方法可以求解，其中一类方法选择将 \(\lambda\) 未知的部分填充，以其中一个方程为例

\[L_{11}\alpha_1 + L_{12} \alpha_2 + ... + L_{1N} \alpha_N = -\lambda_1\]

假如这里的 \(\alpha_1\) 已知，\(\lambda_1\) 未知，如果在 \(L_{11}\) 前面乘以一个非常大的数，比如\(10e20\)，并令 \(-\lambda_1=10e20 L_{11}\)，即方程变为

\[10e20 L_{11}\alpha_1 + L_{12} \alpha_2 + ... + L_{1N} \alpha_N =10e20 L_{11}\]

很显然，后续 \(L_{12} \alpha_2, L_{13}\alpha_3… \) 之和与 \(10e20\) 相比都是极小的量，于是求解出来的 \(\alpha_1\) 和其本身的值也会相差无几。使用这种方式修改每一个未知的 \(\lambda_i\) 和对应的 \(L_{ii}\)，得到可以正常求解的线性方程组，按一般方式进行求解即可。

存储与求解形式的优化

以一张 1080p 的图片为例，两个方向上的像素分别有 1920 和 1080 个，总的像素数量为 2073600 个，那么矩阵 \(L\) 的维度也就为 2073600，于是总的元素数量就等于 \(2073600^2\)。这是一个相当大的矩阵，使得这种算法几乎不可应用。幸运的是，\(L\) 本身的性质能节省大量的存储空间，根据 \(L_k\) 的定义

\[L_k = \bar{G}_k^T \bar{G}_k\]

可见，\(L_k\) 是对称矩阵，从而 \(L\) 也是对称的。而且，\(L\) 本身是一个带状矩阵，那么其带宽是多大呢？我们可以从 \(L\) 的组装方式来分析

\[L_k(i, j) \rightarrow L(k_i, k_j)\]

对于 \(L\) 的第 \(r\) 行来说，只要第\(k\) 个窗口的 \(k_i = r\)，那么此时 \(L_k(i, j)\) 便被填充到 \(L\) 矩阵的 \(r\) 行中，列号为 \(k_j\)。而这里的 \(r\) 只是图片的一个像素索引，包含此索引的窗口如下图所示（我们已用不同颜色的虚线标出）

若设图片的宽度为 \(w\) 像素，那么我们可以利用 \(r\) 推断上图中所有像素点的索引，即从小到大为

\[r - 2 - 2 w, r-1-2w,r-2w,...,r+2w, r+1 +2w ,r+2+2w\]

由于\(k_j\) 要取遍上述所有值，并且要被填充到第 \(r\) 行，那么填充的中心就为第 \(r\) 列，填充的宽度为 \(r+2+2w - (r - 2 - 2 w) = 4 w\)

既然第 \(r\)行的填充中心为第\(r\)列，且填充宽度为 \(4w\)，于是整个矩阵 \(L\) 的带宽也就为 \(4w\)。再考虑到 \(L\) 是对称矩阵，那么真正需要存储的元素个数就变成了

\[(h \times w) \times 2 w\]

其中 \(h\) 为图片的高度。对比全矩阵的 \((h\times w)^2\)，存储量已大幅减少。但这还远为结束，如果再仔细观察上面图中窗口像素的索引

\[\begin{aligned} r-2-2w,r-1-2w, r-2w, r+1-2w, r+2-2w\\ r-2-w,r-1-w, r-w, r+1-w, r+2-w\\ r-2,r-1, r, r+1, r+2\\ r-2+w,r-1+w, r+w, r+1+w, r+2+w\\ r-2+2w,r-1+2w, r+2w, r+1+2w, r+2+2w\\ \end{aligned}\]

可以看到，每行的填充区域被分成了五个区域，这些区域之间的部分的值其实也是 0。所以每一行，真正被填充的只有 25 列，这样一来，总共需要被存储的元素就降为了 \(25 w \times h / 2\)。

这还没完，虽然我们刚才对需要存储的矩阵元素数量进行了大幅优化，但是需要求解的线性方程组规模仍然很宏大。我们已经知道 \(\alpha\) 中有部分值是已知的，那么是否可以把这部分的计算量给省出来呢？答案是显然的。前面，我们为了获得完整的线性方程组，将 \(\lambda\) 的未知部分给填充了，但下面的事实将表明，这一行动似乎是多此一举。现在，我们将 \(\alpha\) 元素的顺序调整一下，分成已知的和未知的两个部分，并且 \(L, \lambda\) 也进行相应调整，得到

\[\begin{aligned} &\left[ \begin{aligned} L_{11}\quad L_{12}\\ L_{21}\quad L_{22} \end{aligned} \right] \left[ \begin{aligned} \alpha_{unknown}\\ \alpha_{known} \end{aligned} \right]= \left[ \begin{aligned} \lambda_{known}\\ \lambda_{unknown} \end{aligned} \right]\\ \Rightarrow& L_{11} \alpha_{unknown} + L_{12} \alpha_{known} = \lambda_{known}\\ \Rightarrow & L_{11}\alpha_{unknown} = -L_{12}\alpha_{known} + \lambda_{known} \end{aligned}\]

可以看到，这里我们直接忽略掉 \(\lambda\) 未知的那部分，从而得到了一个与原先等价的，但却更小的线性方程组。该方程组的个数等于未知 \(\alpha\) 元素的数量，即 trimap 图中灰色的部分，可见，此时问题的规模急剧减小，并且跟图片本身的大小解耦，这样一来通过控制 trimap 未知区域的大小就可以控制问题的规模，比如说，未知区域的面积占图片面积的 1/10，那么需要求解的线性方程组则是原来的 1/100。

从理论上分析了优化方案之后，接下来我们该讨论具体的算法和数据结构了。但在这之前，我们来捋一捋从方程构建到求解的整个过程

首先，需要两张图，一张是需要抠取内容的原图，另一张是表示约束的 trimap 图。
使用小窗口对原图进行扫描，移动步长为一个像素，即这些窗口是相互重叠的，并在每个窗口上构建矩阵 \(L_k\)
通过大量的小矩阵 \(L_k\) 组装拉普拉斯矩阵 \(L\)（这一步有待优化）
利用 trimap 图构造 \(\alpha\) 和 \(\lambda\)
求解线性方程组 \(L\alpha = \lambda\)（待优化）

虽然我们顺序地给出了上述过程，但是这并不意味着必须严格按照顺序执行，比如可以在构建 \(L_k\) 的同时将其累加到 \(L\) 矩阵，于是便省去了存储 \(L_k\) 的空间。并且也不必构造全量的 \(L\)，而是只需要得到与 \(\alpha_{unknown}\) 相关的的行和列，即前面的 \(L_{11}\)，并可以按稀疏格式存储。这样一来每个 \(L_k\) 的元素就会经历两次位置映射，第一次是从 \(L_k\) 中的位置，映射到 \(L\) ，第二次从 \(L\) 映射到 \(L_{11}\)。具体实现我们留到下一篇文章中讨论。