条件高斯分布
最初,均值为 \(\mu\) ,协方差矩阵为 \(\Sigma\) 的多元高斯分布具有如下形式
\[p(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^d |\Sigma|}} \exp\left(
-\frac 1 2 (\mathbf{x} - \mu)^T \Sigma^{-1} (\mathbf{x} - \mu)
\right)\]
为了讨论简单起见,我们先考虑变量为 \(x, y\) 的二元高斯分布,此时均值和协方差矩阵分别为
\[\mu^T = (\mu_1\quad \mu_2)^T\\
\Sigma =
\left[
\begin{aligned}
\sigma_{11} &\quad \sigma_{12}\\\sigma_{2...
点我阅读更多...
理解主成分分析(1)——最大方差投影与数据重建
一方面,高维数据的存储和计算对计算机的性能提出了更高的要求,另一方面,对于人来讲,高维数据提供的信息不太直观,所以如何对数据进行降维一直是一项很有意义的话题。
最大方差投影与主成分
让我们先从一个二维数据集开始,设
\[S = \{x_i\mid x_i \in R^2 , i=1,2,,,n\}\]
把上述点集画到平面上,假设产生了下面的图像
现在我们想要为每个点赋予一个具有代表性的值来替代它的坐标,从而降低该数据集的维度,并且这个被赋予的值应该在最大程度上表现出被它替代的点的特征。那什么是点的特征呢?对于一个点来讲,与其他点的不同就是它所拥有的特征,所以如果它的替代值能尽可能地与其他点的替代值相异,那么这种替换就是有意义的。当然,这种降维方式损失了不少信息,但我们先不...
点我阅读更多...Fisher 线性判别分析
设有属于两个类别的 n 个 d 维样本 \(\{x_i\mid \, i \in \{1,2,,n\}\}\),如果它们线性可分,那么一般可以将它们映射到一维空间,并且同样可识别,类似于下图所示的意思
由圆形和三角形标识的两类图形被投影到了直线上,它们的位置是分开的,可以成为判别的依据。所以这就对我们产生了启发,能不能找到这样的直线,使得样本集投影到上面之后能够很轻易地对它们进行分类?
直观的想一下,只要两类样本是可分的,就一定能找得到这样的直线,但是如果像上图这样的投影直线,要识别点在直线上的投影位置,需要一个直线上的参考点,以便计算距离。另一种更方便的方法是投影到另一个方向的直线上
虽然这种方式的投影点没有明显地分开,但是仔细观察会发现样本点到直线的距离是明显分隔成两...
点我阅读更多...
瑞利商与极值计算
对于一个埃尔米特矩阵 \(M\) 及非零向量 \(x\),定义瑞利商
\[R(M, x) = \frac{x^* M x}{x^* x}\]
这里的 \(x^* {}\) 是 \(x\) 的共轭转置矩阵,如果 \(M,x\) 都由实数元素组成,那么瑞利商可以写成
\[R(M, x) = \frac{x^T M x}{ x^T x}\]
设 \(M\) 的特征值与特征向量分别为 \(\lambda_1, \lambda_2,,,\lambda_n\),\(v_1, v_2,,,v_n\) ,并且有
\[\lambda_{min} =\lambda_1 \le \lambda_2 \le ... \le \lambda_n = \lambda_{max}\]
下面将证明,在 \...
点我阅读更多...
感知器
线性分类观点
考虑数据集 \(S = \{x^{(i)}\in R^d\mid i=1,2,,,n\}\) ,其中的样本可以被线性分割成两个类别:\(\mathcal{C}_1, \mathcal{C}_2\) ,然后我们再为每一个 \(x\) 分配一个类别标签值 \(y\),当 \(x^{(i)}\) 属于类别 \(\mathcal{C}_1\) 时,\(y_i=1\) ,否则 \(y_i=-1\) 。定义分割超平面为
\[\omega^T x + b = 0\]
其中 \(\omega, x\) 都是 d 维向量。然后对任意的 \(x \in S\) ,定义函数
\[r(x) = \frac{\omega^T}{\|\omega\|} x+ \frac b{\|\omega...
点我阅读更多...