什么是高斯分布与高斯分布的广泛性
高斯分布, Gaussian Distribution, 也叫自然分布或正态分布,Natural Distribution。
从它的名字--natural distribution中也可以看出它的广泛性:正常情况下, 你就应该是这个分布。 那么为什么到处都有它呢?概率论中的中心极限定理可以说明为什么:在客观实际中有许多随机变量, 它们是由大量的相互独立的随机因素的综合影响所形成的。而每个随机因素在总的影响中都是微小的。这些变量的分布往往可以用正态分布来逼近。 考虑到现实世界的复杂情况也就能理解自然分布的广泛性了。它最先由高斯发现在1809年发现。单元高斯分布
这里的单元不是指一个单元,两个单元, 而是单变量的意思,single variet. 单变量正态分布的概率密度函数:\(\phi (x) = \frac {1}{\sqrt {2\pi}\sigma}e^{-\frac {(x-\mu)^2}{2\sigma^2}}\)
其中\(\mu, \sigma^2\)分别为\(x\)的期望与方差。知道这两个参数后, 这个正态分布可以表示为$ N(\mu, \sigma^2)$.
由一个特殊的积分:
\[ \int_{-\infty}^{+\infty} e^{-t^2}dt = \sqrt \pi\].
令\(t=\frac {x-\mu}{\sqrt 2 \sigma}\),\(dt = \frac {1}{\sqrt 2 \sigma}dx\), 可以得到\[\int^{\infty}_{-\infty}\phi(x)dx = 1\].
关于单元正态分布, 有两个常用的性质:
- \(\mu\) 决定密度函数图象的位置, \(\sigma\) 决定它的形状:\(\sigma\) 越大, 图象越胖。
- \(3\sigma\) 规律: 正态分布中, 只有不到千分之二的元素分布在\([\mu-3\sigma,\mu+3\sigma]\)之外, 为小概率事件, 基本不会发生。
多元高斯分布
多元高斯分布,即多变量高斯分布, Multivariet Gaussian Distribution. 样本值是一个多维列向量\(X=(x_1, x_2, \dots, x_d)^T\), 每一个单独的元素都服从各自的正态分布。它的概率密度函数为:
\[P(X) = \frac {1} {(2\pi)^{\frac 1d} |\Sigma|^\frac 12} e ^ {-\frac{(x-\mu)^T \Sigma^{-1}(x-\mu)}{2}}\]\(\mu\) 在这里就不再是一个标量了, 而是一个\(d\)维列向量;\(\Sigma\)是样本的协方差矩阵, \(d\times d\). \(|\Sigma|\)与\(\Sigma^{-1}\)分别是它的行列式值与逆矩阵。一个多元高斯分布可以看作一个标准向量\(\mu\)受到自然污染后的取值的分布。\(\Sigma\)的计算方式为:
- 均值化处理:从所有样本向量中分别减去\(\mu\), 即 \(z = x - \mu\)
- \(Z\) 为所有 \(z\) 组成的\(m\times d\)矩阵
- \(\Sigma = Z^TZ\).
高斯分布的线性变换与投影
多个正态分布的线性组合可以形成新的线性分布。\(A\)为\(d\times k\)矩阵,\(Y = A^TX\)通过对多元正态分的随机变量\(X\)进行线性变换得到一个新的正态分布随机变量\(Y = N (A\mu, A^T\Sigma A)\). 若$k =1 $, 即 \(p = A\) 为一个\(d\) 维列向量, \(Y = p^TX\)代表将\(X\)往\(p\)所在的直线方向上进行投影。\(p^T\Sigma p\) 代表\(X\)在这个投影方向上的方差, 这个值越大, 代表原样本集在这个方向上分散的越开。这一点在PCA算法中会使用到。