高维高斯分布的随机采样点(Random samples drawn from high-dimensional Gaussian)

Sep 6, 2011

凡是学过点概率论的人,都知道高斯分布(正态分布)这一重要概率模型。理工类的同学对高斯分布的性质至少也会是耳熟能详。当前,在计算机视觉等领域,模式识别的任务往往针对于高维的特征向量。在高维空间中,很多数学结构的直观性质都会与低维空间中的不同。高斯分布也是如此。本文就就简单讨论一下高斯分布的随机采样点在高维情况下的性质。

首先,高斯分布的一大特点是

其概率密度集中于分布的中心,并以指数速度向周围递降。

进而,由高斯分布生成的一组随机采样点也应该呈现向中心集中的性质。如图1所示,红色曲线是均值为0、方差为1的高斯分布的概率密度函数(probability density function),蓝色小点为该分布的20个随机采样点。这些采样点集中于0附近。


图1 一维高斯分布的概率密度函数曲线和随机采样点

与低维高斯相比,高维高斯分布的随机采样点有着不同的性质:

高维高斯分布的随机采样点不仅不会集中于分布中心,还会呈现为凸包(convex hull)状态。

所谓“呈现为凸包状态”是说,这些点刚好支撑起自身的凸包,而不是在凸包。如图2所示,红色点支撑起了凸包,浅绿色点则是一般的凸包内点。


图2 凸包的支撑点(顶点)和内点

我们将考察n维高斯分布关于半径r (到中心点的距离) 的边界概率密度,来说明以上特点。以中心处于原点、各向同性(isotropic)、方差为 \sigma^2 的高斯分布为例,其相对于r 的边界概率为

p(r|\sigma)=S(r)\cdot\mathcal{N}(r) ,

其中,S(r)是半径为r 的n维球面面积:

S(r)=\dfrac{n\cdot\pi^{\frac{n}{2}}}{\Gamma(\frac{n}{2}+1)}\cdot r^{n-1} ,

\mathcal{N}(r) 是该高斯分布在 \mathbf{x}=(x_1,x_2,\ldots,x_n) , \left\Vert \mathbf{x} \right\Vert=r 点处的概率密度函数:

\mathcal{N}(r)=\dfrac{1}{(2\pi\sigma)^{k/2}}\exp\left(-\dfrac{r^{2}}{2\sigma^{2}}\right) .

如图3所示,随着维度的增高,S(r)随r 的增加速度越来越快。换一种形象的说法,球体的维度越高,其体积越会集中于球壳,而非球心。


图3 不同维度下,球体面积与半径的关系

同时, \mathcal{N}(r) 是关于r 递降的,且递降速率大于S(r)的递减速率。从而, p(r|\sigma) 就会显示出两头(0和 +\infty )快速趋近于0,中间一狭窄范围内有较大值的形态。这一特点可以由图4证实。


图4 不同维度下,高斯分布(Isotropic, \mu=0,\sigma=1 )关于半径的边界概率密度

从图4中,我们可以看出 p(r|\sigma) 只集中于一个狭窄的区域。随着维度n的增高,这个区域的

  1. 位置逐渐远离原点
  2. 宽度保持几乎不变(n>=4之后)

从而,

高维高斯分布的概率密度只集中于一个远离中心、厚度较小的环形上。

这样一来,高维高斯分布的随机采样点也就基本上都在上述环形上了。高维空间的环形外面积很大。相比之下,实际问题中采样点个数(哪怕是几千几万几十万)则是很少的。设想在一个又大又薄的环上取少量的点,并依次相连组成多边形,这个多边形一定会以极高的概率为凸

经过以上推导,高维高斯这一乍一看“反直觉”的性质便得到了证明。这一结论与“高斯分布中心处具有更高概率密度”的性质并不矛盾。其中心的概率密度虽然高,但中心所占体积却太小,这样整个区域的概率就小了。如果有充分多的随机采样点,那么采样点还是会在分布中心显示出更高的密度。但是,在巨大的高维空间中,采样点的个数是无法达到“充分多”的。所以分布的中心处连点都不会有的。

Posted by | Categories: 计算机视觉 | Tagged: , |

2 Responses so far | Have Your Say!

  1. Yaochun Li
    10月 18th, 2011 at 16:03 #  Reply (回复)Reply to this comment

    这难道是霆霆。。

  2. farawayWind
    10月 31st, 2011 at 02:17 #  Reply (回复)Reply to this comment

    就是:D

Leave a Feedback

XHTML: You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Features Stats Integration Plugin developed by YD