高维高斯分布的随机采样点(Random samples drawn from high-dimensional Gaussian)
凡是学过点概率论的人,都知道高斯分布(正态分布)这一重要概率模型。理工类的同学对高斯分布的性质至少也会是耳熟能详。当前,在计算机视觉等领域,模式识别的任务往往针对于高维的特征向量。在高维空间中,很多数学结构的直观性质都会与低维空间中的不同。高斯分布也是如此。本文就就简单讨论一下高斯分布的随机采样点在高维情况下的性质。
首先,高斯分布的一大特点是
其概率密度集中于分布的中心,并以指数速度向周围递降。
进而,由高斯分布生成的一组随机采样点也应该呈现向中心集中的性质。如图1所示,红色曲线是均值为0、方差为1的高斯分布的概率密度函数(probability density function),蓝色小点为该分布的20个随机采样点。这些采样点集中于0附近。

图1 一维高斯分布的概率密度函数曲线和随机采样点
与低维高斯相比,高维高斯分布的随机采样点有着不同的性质:
高维高斯分布的随机采样点不仅不会集中于分布中心,还会呈现为凸包(convex hull)状态。
所谓“呈现为凸包状态”是说,这些点刚好支撑起自身的凸包,而不是在凸包内。如图2所示,红色点支撑起了凸包,浅绿色点则是一般的凸包内点。

图2 凸包的支撑点(顶点)和内点
我们将考察n维高斯分布关于半径r (到中心点的距离) 的边界概率密度,来说明以上特点。以中心处于原点、各向同性(isotropic)、方差为
的高斯分布为例,其相对于r 的边界概率为
,
其中,S(r)是半径为r 的n维球面面积:
,
是该高斯分布在
,
点处的概率密度函数:
.
如图3所示,随着维度的增高,S(r)随r 的增加速度越来越快。换一种形象的说法,球体的维度越高,其体积越会集中于球壳,而非球心。

图3 不同维度下,球体面积与半径的关系
同时,
是关于r 递降的,且递降速率大于S(r)的递减速率。从而,
就会显示出两头(0和
)快速趋近于0,中间一狭窄范围内有较大值的形态。这一特点可以由图4证实。

图4 不同维度下,高斯分布(Isotropic,
)关于半径的边界概率密度
从图4中,我们可以看出
只集中于一个狭窄的区域。随着维度n的增高,这个区域的
- 位置逐渐远离原点
- 宽度保持几乎不变(n>=4之后)
从而,
高维高斯分布的概率密度只集中于一个远离中心、厚度较小的环形上。
这样一来,高维高斯分布的随机采样点也就基本上都在上述环形上了。高维空间的环形外面积很大。相比之下,实际问题中采样点个数(哪怕是几千几万几十万)则是很少的。设想在一个又大又薄的环上取少量的点,并依次相连组成多边形,这个多边形一定会以极高的概率为凸。
经过以上推导,高维高斯这一乍一看“反直觉”的性质便得到了证明。这一结论与“高斯分布中心处具有更高概率密度”的性质并不矛盾。其中心的概率密度虽然高,但中心所占体积却太小,这样整个区域的概率就小了。如果有充分多的随机采样点,那么采样点还是会在分布中心显示出更高的密度。但是,在巨大的高维空间中,采样点的个数是无法达到“充分多”的。所以分布的中心处连点都不会有的。
Yaochun Li
10月 18th, 2011 at 16:03 # Reply (回复)
这难道是霆霆。。
farawayWind
10月 31st, 2011 at 02:17 # Reply (回复)
就是:D