相似性与概念
我前两天去听了一个圈内的研讨会。北交于剑老师在会上做了一个关于“相似性”的报告,从较高层次上讲解了人们对“相似性”与“概念”的认识。下面是我按照于老师的思路,对自己的理解的一些归纳。
一般学过逻辑学的人认为,“概念”具有内涵与外延。通俗地说,内涵是概念的定义,外延是概念的实例。这种对“概念”的认识看起来十分清晰,尤其在形式化语言中,概念的内涵和外延几乎都是明确与严格的(除了最基础的概念,比如集合)。
然而,在现实世界中的,概念的内涵却常常是难以定义的。尽管格式塔(Gestalt)学派从心理学的角度去论证了“人脑中的概念是一定存在内涵的”这一命题,但是至今也没有足够的量化观察结果可以证实这一观点。导致概念内涵不清的原因有很多,比如,外延(样例)不足,外延特征难以抽象,当然最重要的是很多概念本身就是模糊的或是无法定义的。
为了回避对内涵的定义,人们试图用样例来代替内涵。进而,基于“典型样例”的认识观就出现了。什么样的样例是典型的呢?与所有样例(外延)都相似的样例应当具有所述概念的典型特征,也就自然是典型样例。从而,“概念”的关键就变成了“典型样例”和“相似性”了。
可是,典型样例在很多情况下却也是难以寻找。与一个样例最相似的是它自己。不论什么样的典型样例对其他样例的表达都是不准确的。那么与其费力去寻找典型样例,还不如单独使用相似性来描述概念。也就是说,我们可以利用已知样例和相似性来定义概念的整个范围。如果相似性不是非是即非的,模糊概念也可以被合理地描述出来。这种概念的描述方式在现代模式识别领域得到了很成功的应用。比如,很多分类器都是从数据“学习”得到的,而非被专家定义所得。
在看似一切都变得简单的时候,一个新的问却出现了:相似性应该被如何度量?实践告诉我们,没有一种相似度量适用于所有的“概念”的界定。一方面,每当不同的相似性度量被定义,概念的范围都会不同。另一方面,如果在我们对概念的内涵有一定认识的时候,我们就能利用内涵所定义的特征来定义一个有效的相似性度量。这也就是说,“相似性”与“概念”是相互定义的。做一个未必精准的比喻,对概念的直接定义就像“演绎(deduction)”,利用相似性来描述概念就像“归纳(induction)”。两者是从不同方向来定义概念。