·聚类质量的标准
如何衡量聚类的质量是件困难的事情。尽管如此,人们还是可以给出
两个主要的标准。第一个标准是对聚类的形式描述应该简单,使得对对象分
类容易,且使类之间的差异变得清晰。第二个标准是分类描述应该符合实际
数据。但是要达到精确的符合会导致描述很复杂,因此这两条标准互相矛
盾。当然,除了这两条标准外还可以给出其它的准则。
例如cLUSTER/2就采用了一种组合方案,它包括下列基本标准:
(1) 聚类和事件的符合
(2)聚类描述的简单性
(3)互相聚类差异
(4)区分度
(5)维数的降低
聚类与数据之间匹配可用两种方法计算,分别用T和P表示。T是聚类
稀疏度的相反数,P是复合投影稀疏度的相反数。使用相反数的原因是稀疏
度越小则匹配的程度就越好。
聚类描述的简单性为描述选择器总数的负值。
衡量类间差异是聚类中每一对复合之间不相交程度之和。任意一对复
合的互不相交程度等于在两个复合中去掉相交的选择器后两个复合中的选择
器数。
区分度是在所有聚类中分别辨别的变量数。
降低维数是以基本维数的负值来度量。基本维数定义为在聚类中区分
所有复合所需要的最小的变量数目。
上述标准的定义有一个特点,那就是增加任何一个标准的值都会增加
聚类的质量。
<下一页>
<返回主页>
|