下面我们通过cLUSTER/2的介绍来叙述概念聚类的基本思想。
·概念内聚
在传统的聚类分析中,两个对
象的相似性是靠单一数值描述的。
这个数值仅取决于对象的特征,与
周围的环境无关。因此,这种相似
性度量的方法是与上下文无关的。
与此相反,对象a、b间的相似性 |
|
不仅取决于a、b,还取决于要分类集合的其它对象。例如上图中的点的聚类
问题,人们往往把观察到的点看成是“构成两个菱形”。尽管a、b比其它点
更接近却被放在不同类中,这是因为人们是基于概念从属关系进行分类,而
不是按距离。此例中的概念就是“菱形”。
概念聚类将点a、b的相似性度量称为概念内聚,概念内聚不仅取决于
a、b两类和附近点集E,而且取决于描述a、b整体的概念集c。这可以写成:
概念内聚(a、b)=f(a,b,E,c)
若概念集c是由一些几何图形组成,如直线、矩形等,概念内聚的度量
可定义为:
f(a,b,E,c)=MaXi{(#e(i)-1)/area(i)}
式中序号i取遍c中覆盖点a和b的所有几何图形,#e(i)是被图形i覆盖
的E中所有点的总数,area(i)是图形i的面积。
<下一页>
<返回主页>
|