相似系数和距离

王朝百科·作者佚名 2010-06-25

宽屏版字体: 小 | 中 | 大 | 超大

相似系数和距离是聚类分析中的两个专业术语。

为了将样品（或指标，一个样品包含n个指标，比如一个“张三”是一个样品，他的年龄、身高、学历等等就是指标）进行分类，就需要研究样品之间关系，目前用的最多的方法有两个：一种方法是用相似系数，性质越接近的样品，他们的相似系数的绝对值越接近1，而彼此无关的样品，他们的相似系数的绝对值越接近于0。比较相似的样品归为一类，不怎么相似的样品归不同的类。另一种方法是将一个样品看做p维空间的一个点，并在空间定义距离，距离越近的点归为一类，距离较远的点归为不同的类。在实际问题中，我们常常用聚类对样品分类，用相似系数对指标分类。相似系数和距离有各种各样的定义，而这些定义与变量的类型关系极大，因此先介绍变量的类型。

由于实际问题中，遇到的指标有的是定量的（如长度、重量等），有的是定性的（如性别、职业等），因此将变量（指标）的类型按以下三种尺度划分：

间隔尺度：变量是用连续的量来表示的，如长度、重量、压力、速度等等，在间隔尺度中，如果存在绝对零点，又称比例尺度。

有序尺度：变量度量时没有明确的数量表示，而是划分一些等级，等级之间有次序关系，如某产品分上、中、下三等，次三等有次序关系，但没有数量表示。

名义尺度：变量度量时既没有数量表示，也没有次序关系，如某物体有红、黄、白三种颜色，性别有男女之分，市场供求中有“产”和“销”等。

不同类型的变量，在定义聚类和相似系数时，其方法是有很大差异的。研究和使用较多的是间隔尺度，现给出间隔尺度的距离和相似系数的定义。

其中（i=1，……，n;j=1，……，p）为第i个样品的第j个指标的观测数据。第i个样品为矩阵X的第i行所描述，所以任何两个样品和之间的相似性，可以通过矩阵X中的第K行和第L行的相似程度来刻画；任何两个变量和之间的相似性，可以通过第K列和第L列的相似程度来刻画。