王朝百科
分享
 
 
 

相似系数和距离

王朝百科·作者佚名  2010-06-25  
宽屏版  字体: |||超大  

相似系数和距离是聚类分析中的两个专业术语。

为了将样品(或指标,一个样品包含n个指标,比如一个“张三”是一个样品,他的年龄、身高、学历等等就是指标)进行分类,就需要研究样品之间关系,目前用的最多的方法有两个:一种方法是用相似系数,性质越接近的样品,他们的相似系数的绝对值越接近1,而彼此无关的样品,他们的相似系数的绝对值越接近于0。比较相似的样品归为一类,不怎么相似的样品归不同的类。另一种方法是将一个样品看做p维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。在实际问题中,我们常常用聚类对样品分类,用相似系数对指标分类。相似系数和距离有各种各样的定义,而这些定义与变量的类型关系极大,因此先介绍变量的类型。

由于实际问题中,遇到的指标有的是定量的(如长度、重量等),有的是定性的(如性别、职业等),因此将变量(指标)的类型按以下三种尺度划分:

间隔尺度:变量是用连续的量来表示的,如长度、重量、压力、速度等等,在间隔尺度中,如果存在绝对零点,又称比例尺度。

有序尺度:变量度量时没有明确的数量表示,而是划分一些等级,等级之间有次序关系,如某产品分上、中、下三等,次三等有次序关系,但没有数量表示。

名义尺度:变量度量时既没有数量表示,也没有次序关系,如某物体有红、黄、白三种颜色,性别有男女之分,市场供求中有“产”和“销”等。

不同类型的变量,在定义聚类和相似系数时,其方法是有很大差异的。研究和使用较多的是间隔尺度,现给出间隔尺度的距离和相似系数的定义。

其中(i=1,……,n;j=1,……,p)为第i个样品的第j个指标的观测数据。第i个样品为矩阵X的第i行所描述,所以任何两个样品和之间的相似性,可以通过矩阵X中的第K行和第L行的相似程度来刻画;任何两个变量和之间的相似性,可以通过第K列和第L列的相似程度来刻画。

 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如何用java替换看不见的字符比如零宽空格​十六进制U+200B
 干货   2023-09-10
网页字号不能单数吗,网页字体大小为什么一般都是偶数
 干货   2023-09-06
java.lang.ArrayIndexOutOfBoundsException: 4096
 干货   2023-09-06
Noto Sans CJK SC字体下载地址
 干货   2023-08-30
window.navigator和navigator的区别是什么?
 干货   2023-08-23
js获取referer、useragent、浏览器语言
 干货   2023-08-23
oscache遇到404时会不会缓存?
 干货   2023-08-23
linux下用rm -rf *删除大量文件太慢怎么解决?
 干货   2023-08-08
刀郎新歌破世界纪录!
 娱乐   2023-08-01
js实现放大缩小页面
 干货   2023-07-31
生成式人工智能服务管理暂行办法
 百态   2023-07-31
英语学习:过去完成时The Past Perfect Tense举例说明
 干货   2023-07-31
Mysql常用sql命令语句整理
 干货   2023-07-30
科学家复活了46000年前的虫子
 探索   2023-07-29
英语学习:过去进行时The Past Continuous Tense举例说明
 干货   2023-07-28
meta name="applicable-device"告知页面适合哪种终端设备:PC端、移动端还是自适应
 干货   2023-07-28
只用css如何实现打字机特效?
 百态   2023-07-15
css怎么实现上下滚动
 干货   2023-06-28
canvas怎么画一个三角形?
 干货   2023-06-28
canvas怎么画一个椭圆形?
 干货   2023-06-28
canvas怎么画一个圆形?
 干货   2023-06-28
canvas怎么画一个正方形?
 干货   2023-06-28
中国河南省郑州市金水区蜘蛛爬虫ip大全
 干货   2023-06-22
javascript简易动态时间代码
 干货   2023-06-20
感谢员工的付出和激励的话怎么说?
 干货   2023-06-18
 
>>返回首页<<
 
 
 
静静地坐在废墟上,四周的荒凉一望无际,忽然觉得,凄凉也很美
© 2005- 王朝网络 版权所有