对象间的相似性_第1页
对象间的相似性_第2页
对象间的相似性_第3页
对象间的相似性_第4页
对象间的相似性_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

对象间的相似性度量vicky对象间的相似性度量相似性余弦夹角简单匹配系数与JACCARD系数广义JACCARD系数相关系数相异度距离归一化的相似性=1-归一化的相异度变量的标准化计算平均绝对偏差其中计算标准化的度量值(z-score)使用平均绝对偏差往往比使用标准差更具有健壮性4夹角余弦简单匹配系数和JACCARD系数对称的二元变量不对称的二元变量常将出现概率较小的状态编码为1,将另一种状态编码为0两个都取值为0的情况成为负匹配,被认为不重要ObjectiObjectj简单匹配系数:R=(a+d)/(a+b+c+d)JACCARD系数:J=a/(a+b+c)6广义JACCARD系数7相关系数欧式距离与绝对距离欧式距离绝对距离(Manhattan距离)

Minkowski距离

其中Minkowski距离又称距离,距离即欧式距离,距离即绝对距离。切比雪夫距离Chebyshev距离(切比雪夫距离)

Chebyshev距离是Minkowski距离当时的极限。方差加权距离

对标准化数据计算欧式距离时,即是方差加权距离。马氏距离其中是由各变量计算得到的协方差矩阵。

考虑了变量之间的相关性。针对二元变量的距离对称的二元变量不对称的二元变量常将出现概率较小的状态编码为1,将另一种状态编码为0两个都取值为0的情况成为负匹配,被认为不重要ObjectiObjectj14二元变量距离和相似性练习某个数据集现有10个二元变量,两个观测对象X和Y的取值如下:X=0101001101y=0001111001如果10个二元变量为对称二元变量,对象X和Y之间的距离是多少?简单匹配系数是多少?如果10个二元变量为非对称二元变量,对象X和Y之间的距离是多少?JACCARD系数是多少?针对标称变量的距离1.简单匹配方法m:匹配的数目,即对象i和j取值相同的变量的数目P:全部标称变量的数量2.对每个标称变量的每个取值创建一个新的二元变量,并用非对称二元变量的计算方法计算标称变量的相异度红 绿 蓝 黄 取值0 1 0 0 绿0 0 1 0 蓝……针对序数型变量的距离1.以顺序代替原值

设序数变量f的第i个对象的值为xif,则用它在可能取值中的顺序rif代替xif

(假设f有Mf个有序状态)2.将每个rif映射到[0,1]区间3.Zif视作数值变量计算距离职称(4档):XI:助教XJ

:副教授——XI

:1

XJ

:3

ZI:0

ZJ

:2/3

17针对单属性的相似度和相异度补充:对非对称变量的处理

注意距离类型的选择针对混合类型变量的距离设数据集有p个变量对象i和j之间的相异度为对每个变量f:如果xif

或xjf

缺失,或者xif

和xjf都为0,则,否则例Dist(Jack,Mary)=(1*0+0+1*1+1*1+1*(200-100)/(1000-50)+0))

/(1+0+1+1+1+0)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论