




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
对象间的相似性度量vicky对象间的相似性度量相似性余弦夹角简单匹配系数与JACCARD系数广义JACCARD系数相关系数相异度距离归一化的相似性=1-归一化的相异度变量的标准化计算平均绝对偏差其中计算标准化的度量值(z-score)使用平均绝对偏差往往比使用标准差更具有健壮性4夹角余弦简单匹配系数和JACCARD系数对称的二元变量不对称的二元变量常将出现概率较小的状态编码为1,将另一种状态编码为0两个都取值为0的情况成为负匹配,被认为不重要ObjectiObjectj简单匹配系数:R=(a+d)/(a+b+c+d)JACCARD系数:J=a/(a+b+c)6广义JACCARD系数7相关系数欧式距离与绝对距离欧式距离绝对距离(Manhattan距离)
Minkowski距离
其中Minkowski距离又称距离,距离即欧式距离,距离即绝对距离。切比雪夫距离Chebyshev距离(切比雪夫距离)
Chebyshev距离是Minkowski距离当时的极限。方差加权距离
对标准化数据计算欧式距离时,即是方差加权距离。马氏距离其中是由各变量计算得到的协方差矩阵。
考虑了变量之间的相关性。针对二元变量的距离对称的二元变量不对称的二元变量常将出现概率较小的状态编码为1,将另一种状态编码为0两个都取值为0的情况成为负匹配,被认为不重要ObjectiObjectj14二元变量距离和相似性练习某个数据集现有10个二元变量,两个观测对象X和Y的取值如下:X=0101001101y=0001111001如果10个二元变量为对称二元变量,对象X和Y之间的距离是多少?简单匹配系数是多少?如果10个二元变量为非对称二元变量,对象X和Y之间的距离是多少?JACCARD系数是多少?针对标称变量的距离1.简单匹配方法m:匹配的数目,即对象i和j取值相同的变量的数目P:全部标称变量的数量2.对每个标称变量的每个取值创建一个新的二元变量,并用非对称二元变量的计算方法计算标称变量的相异度红 绿 蓝 黄 取值0 1 0 0 绿0 0 1 0 蓝……针对序数型变量的距离1.以顺序代替原值
设序数变量f的第i个对象的值为xif,则用它在可能取值中的顺序rif代替xif
(假设f有Mf个有序状态)2.将每个rif映射到[0,1]区间3.Zif视作数值变量计算距离职称(4档):XI:助教XJ
:副教授——XI
:1
XJ
:3
ZI:0
ZJ
:2/3
17针对单属性的相似度和相异度补充:对非对称变量的处理
注意距离类型的选择针对混合类型变量的距离设数据集有p个变量对象i和j之间的相异度为对每个变量f:如果xif
或xjf
缺失,或者xif
和xjf都为0,则,否则例Dist(Jack,Mary)=(1*0+0+1*1+1*1+1*(200-100)/(1000-50)+0))
/(1+0+1+1+1+0)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 文学与历史的交汇点分析试题及答案
- 理财目标规划计划
- 企业间协同合作的模式分析计划
- 提高课堂互动性的方法计划
- 培养学生的劳作能力与现代职业观的培养方法研究
- 学校活动策划与组织能力提升培训
- 改善工作环境提升员工满意度计划
- 学生心理危机预防与应对
- 小手拉大手亲密的家校联系计划
- 大数据在科技创新中的价值及实践探索
- FZ/T 97021-2009电脑织袜机
- 高考语文复习:古诗文补充背诵篇目-《贺新郎·国脉微如缕》课件23张
- 内河船舶安全检查简要概述课件
- 中考英语典型陷阱题例析
- 医院神经外科各种颅脑引流管患者护理常规
- 一级建造师铁路工程实务考试重点(掌握即可顺利通过)
- 体外循环意外时麻醉医生该做些什么?
- 意识障碍的判断PPT精选文档
- 家和万事兴-善人道
- 财务用发票分割单范本
- 风电机组现场吊装记录
评论
0/150
提交评论