教学课件-数据挖掘各种距离_第1页
教学课件-数据挖掘各种距离_第2页
教学课件-数据挖掘各种距离_第3页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

各种距在做分类时常常需要估算不同样本之间的相似性度量(marMeasurement),这时通常采用的方法就是计算样本间的“距离stance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。本 切比距杰卡德距离&相关系数&欧氏距离二维平面上两点a(x1,y1)与b(x2,y2)三两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离两个n维向量a(x11,x12,…,x1n)b(x21,x22,…,x2n)计算欧氏距离计算距离主要使用pdist函数。若X是一个M×N的矩阵,则pdist(X)将X矩阵M行的每一行作为一个NM个向量两两间的距离。X=[00;10;0D=1.0000 曼哈顿距离从名字就可以猜出这种距离的计算方法了。想象你在曼哈顿要从一个称的来源,曼哈顿距离也称为城市街区距离(CityBlockdistance)。二维平面两点a(x1,y1)与b(x2,y2)两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)计算曼哈顿距离X=[00;10;0D=pdist(X, 切比距离(ChebyshevDistance8个方格中的任意一个。发现最少步数总是max(|x2-x1||y2-y1|)步。有一种类似的一种距离度量方法叫切比距离。二维平面两点a(x1,y1)与b(x2,y2)间的切比距两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的切比距看不出两个公式是等价的?提示一下:试试用放缩法和法则来证明计算切比距离例子:计算向量(0,0)、(1,0)、(0,2)两两间的切比距X=[00;10;0D=pdist(X, 闵可夫斯基距离两个n维变量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的闵可夫斯基距离其中p当p=1时,就是曼哈顿距离当p=2时,就是欧氏距离当p→∞时,就是切比距闵氏距离,包括曼哈顿距离、欧氏距离和切比距离都存在明显的缺点。举个例子:二维样本(身高,体重)150~190,体重范围是50~60,有三个样本:a(180,50),b(190,50),c(180,60)。那么a与b之间的闵距离,但是身高的10cm真的等价于体重的10kg么?因此用闵氏距离来衡量这计算闵氏距离例子:计算向量(0,0)(1,0)(0,)(2的欧氏距离为例)X=[00;10;0D=1.0000 标准化欧氏距离(StandardizedEuclideandistance知识吧,假设样本集X的均值(mean)为m,标准差(standarddeviation)为s,那么X的“标准化变量”表示为:而且标准化变量的数学期望为0,方差为1。因此样本集的标准化过程=(分量的标准差经过简单的推导就可以得到两个na(x11,x12,…,x1n)与如果将方差的倒数看成是一个权重这个公式可以看成是一种欧氏距(WeightedEuclideandistance)(2)计算标准化欧氏距0.51)X=[00;10;0D=pdist(X,2.0000 马氏距离(1)有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的马氏距离表示为:XiXj计算(12),13),22),(31)X=[12;13;22;3Y=2.3452 夹角余弦在二中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)类似的,对于两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n),可计算夹角余弦例子:计算(1,0)、1,1.732)、(-1,0)两两间的夹角余弦X=[10;11.732;-10]D=1-pdist(X,'cosine')%中的pdist(X,'cosine')得到的是1减夹角余弦0.5000- -汉明距离(1)两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”2。(2)计算汉明距22个向量不同的分量所占的百X=[00;10;0D=PDIST(X,0.5000 杰卡德相似系数(Jaccardsimilarity两个集合ABA,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。样本A与样本B是两个n维向量而且所有维度的取值都是01例如:p:样本A与B1的维度的个数q:样本A1B0的维度的个数r:样本A0B1的维度的个数s:样本AB0的维度的个数那么样本AB这里p+q+rABpAB的交集的元素个而样本AB计算杰卡德距离的pdist函数定义的杰卡德距离跟我这里的定义有一些差别,中X=[110;1-10;-11D=pdist(X, 相关系数Correlationcoefficient与相关距离(Correlation相关系数是衡量随量X与Y相关程度的法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明XY相关度越高XY线性相关1(正线性相关)或-1(负线性相关)。计算(1,2,3,4与(3,8,7,6)X=[1234;387Ccorrcoef(X D=pdist(X,1.00000.47810.4781就是相关系数,0.52

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论