判别分析作业_第1页
判别分析作业_第2页
判别分析作业_第3页
判别分析作业_第4页
判别分析作业_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1. 为什么要使变量去掉单位而使尺度无关 ? 为什么马氏距离是与尺度 无关的? (必讲题目 , 给出理论证明 (1基于欧氏距离,两个点之间的长度为:每个变量之间的变量之间的尺度都不一样,例如第一个变量的数量级是 1000, 而第二个变量是变量的数量级是 10, 如 v1=(3000,20,v2 = (5000,50,那么如果只有 2维的点中,欧氏距离为:由上面可以很容易看出, 当两个变量都变成数量级为 10的时候, 第一个 变量存在一个权重:10,因而如果不使用相同尺度的时候,不同尺度的变量 就会在计算的过程中自动地生成相应的权重。因而,如果两个变量在现实中 的权重是相同的话, 就必须要先化成

2、相同的尺度, 以减去由尺度造成的误差, 这就是标准化的由来。如果化成相同尺度的方法就变成标准化方法了, 标准化的方法有很多种, 有些办法是使数据化成 0,1之间, 如 min-max 标准化; 有些通过原始数据减 去平均值再除标准差的方法,如 z-score 标准化;有些类似如上面的方法那 样,化成相同的数量级的方法,如 decimal scaling小数定标标准化。(2根据上面 1所描述,当计算两点的相似度(也可以说是距离的时候,第 一步是首先标准化, 化成与尺度无关的量, 再计算它的距离。 但是如果是单纯使 每个变量先标准化, 然后再计算距离, 可能会出现某种错误, 原因是可能在有些 多维

3、空间中,某个两个维之间可能是线性相关的,如下图所示: 黄色部分为样品点, 可以知道 x1与 x2是线性相关的, 根据正态分布, 对于中 心点 u ,与 A 与 B 的标准距离应该是相同的,而马氏距离能做到这一点,但欧氏 距离做不到,如下图所示: 由上图看到,如果使用欧氏距离, A 点与 B 点距离中心点相同,但是又可以 看出, A 点处于样品集的边缘了,再外出一点就成异常点了。因此我们使用欧氏 距离计算的时候, 不能有效地区分出异常数据, 看不出两变量之间的相似性与差 异性,而上图中, A 与 B 对于全体样品来说,差异性是够大的了。 为了解决这个问题,我们可以通过旋转坐标轴的方法,如下图所示

4、: 可以看到 y1与 y2是线性无关的, 因此我们可以通过对线性无关的分量进行 标准化后, 再求得距离是合理的。 其实通过旋转坐标轴的方式, 相当于对 x 进行 相应的线性变换:Y = PX, 使 Y 里面的各分变量变成线性无关的。设是随机向量 =x1,x2,.xp的协方差矩阵,它有特征值 -特征向量对 (1,e1 , (2,e2 , .(p,ep ,其中 1>=2>=.>=p ,则第 i 主成分由 因此得到的新的变量 Y 里面的各分量是线性无关的, 此时对于离中心点距离为 某常数 C 形成的曲面是超椭球面。 而 yi 的方差为 i , 因而需要再把 yi 标准化, 使之变成

5、 yi/i , 形成新的 yi, 这样生成的 yi 之间变成了与尺度无关的变量了, 公式如下: 其中 P 是以特征向量为行向量的矩阵,根据正定距阵,特征向量互相正交。现在来验证 Y 的协方差: 所以, 对于旋转压缩后的 Y 的各分量之间线无关, 而且已经标准化, 与尺度无 关, 此时以 Y 分量为坐标轴形成的空间中, 离中心距离为常数 C 的面为正圆球面。 因而可以直接使用欧氏距离描述两点之间的相似度,也就是距离,因此有: 因此, 当原坐标经过适当的变换之后, 可以求出两点与尺度无关的距离, 这也 是使用马氏距离的原因。2, 人文与发展指数是联合国开发计划署于 1990年 5月发表的第一份 人类发展报告 中公 布的。 该报告建议, 目前对人文发展的衡量指标应当以人生的三大要素为重点。 衡量人生的 三大要素的指标分别为:实际人均 GDP 指数、 出生时的预期寿命指数、 受教育程度指数 (由 成人识字率指数和综合总人学率指数按 2/3、 1/3的权重加权而得 ,将一生三个指数合成为 一个指数就是人文发展指数。今从 2007年世界各国人文发展指数(2005年的排序中,选 取高发展水平、 中等发展水平和低发展水平国家各 6个作为三组样品, 另选四个国家作为待 判样品, 资料如下表所示。 试用判别分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论