数据标准化的原因和方法_第1页
数据标准化的原因和方法_第2页
数据标准化的原因和方法_第3页
数据标准化的原因和方法_第4页
数据标准化的原因和方法_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据标准化的原因和方法数据标准化的原因和方法数据标准化的原因和方法资料仅供参考文件编号:2022年4月数据标准化的原因和方法版本号:A修改号:1页次:1.0审核:批准:发布日期:数据标准化的原因和方法一、为何要将数据标准化由于不同变量常常具有不同的单位和不同的变异程度。

不同的单位常使系数的实践解释发生困难。例如:第1个变量的单位是kg,第2个变量的单位是cm,那么在计算绝对距离时将出现将两个事例中第1个变量观察值之差的绝对值(单位是kg)与第2个变量观察值之差的绝对值(单位是cm)相加的情况。使用者会说5kg的差异怎么可以与3cm的差异相加

不同变量自身具有相差较大的变异时,会使在计算出的关系系数中,不同变量所占的比重大不相同。例如如果第1个变量(两水稻品种米粒中的脂肪含量)的数值在2%到4%之间,而第2个变量(两水稻品种的亩产量)的数值范围都在1000与5000之间。为了消除量纲影响和变量自身变异大小和数值大小的影响,故将数据标准化。

二、数据标准化的方法:

1、对变量的离差标准化

离差标准化是将某变量中的观察值减去该变量的最小值,然后除以该变量的极差。即

x’ik=[xik-Min(xk)]/Rk

经过离差标准化后,各种变量的观察值的数值范围都将在〔0,1〕之间,并且经标准化的数据都是没有单位的纯数量。离差标准化是消除量纲(单位)影响和变异大小因素的影响的最简单的方法。

有一些关系系数(例如绝对值指数尺度)在定义时就已经要求对数据进行离差标准化,但有些关系系数的计算公式却没有这样要求,当选用这类关系系数前,不妨先对数据进行标准化,看看分析的结果是否为有意义的变化。2,对变量的标准差标准化

标准差标准化是将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即

x’ik=(xik-)/sk

经过标准差标准化后,各变量将有约一半观察值的数值小于0,另一半观察值的数值大于0,变量的平均数为0,标准差为1。经标准化的数据都是没有单位的纯数量。对变量进行的标准差标准化可以消除量纲(单位)影响和变量自身变异的影响。但有人认为经过这种标准化后,原来数值较大的的观察值对分类结果的影响仍然占明显的优势,应该进一步消除大小因子的影响。尽管如此,它还是当前用得最多的数据标准化方法。3,先对事例进行标准差标准化,再对变量进行标准差标准化

第一步,先对事例进行标准差标准化,即将某事例中的观察值减去该事例的平均数,然后除以该事例的标准差。即

x’ik=(xik-)/si

第二步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即

x’’ik=(x’ik-’k)/s’k

使用这种标准化的目的也在于消除性状间的量纲(单位)影响和变异大小因子的影响,使性状间具有可比性。4,先对变量、后对事例、再对变量的标准差标准化

这种标准化的目的也在于消除性状间的量纲(单位)影响和变异大小因子的影响,使性状间具有可比性。具体做法是:

第一步,先对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即

x’ik=(xik-)/sk

第二步,后对事例进行标准差标准化,即将某事例中的观察值减去该事例的平均数,然后除以该事例的标准差。即

x’’ik=(x’ik-’i)/s’i

第三步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论