数据处理1课件_第1页
数据处理1课件_第2页
数据处理1课件_第3页
数据处理1课件_第4页
数据处理1课件_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据处理专题 数据处理是指用简明而严格的方法把获得的实验数据所代表的事物内在的规律提炼出来,得出结果的加工过程,包括数据记录、描绘曲线,从带有误差的数据中提取参数,验证和寻找经验规律,外推实验数据等等。本章介绍一些最基本的数据处理方法。 数据处理的内容:1、数据预处理 1.1、数据标准化处理。1.2、数据光滑化处理。2、数据分类 -聚类分析。3、主要影响因素的提取- 主成分分析。4、数据具体分析 1、回归分析。2、相关性分析。3.因子分析。一、数据预处理1.1、数据标准化处理 在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也

2、就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。 二、数据处理的一般方法表:31个主要城市空气质量指标(2003年) 单位:毫克

3、/立方米 城 市可吸入颗粒物(PM10)二氧化硫(SO2)二氧化氮(NO2)空气质量达到及好于二级的天数x(天)北 京0.1410.0610.072224天 津0.1330.0740.052264石 家 庄0.1750.1520.044211太 原0.1720.0990.031181呼和浩特0.1160.0390.046286沈 阳0.1350.0520.036298长 春0.0980.0120.022342哈 尔 滨0.1210.0430.065297城 市可吸入颗粒物(PM10)二氧化硫(SO2)二氧化氮(NO2)空气质量达到及好于二级的天数x1(天)北 京0.1410.0610.0721

4、18天 津0.1330.0740.05278石 家 庄0.1750.1520.044 131太 原0.1720.0990.031 161呼和浩特0.1160.0390.046 56沈 阳0.1350.0520.036 44长 春0.0980.0120.0220哈 尔 滨0.1210.0430.065 45极大转极小型 x1=M-x城 市可吸入颗粒物(PM10)二氧化硫(SO2)二氧化氮(NO2)空气质量达到及好于二级的天数(天)北 京天 津石 家 庄太 原呼和浩特2、数据光滑化处理。1、移动平均法 由于实际数据有时受到随机现象的干扰,而出现随机波动,这样导致我的数据不光滑,我们可以采取一些数学

5、手段对其进行光滑化处理,便于我们进行后期分析。2、指数平滑法其中xk 为原始数据,Yk 为平滑后的数据,n为数据个数,b为平滑权数。其他聚类方法1、模糊聚类2、灰色聚类3、神经网络聚类4、图论聚类法综合人口承载力研究 经济承载力 环境承载力 资源承载力1、间隔尺度:变量是用连续量来表示,如长度、重量等。2、有序尺度:用一些等级来表示。如上中下三等。3、名义尺度:既没有数量表示也没有次序表示。如 红、黄、 蓝三色等。实际问题的三种数量尺度:类间的连接方法x21x12x22x11x11x21最短距离最长距离平均距离Q分类距离的选择 距离有:明氏距离、欧氏距离,马氏距离,兰氏距离等具体如下。(1)明

6、氏距离明氏距离欧氏距离明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。 明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。 这是印度著名统计学家马哈拉诺比斯(PCMahalanobis)所定义的一种距离,其计算公式为:(3)马氏距离协方差阵的逆矩阵 马氏距离又称为广义欧氏距离。显然,马氏距离与上述各种距离的主要不同就是马氏

7、距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,消除了各个观测指标不同量纲的影响。这表明,马氏距离对任何非奇异线性变换都具有不变性。协方差及协方差矩阵的定义协方差的定义 R分类相似度选择1、数量积法2、夹角余弦法3、相关系数法最短距离法步骤如下:【1】定义样品之间的距离,计算样品两两距离,得一距离记为D(0) 开始每个样品自成一类,显然这时Dij =dij。其中D表示类Group之间的距离

8、,distance表示样品之间的距离。【2】找出D(0) 的非对角线最小元素,设为Dpq,则将Gp和Gq合并为一新类,记为Gr 。【3】给出计算新类与其他的类的距离公式: 距离公式有:欧氏距离,马氏距离,兰氏距离等。 Dkr=minDkp,Dkq将D(0)中的第p、q行及p、q列用上面公式并成一个新行新列,新行新列对应Gr,所得到得矩阵记为D(1)【4】对D(1)重复上述对D(0)的(2)(3)两步得D(2);如此下去,直到所有的元素并为一类。注意:如果某一步中非对角线最小的元素不止一个,则对应这些最小元素的类可以同时合并。为了大家便于掌握我们举例如下: 例:设抽取五个样品,每个样品只测一个指

9、标,它们是1,2,3.5,7,9,试用最短距离法对这五个样品进行分类。D0G1=X1G2=X2G3=X3G4=X4G5=X5G1=X10G2=X210G3=X32.51.50G4=X4653.50G5=X5875.520样品样品1样品2样品3样品4样品5指标1123.579解:我们距离选用我们所熟悉的绝对值距离。|x1-x2|D1G6=X1,x2G3=X3G4=X4G5=X5G6=X1,x20G3=X31.50G4=X453.50G5=X575.520D2G6=X1,x2,x3G4=X4G5=X5G6=X1,x2,x30G4=X43.50G5=X55.520D3G6=X1,x2,x3G7=x4

10、,X5G6=X1,x2,x30G7=x4,X53.50最终我们分为两类比较合适,x1,x2,x3与x4,x5样品指标1样品11样品22样品33.5样品47样品59X1X2X3X4X5样品指标1样品11样品22样品33.5样品47样品59Step1 寻找变量之间的相似性用pdist函数计算相似矩阵,有多种方法可以计算距离,进行计算之前最好先将数据用zscore函数进行标准化。X=1,2,3.5,7,9X2=zscore(X); %标准化数据Y2=pdist(X2, euclidean); %计算距离(欧氏距离)Step2 定义变量之间的连接Z2=linkage(Y2, single);%最短距离

11、法Step3 评价聚类信息C2=cophenet(Z2,Y2); Step4 创建聚类,并作出谱系图T=cluster(Z2,2);%表示将将X分成2类H=dendrogram(Z2);%画出聚类树形图matlab做聚类分析聚类步棸:(1)找到数据集合中变量两两之间的相似性和非相似性,用pdist函数计算变量之间的距离;(2)用 linkage函数定义变量之间的连接;(3)用 cophenetic函数评价聚类信息;(4)用cluster函数创建聚类。zscore函数调用格式:Z = ZSCORE(D) 说明:目的是标准化数据,它所采取的标准话原理是标准化变换 pdist函数调用格式:Y=pdi

12、st(X,metric)说明:用 metric指定的方法计算 X 数据矩阵中对象之间的距离。X:一个mn的矩阵,它是由m个对象组成的数据集,每个对象的大小为n。metric取值如下:euclidean:欧氏距离(默认);seuclidean:标准化欧氏距离;mahalanobis:马氏距离;cityblock:布洛克距离;minkowski:明可夫斯基距离;cosine:cos距离 (计算相似度)chebychev:Chebychev距离。linkage函数调用格式:Z=linkage(Y,method)说 明:用method参数指定的算法计算系统聚类树。 Y:pdist函数返回的距离向量;

13、method:可取值如下: single:最短距离法(默认); complete:最长距离法;average:未加权平均距离法; weighted: 加权平均法;centroid:质心距离法; median:加权质心距离法;ward:内平方距离法(最小方差算法)cophenet函数 调用格式:c=cophenetic(Z,Y)说 明:利用pdist函数生成的Y和linkage函数生成的Z计算ecophene相关系数.cophene检验一定算法下产生的二叉聚类树和实际情况的相符程度,就是检测二叉聚类树中各元素间的距离和pdist计算产生的实际的距离之间有多大的相关性,另外也可以用inconsis

14、tent表示量化某个层次的聚类上的节点间的差异性。dendrogram函数调用格式:H,T=dendrogram(Z,n)说明:产生的聚类树是一个n型树,最下边表示样本,然后一级一级往上聚类,最终成为最顶端的一类。纵轴高度代表距离列 。另外,还可以设置聚类数最下端的样本数,默认为30,可以根据修改dendrogram(Z,n)参数n来实现,1nM。dendrogram(Z,0)则表n=M的情况,显示所有叶节点。cluster 函数调用格式:T=cluster(Z,cutoff,C) , T=cluster(Z,n) 说明:根据linkage函数的输出Z 创建分类,C表示聚类的 门限值,n表示分

15、成n类。例 为了更深入了解我国人口的文化程度状况,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选用了三个指标:(1)大学以上文化程度的人口占全部人口的比例(DXBL);(2)初中文化程度的人口占全部人口的比例(CZBL);(3)文盲半文盲人口占全部人口的比例(WMBL)、分别用来反映较高、中等、较低文化程度人口的状况,原始数据如附件:地区序 号DXBLCZBLWMBL北 京19.3030.558.70天 津24.6729.388.92河 北30.9624.6915.21山 西41.3829.2411.30内 蒙51.4825.4715.39辽 宁62.603

16、2.328.81吉 林72.1526.3110.49解:程序如下clearclcdata1=load(data1.txt)X=zscore(data1)Y2=pdist(X, mahalanobis);%计算样本间距离Z2=linkage(Y2,single);%根据最短距离法分类C2=cophenet(Z2,Y2); T=cluster(Z2,5);%分成三类H=dendrogram(Z2);%画出聚类图根据聚类图把30个样品分为四类能更好地反映我国实际情况。第一类:北京、天津、上海。文化较发达的地区。第二类:安徽、宁夏、青海、甘肃、云南、贵州。其中大多是西部经济、文化发展较慢的地区。第三类

17、:西藏。经济、文化较落后的地区。第四类:湖南、湖北,广东、广西等大多是东部地区。文化在全国处于中等偏上水平。第五类:山西、辽宁、吉林、黑龙江文化在全国处于中等水平。 根据指标X1,X2,X3,X4,X5,X6,对下面的大学进行分类。 其中X1至X6变量分别表示新生的SAT得分,新生中在高中时期名列班上前10%的人数百分比,报名者被接受入学的百分比,学生与教师的比例,估计的年费用,毕业比例。 练 习 题SAT,全称Scholastic Assessment Test,中文名称为学术能力评估测试。由美国大学委员会(College Board)主办,SAT成绩是世界各国高中生申请美国名校学习及奖学金的重要参考 。大学X1X2X3X4X5X6哈佛大学14.0091141139.52597普林斯顿大学13.759114830.22095耶鲁大学13.7595191143.51496斯坦福大学13.6090201236.45093麻省理工学院13.8094301034.87091杜克大学13.1590301231.58595加州理工学院14.1510025663.57581达特茅斯大学13.4089231032.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论