多元数据图表示法.ppt_第1页
多元数据图表示法.ppt_第2页
多元数据图表示法.ppt_第3页
多元数据图表示法.ppt_第4页
多元数据图表示法.ppt_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章多元数据图表示法,3.1轮廓图3.2雷达图3.3调和曲线图3.4星座图3.5脸谱图,本章学习目标,领会作多元数据图的思想。会作简单的多元数据图形并且会分析图形。,第三章多元数据图表示法,图形有助于我们对所研究数据的直观了解,如果能把一些多元数据直接显示在平面图上,便可以从图形一目了然地看出多元数据之间的关系。当只有一、二维数据时,可以使用通常的直角坐标系在平面上点图;当有三维数据时,也可以使用空间直角坐标系点图,但是已经不方便;当维数大于3时,用通常的方法已不能点图。但是在许多实际问题中,多元数据的维数都大于3。,例考察北京、上海、陕西、甘肃四个省市人均生活消费支出情况,选取以下五项指标,具体数据如下表:,多元数据图表示法的分类:一类是使高维空间的点与平面上的某种图形应,这种图形能反映高维数据的某些特点或数据间的某些关系;另一类是在尽可能多地保留原数据信息的原则下进行降维,若能使数据维数降至2或1维,则可在平面上点图。第二类分类方法可用后面介绍的主成分分析、因子分析等去解决。这一章只对第一类方法介绍四种图表示法,更多的方法可在有关专著中找到。,3.1轮廓图,作图步骤为:(1)作平面坐标系,横坐标取个点表示个变量。(2)对给定的一次观测值,在个点上的纵坐标(即高度)和它对应的变量取值成正比。(3)连接个高度的顶点得一折线,则一次观测值的轮廓为一条多角折线形。次观测值可画出条折线,构成轮廓图。,下图画出四条折线为北京、上海、陕西、甘肃五项指标的数据即四个省市五项指标的轮廓。,轮廓图,由轮廓图可以看出:北京、上海的居民生活消费较高且相似;陕西、甘肃生活消费较低且相似。如果考察的样品较多,画折线时图形中可能出现重复点多,不便于区分哪个样品对应哪条折线,这时最好多用几种颜色或长短虚实等标志画出折线。,下表是我国华北地区5个省市2003年城镇居民家庭平均每人全年消费性支出的六项指标数据考虑微机的普及应用,图形的制作则通过电脑实现。轮廓图、矩阵散点图在SPSS中制作,雷达图则在EXCEL中实现。,表华北5省市城镇居民家庭消费性支出,在SPSS中作轮廓图的方法如下:(1)将原始数据输入SPSS中。把不同地区当成变量,而把支出指标当成观测。,作轮廓图时的数据组织形式,(2)选择菜单项GraphsLine,打开LineCharts对话框,如图。在对话框上方的三个选项用于选择轮廓图的形式,由于是这里是多变量作图,所以选择Multiple。在对话框下面的三个选项中选择Valueofindividualcases。单击Define按钮,打开DefineMultipleLine对话框。,LineCharts对话框,(3)在DefineMultipleLine对话框中,将代表不同地区的5个变量移入LinesRepresent列表框中,将代表支出指标的变量(variable)移入Variable框中。单击OK按钮,即可作出如图所示的轮廓图。从图中可以清楚地看出北京市几乎各项支出都排在第一,而山西省则几乎每项支出都是最低的。,DefineMultipleLine对话框,轮廓图,散点图又称散布图,它是以点的分布反映变量之间相关关系的可视化方法。矩阵散点图则是一种反映多个变量之间相关关系的二维散点图。利用SPSS制作矩阵散点图的步骤如下:(1)在SPSS中按图11.6的形式组织数据,即把支出指标当成变量,而把不同地区当成观测。,图11.6作散点图时的数据组织形式,(2)选择菜单项GraphsScatter,打开Scatterplot对话框,如图11.7。该对话框用于选择散点图的形式。选定Matrix,即矩阵散点图,单击Define按钮,打开ScatterplotMatrix对话框,如图11.8。,图11.7Scatterplot对话框,图11.8ScatterplotMatrix对话框,(3)在打开的ScatterplotMatrix对话框中,将食品、衣着、居住三个变量移入MatrixVariables列表框中,将标志变量region移入LabelCasesby列表框中。(4)点击OK按钮,得到如图11.9所示的矩阵散点图。从图11.9可以看出,河北、山西、内蒙古在居住和食品消费支出方面与北京、天津相比较低,食品与居住支出变量之间存在一定的线性关系。天津在衣着支出方面较低,与最低的河北接近,与最高居住支出形成鲜明对比。北京则除在居住支出方面低于天津外,其他方面支出均高于华北其他省市。内蒙古则在衣着支出方面仅次于北京,显示出某种特殊消费特征。,矩阵散点图,3.2雷达图,作图步骤:(1)作一圆,并把圆周分为等分。(2)连接圆心和各分点,把这条半径依次定义为各变量的坐标轴,并标以适当的刻度。(3)对给定的一次观测值,把它的个分量值分别点在相应的坐标轴上,然后连接成一个边形,这个边形就是元观测值的图示,次观测值可画出个边形。,例如,根据前表中的数据,调用EXCEL图表向导,即可制作出如图17所示的雷达图。图1画出了北京、天津和河北的雷达图,从图可以看出,三省市消费支出结构有较大差异。北京人均消费支出的各项指标都高,对应面积最大的六边形,其次是天津,在三个省市中面积最小的是河北,天津在居住支出方面与北京较为接近,而在衣着和交通、通讯支出方面则与河北接近。其他支出方面三地存在较大差异。利用雷达图的形状、面积大小,可以对样品进行初始分类分析。为了加强雷达图的效果,在雷达图中适当的分配坐标轴是很重要的,具体的分配办法要结合分析的问题而定。例如可将要对比的指标分布在左、右或上、下方,以便于对比分析。,当观测次数n较大和指标较多时,画出的雷达图线段太多,图形的效果会很差。为了获得较好的可视化效果,在一张雷达图上可以画几个样品观测数据,甚至一张雷达图只画一个样品观测数据。如图17所示,对这些图进行比较分析,也可了解其特点。,图1,图2,图3,图4,图5,图6,图7,当观测次数较大时,为使图形清晰,每张图可以只画少数几次观测数据,甚至每张图只画一次观测值。为了获得较好的效果,在雷达图中适当分配变量的坐标轴,并选取合适的尺度是十分重要的。注意:这里坐标轴只有正半轴,因而只能表示非负数据,若有负数据,只能通过合理变换使之非负才行。,3.3调和曲线图,调和曲线图的思想:把高维空间中的一个样品点对应于二维平面上的一条曲线。调和曲线图是D.F.Andrews在1972年提出的三角多项式作图法,所以又称为三角多项式图。,上例数据北京,上海,陕西,甘肃分别对应的曲线为:,调和曲线图,在多项式的图表示中,当各变量的数值太悬殊时,最好先标准化后再作图。调和曲线图对聚类分析很有帮助,如果选择聚类统计量为距离的话,同类的曲线非常靠近拧在一起,不同类的曲线拧成不同的束,非常直观。调和曲线的性质:(1)保线性关系,(2)保欧式距离,3.4星座图,思想:将高维空间中的样品点投影到平面上的一个半圆内,用投影点表示样品点。作图步骤:,(3)画出一个半径为1的上半圆及半圆底边的直径。,下面对本章开头所给出的数据,使用相同的权数作星座图。由数据表易知,各指标的最高分,最低分以及它们的级差分别为:,它们的星座图如下:,在人工画星座图时,可按下面步骤去作:,有时为了突出星星的位置,也可以不画路径,只画星星,容易想象,如果这次观测数据来自不同的类,且不同类的观测数据所对应的星星分别相对集中地散步在星座图的不同区域,那么星座图可能用于多变量数据的分类。从作图过程可以看出:星星的位置和路径与权数的选取有关,取不同的权数,画出的星座图也不同。一般权数选取的原则以实际问题的需要而定。通常情况对较重要指标取权数大些,次要指标取权数小些,如果指标的重要程度相差不大或难以区分,则选取等权。多元数据的图表示法还有很多,如脸谱图,树形图,塑像图等等。,2020/5/24,41,目录上页下页返回结束,3.5脸谱图,脸谱图是用脸谱来表达多变量的样品,由美国统计学家H.Chernoff于1970年首先提出,该方法是将观测的个变量(指针)分别用脸的某一部位的形状或大小来表示,一个样品(观测)可以画成一张脸谱。他首先将该方法用于聚类分析,引起了各国统计学家的极大兴趣,并对他的画法作出了改进,一些统计软件也收入了脸谱图分析法,国内也有很多研究工作者将该方法应用于多元统计分析中。,2020/5/24,42,目录上页下页返回结束,脸谱图分析法的基本思想是由1518个指针决定脸部特征,若实际资料变量更多将被忽略(有新的画图方法取消了脸的对称性并引入更多脸部特征从而最多可以用36个变量来画脸谱),若实际资料变量较少则脸部有些特征将被自动固定。统计学曾给出了几种不同的脸谱图的画法,而对于同一种脸谱图的画法,将变量次序重新排列,得到的脸谱的形状也会有很大不同。此处我们不对脸谱的各个部位与原始变量的数学关系作过多探讨,而只说明其作图的思想及软件实现方法。,2020/5/24,43,目录上页下页返回结束,按照切尔诺夫于1973年提出的画法,采用15个指标,各指标代表的面部特征为:1表示脸的范围,2表示脸的形状,3表示鼻子的长度,4表示嘴的位置,5表示笑容曲线,6表示嘴的宽度,711分别表示眼睛的位置,分开程度,角度,形状和宽度,12表示瞳孔的位置,1315分别表示眼眉的位置,角度及宽度。这样,按照各变量的取值,根据一定的数学函数关系,就可以确定脸的轮廓、形状及五官的部位、形状,每一个样本点都用一张脸谱来表示。而脸谱容易给人们留下较为深刻的印象,通过对脸谱的分析,就可以直观地对原始资料进行归类或比较研究。,2020/5/24,44,目录上页下页返回结束,SPlus软件收入了脸谱图的作图方法,下面我们举例说明如何用SPlus软件画脸谱图:【例13-2】仍以我国35个上市公司的八大评价指标为例说明,SPlus画脸谱图的方法非常简单,只要调用faces函数就可以实现了。将前面的资料的数字部分输入SPlus,并令文件名为gongsi.sdd,在命令窗口调用下面的函数:faces(data.matrix(gongsi),fill=T,which=1:8,head=Facesof35Companies,ncol=5,scale=T,byrow=T)回车运行就可以生成35个公司的脸谱图,每一个公司用一张脸谱表示出来,但是,此时生成的脸谱图不好与公司名对应,可将35个公司名放入一个向量a中,然后在上面的命令中加入选项labels=a,即可生成如下脸谱图:,2020/5/24,45,目录上页下页返回结束,2020/5/24,46,目录上页下页返回结束,脸谱图给人的感觉形象直观,容易留下较深刻的印象,可以根据脸谱图来对各公司的运营能力进行比较,比如根据脸的范围(净资产收益率)来看,方正科技,清华同方,粤电力,深南电,金丰投资等公司处于较高水平,而象渝开发,粤宏远,寰岛实业等公司明显处于较低水平,类似可以对其他指标进行分析。利用脸谱图,还可以直观地对各个公司进行归类。由上图看来,方正科技、深南电、深能源、中兴通讯、粤电力、清华同方、金丰等公司大致可以归为一类,穗恒运、长城计算机、永鼎光缆、宏图高科大致可以归为一类,富龙热力、韶能股分、惠天热电、大连热电、华银电力、长春经开、新黄浦、辽房天、三木集团、青鸟华光、海星科技、龙电股分等公司可以归为一类,剩余的公司大体可以归为一类。此处不再详述。,2020/5/24,47,目录上页下页返回结束,在利用脸谱图工具对观测进行比较分析时,值得注意的一点是脸谱的形状受各变量次序的影响很大,在本例中如果把八个指标的次序换一下,得到的脸谱图就会有很大不同。而且,根据脸谱图对各公司的归类有很大的主观性,因为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论