week15相关分析分析_第1页
week15相关分析分析_第2页
week15相关分析分析_第3页
week15相关分析分析_第4页
week15相关分析分析_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

相关分析平均数、标准差是对单变量进行描述的特征量。若对两个变量之间变化关系进行描述,需要用相关量。如,描述同一组学生两门学科成绩的关系;智力与学习成绩的关系等等,都要用相关量来描述。一、引言7.1相关分析的基本原理变量间的关系函数关系:变量间有完全确定的关系,可用函数表示。相关关系:变量之间存在的一种不确定的数量关系,此关系无法用确定的函数形式表示。函数关系是一一对应的确定关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量各观测点落在一条线上xy函数关系(几个例子)函数关系的例子某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px(p为单价)圆的面积(S)与半径之间的关系可表示为S=R2企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1x2x3相关关系变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量x取某个值时,变量y的取值可能有几个各观测点分布在直线周围xy相关关系(几个例子)

相关关系的例子父亲身高(y)与子女身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系相关关系的描述与测度-散点图不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关什么是相关分析用统计方法揭示变量之间是否存在相互关系及如何将相关的密切程度及相关的方向描述出来相关分析常用的方法:散点图统计指标(相关系数)相似性或距离怎样分析变量间的相关关系?分析变量之间的关系需要解决下面的问题(4大问题)变量之间是否存在关系?相关程度的强弱如何?相关的趋势及方向?样本所反映的变量之间的关系能否代表总体变量之间的关系?Pearson相关系数(取值及其意义)-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加Pearson相关系数(取值及其意义)

r

的取值范围是[-1,1]|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关

r=0,不存在线性相关关系

-1r<0,为负相关

0<r1,为正相关

|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切Pearson相关系数的检验假设形式

H0:ρ=0,H1:ρ≠0检验的统计量在两随机变量X和Y服从正态分布及原假设为真时,统计量t~t(n-2)决策规则当p<α时拒绝原假设,表明样本相关系数r是显著的;否则表明r在统计上是不显著的,两总体不存在显著的相关关系。申请打字人员的口试与实际操作的相关关系

有一家公司招聘打字员,采用口试与实际操作两种考核方式。现有6个申请人的口试与实际操作的评分如下表。现要求测定这些申请人实际操作成绩与口试成绩之间是否存在关系及关系的密切程度。申请人123456口试成绩B-A-B+ACB操作成绩283847562932Kendall‘stau-b相关系数计算申请人口试成绩操作成绩转换成等级口试操作异序对4A561102A-382313B+473206B324401B-285615C29650SPSS中Kendall‘stau-b相关系数的输出结果SPSSANALYZECorrelateKendall‘stau-b啤酒品牌的相似度分析

受某啤酒公司的委托,尼尔森咨询公司就啤酒市场进行了详细的品牌调查。数据如下,现对啤酒品牌的相似度进行分析。编号啤酒品牌热量(卡)钠含量(%)酒精含量(%)价格($)1Budweiser144.0019.004.700.432Schlitz181.0019.004.900.433Ionenbrau157.0015.004.900.484Kronensourc170.007.005.200.735Heineken152.0011.005.000.776Old-milnaukee145.0023.004.600.267Aucsberger175.0024.005.500.408Strchs-bohemi149.0027.004.700.42距离相关分析

距离相关(DistanceCorrelation)分析是对样品或变量之间相似或不相似程度的一种度量,计算的是一种广义距离。距离相关分析根据统计量的不同,分为不相似性测度(Dissimilarities):通过计算距离来表示的,其数值越大,表示相似程度越弱.相似性测度(Similarities):通过计算Peason相关系数或Cosine相似系数来表示的,其数值越大,表示相似程度越强.SPSS中距离相关分析的输出结果(不相似性测度)SPSSANALYZECorrelateDistanceSPSS中距离相关分析的输出结果(相似性测度)SPSSANALYZECorrelateDistance案例某公司员工的基本情况,数据集含3列,分别为:性别、年龄、工资,现在希望了解员工年龄和工资水平之间的关系再提高一下在探索性数据分析阶段,分组对比分析非常重要,在分组变量的细分之下,往往能够发现意想不到的结论。我们讨论一下不同性别的员工,其年龄和工资的关系,男女在这方面有区别吗?(1)首先用性别变量将数据集拆分为男女两部分二、相关的概念两个变量之间不精确、不稳定的变化关系称为相关关系。相关分析是研究变量间密切程度的一种统计方法。两个变量之间的变化关系,既表现在变化方向,又表现在密切程度上。从变化方向来看,两个变量之间有以下几种关系:三、相关的类别1、正相关

两个变量的变化方向一致如智商与学习成绩(非智力因素基本相同)2、负相关

两个变量的变化方向相反如解题能力与解题所用时间的长短3、零相关

两个变量的变化方向无一定规律

四、相关系数(一)定义:用来描述两个变量相互之间变化方向及密切程度的数学特征量称为相关系数。用r表示。(二)数值变化范围:0≤|r|≤1-1≤r≤1r的正、负号表明两个变量之间变化的方向绝对值的大小表明两个变量之间变化密切程度1、概念及适用范围积差相关:当两个变量都是正态连续变量,而且两者之间呈线形关系时,表示这两个变量之间的相关,又叫皮尔逊(Pearson)相关。如,初中升高中入学考试生物与化学成绩均以百比制表示,若二者分别呈正态分布,它们之间呈线性关系,这时可用积差相关来表示它们的变化关系。五、积差相关使用条件两个变量都是由测量获得的连续性数据两个变量的总体都呈正态分布,或接近于正态分布。判断总体是否呈正态分布可进行卡方检验,以后会介绍。必须是成对数据,而且每对数据之间相互独立两个变量之间呈线性关系。这可由相关散点图的形状来决定。散点图在随后也进行介绍。样本容量n≥30散点图:判断散点图,主要看其分布形状是否呈斜向椭圆形,散点在椭圆中心处分布密集,椭圆长轴两端稀疏,这反映两变量之间是直线关系。若四个象限的散点相等,且分布均匀,为零相关。若散点分布呈曲线形,为曲线相关。散点图的趋势若表明两个变量是线性关系,才可以计算积差相关系数。2、积差相关系数的计算方法原始数据计算法:3、相关系数的显著性检验相关系数的抽样分布从两个正态连续变量的总体中,随机抽取n对数据,算得一个样本相关系数r值,随后将这些数据还回两个总体中去,再从中随机抽取n对数据,又可以计算出一个样本的r值,这一切可能个样本r值的频数分布,就构成一个实验性的相关系数r的抽样分布。相关系数显著性检验的原理上面求出的相关系数r,是根据样本数据计算出来的,它存在着抽样误差。也就是说,即使从总体相关系数ρ=0的总体中随机抽取的样本,由于抽样的偶然性,计算出的r值有可能不等于0。所以,不能仅仅根据│r│的大小,对两个变量之间关系的密切程度作出判断,还要看r在以ρ=0为中心的抽样分布上出现的概率如何。如果从ρ=0的总体中,随机抽取的r在抽样分布上出现的概率较大,则r和ρ=0的差异无显著意义。反之,如果从ρ=0的总体中,随机抽取的r在抽样分布上出现的概率较小,则r和ρ=0有显著性差异,即不是来自两个变量相关系数为0的总体。六、等级相关

等级相关:以等级次序排列或以等级次序表示的变量之间的相关。斯皮尔曼二列等级相关斯皮尔曼等级相关(一)概念及其适用范围当两个变量以等级次序排列或以等级次序表示时,两个相应总体并不一定呈正态分布,样本容量也不一定大于30,表示这两个变量之间的相关,称为等级相关。根据某种标准对某项成绩所评定的等级,或按某种指标的优劣程度所排列的名次等,均属于等级秩序性分数。计算等级相关系数的公式为D表示两个变量每对数据等级之差7.2连续变量的相关分析

像年龄变量、收入变量、成绩变量都是典型的连续变量。这就是我们前面介绍的Pearson相关。例从某系随机选取了40名大学生进行追踪研究,分别在入学后一周、第一学年末、第二学年末和第三学年末共4次英语词汇测验推算得到的被试的英语词汇量(单位:千)。表中的变量如下:性别(0表示女生,1表示男生),test1(入学后一周词汇量),test2(第一学年末词汇量),test3(第二学年末词汇量),test4(第三学年末词汇量)。想计算并检验学生英语词汇量四次测验之间的相关系数。在进行相关分析之前,可以使用Graphs菜单中的Scatter命令作散点图。散点图是以点的分布反映变量之间相关情况的统计图形,根据图中的各点分布走向和密集程度,大致可以判断变量之间的关系。按顺序Graphs——Scatter单击,打开Scatterplot散点图主对话框。1、Simple简单散点图,只显示一对相关变量的散点图4、3-D三维散点图,显示三个相关变量之间的散点图3、Matrix矩阵散点,在矩阵中显示多个相关变量之间的散点图2、Overlay重叠散点图,可显示多对相关变量的散点图把test1选择作为Y轴变量,把test2选择作为X轴变量。结果:矩阵散点图在矩阵变量框内要选择两个或两个以上的变量编辑散点图选中图中的点,打开Properties图形属性对话框,选择Marker点选项卡。在选项卡中,选择点的类型(Type)、点的大小(Size)、点的外周线(BorderWidth)以及点的颜色(Color)。选择分析菜单下的相关分析下两个变量间的相关分析选项菜单2单击按钮3单击OK1选择变量皮尔逊相关系数如果两变量相关显著,需要标注显著性检验选项将<test1>、<test2>、<test3>、<test4>指定为<Variables>。结果和讨论每个变量有三行数据,第一行是该变量与其他变量之间的相关系数,右上角标有“**”的表示在0.01水平上是显著的。Sig.(2-tailed)双尾t检验结果,对于相关系数为0的假设成立的概率。N为参与相关系数计算的有效观测量数。结论:r=0.886,P=0.000<0.01,拒绝H0。可以认为test1和test2之间有正的直线相关关系。H0:ρ=0,即test1和test2无直线相关关系。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论