第七讲 相关分析_第1页
第七讲 相关分析_第2页
第七讲 相关分析_第3页
第七讲 相关分析_第4页
第七讲 相关分析_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七讲相关分析——双变量关系之描述一、基本概念与原理变量之间的关系:函数关系和统计关系

比如,家庭收入和支出、一个人所受教育程度与其收入、子女身高和父母身高等,…一、基本概念与原理相关分析:衡量事物之间或称变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。相关系数:衡量变量之间相关程度的一个量值。相关关系正相关、负相关与零相关强相关、中度相关与弱相关线性相关与非线性相关相关系数相关系数r的数值范围是在一1到十1之间。相关系数r的正负号表示变化方向。“+”号表示变化方向一致,即正相关;“-”号表示变化方向相反,即负相关。r的绝对值表示变量之间的密切程度(即强度)。绝对值越接近1,表示两个变量之间关系越密切;越接近0,表示两个变量之间关系越不密切。相关系数相关系数的值,仅仅是一个比值。它不是由相等单位度量而来(即不等距),也不是百分比,因此,不能直接作加、减、乘、除运算。相关系数只能描述两个变量之间的变化方向及密切程度,并不能揭示两者之间的内在本质联系,即存在相关的两个变量,不一定存在因果关系。散点图基本原理(以积差相关为例)若>0,则x与y之间为正相关;若<0,则x与y之间为负相关;若→0,则x与y之间无相关关系。

二、相关分析方法连续变量的相关分析等级变量的相关分析质量相关分析品质相关分析偏相关分析距离相关分析连续变量的相关分析连续变量即数据变量,它的取值之间可以比较大小,可以用加减法计算出差异的大小。如“年龄”、“收入”、“成绩”等变量。当两个变量都是正态连续变量,而且两者之间呈线性关系时,表示这两个变量之间的相关称为积差相关。通常用Pearson相关系数来衡量。连续变量的相关分析Pearson相关系数的计算公式积差相关的使用条件两个变量都是由测量获得的连续性数据;两个变量的总体都是呈正态分布,或接近正态分布,至少是单峰的对称分布。必须是成对数据,而且每对数据之间必须是相互独立。两个变量之间呈线性关系。要排除共变因素的影响。样本容量要大于等于30,计算出的积差相关系数才具有有效意义。积差相关系数的显著性检验ρ=0统计假设H0:ρ=0;H1:ρ≠0统计量T统计量服从n-2个自由度的t分布。积差相关系数的显著性检验ρ≠0ρ≠0时r的样本分布不是正态,这时需要将r与ρ都转换成费舍。的分布可以认为是正态,其平均数,标准误这样就可以进行Z检验了。统计量如表所示,10个学生初一数学分数与初二数学分数的相关系数为0.87,问从总体上来说,初一与初二数学分数是否存在相关?序号12345678910总和X74717268767367706574710Y76757170767965776272723检验的步骤提出假设计算检验统计量统计决断所以,从总体上说,初一数学分数与初二数学分数存在正相关。例如:29个学生几何期中与期末考试成绩的相关系数r=0.30,问全年级几何期中与期末考试成绩的相关系数是否为0.64?提出假设等距转换选择检验统计量并计算其值统计决断即全年级几何期中与期末考试成绩之间的相关系数极少可能是0.64。等级变量的相关分析是指以等级次序排列或以等级次序表示的变量之间的相关。当测量得到的数据不是等距或等比数据,而是具有等级顺序的数据;或者得到的数据是等距或等比数据,但其所来自的总体分布不是正态的,不满足求积差相关的要求。这时就要运用等级相关系数。它主要包括斯皮尔曼(spearman)二列等级相关及肯德尔和谐系数多列等级相关.斯皮尔曼二列等级相关当两个变量值以等级次序排列或以等级次序表示时,两个相应总体并不一定呈正态分布,样本容量也不一定大于30,表示这两变量之间的相关,称为Spearman等级相关。例:10名高三学生学习潜在能力测验与自学能力测验成绩如下表所示,问两者相关情况如何?学生序号学习潜在能力自学能力等级差数差数平方X等级Y等级123456789109084767171716968666412355578910325786871092135.57.547.55.5109-110-0.5-2.51-0.52.5-111100.256.2510.256.2511总和18等级相关系数的显著性检验与积差相关系数检验的方法相同10个学生学习潜在能力与自学能力测验成绩相关系数为0.891,问从总体上说,两者是否存在相关?检验的步骤提出假设计算检验统计量的值统计决断所以学生的学习潜在能力与自学能力之间存在着较高的正相关。肯德尔和谐系数(Kendall’stau-b)当多个(两个以上)变量值以等级次序排列或以等级次序表示,描述这几个变量之间的一致性程度的量,称为肯德尔和谐系数。它常用来表示几个评定者对同一组学生成绩用等级先后评定多次之间的一致性程度。无相同等级的情况当同一位评定者对所有被评事物的评定无相同等级时,其肯德尔和谐系数的计算公式为:例:4位教师对6个学生作文竞赛的名次排列次序如表第(2)列所示,问评定的一致性程度如何?

有相同等级的情况当同一位评定者对所有被评事物的评定有相同等级时,其肯德尔和谐系数的计算公式为:同一位教师对5份研究生入学考试政治试卷根据标准先后3次等级评定结果如下表所示,问3次评定结果的相关程度如何?质量相关分析质量相关是指一个变量为质,另一个变量为量,这两个变量之间的相关。如智商、学科分数、身高、体重等是表现为量的变量,男与女、优与劣、及格与不及格等是表现为质的变量。质与量的相关主要包括二列相关、点二列相关、多系列相关。二列相关当两个变量都是正态连续变量.其中一个变量被人为地划分成二分变量(如按一定标推将属于正态连续变量的学科考试分数划分成及格与不及格,录取与未录取,把某一体育项目测验结果划分成通过与未通过,达标与末达标,把健康状况划分成好与差,等等),表示这两个变量之间的相关,称为二列相关。

二列相关的使用条件

①两个变量都是连续变量,且总体呈正态分布,或总体接近正态分布,至少是单峰对称分布。②两个变量之间是线性关系。③二分变量是人为划分的,其分界点应尽量靠近中值。④样本容量应当大于80。二列相关系数的计算公式

点二列相关

当两个变量其中一个是正态连续性变量,另一个是真正的二分名义变量(例如,男与女,已婚和未婚,色盲与非色盲,生与死,等等),这时,表示这两个变量之间的相关,称为点二列相关。

多系列相关

当两个变量都是正态连续变量,其中一个变量按不同质被人为地分成多种类别(两类以上)的正态名义变量。表示正态连续变量与多类正态名义变量之间的相关,称为多系列相关。例如,学生的智商与学习努力程度之间的关系,智商和学习努力程度都是正态连续变量,但学习努力程度被人为地分成“努力”、“中等”、“不努力”三种类别,二者的相关称为三系列相关。又如,不同学习成绩的学生对某种教学改革的态度分为“极其不赞成”、“不赞成。、“不置可否”、“赞成”、“极其赞成”。学习成绩与态度之间的相关称五系列相关。多系列相关系数的计算公式

品质相关分析两个变量都是按质划分成几种类别,表示这两个变量之间的相关称为品质相关。如,一个变量按性别分成男与女,另一个变量按学科成绩分成及格与不及格;又如,一个变量按学校类别分成重点及非重点,另一个变量按学科成绩分成优、良、中、差,等等。根据两个变量的性质及所分类别的多少,分为四分相关、φ相关及列联相关。四分相关

当两个变量都是正态连续变量,且两者呈直线关系,但两者都被人为地划分成二分变量,表示这两个变量的相关,称为四分相关。例如,将学科成绩划分成及格与不及格,达标与未达标,通过与未通过,将对事物的态度划分成赞同与反对:将对问题的回答划分成对与错,等等。四分相关四分相关有多种计算方法,最常用的是皮尔逊的余弦π法,其计算公式为:

例如,45名学生跳高与跳远成绩(达标及未达标)如表所示,问跳高与跳远成绩的相关情况如何?

φ相关

当两个变量都是二分变量,无论是真正的二分变量还是人为的二分变量,这两个变量之间的关系,可以用由φ相关来表示。其计算公式为:

例如,从研究生入学考试的学生中,随机抽取60人.其大学应届与往届毕业生录取情况如表11.14,问应届和往届大学毕业生同研究生录取与否的相关情况如何?列联相关

当两个变量均被分成两个以上类别,或其中一个变量被分成两个以上类别,表示这两个变量之间的相关,称为列联相关。列联相关系数的计算公式为:

数据类型与相关系数类型第一个变量数据类型第二个变量数据类型二分数据等级数据等距数据人为二分型真正二分型二分数据人为二分型四格相关Φ相关二列相关列联系数二列相关真正二分型Φ相关Φ相关二列相关列联系数点二列相关等级数据二列相关列联系数二列相关列联系数等级相关等级相关多列相关等距数据二列相关点二列相关等级相关多列相关积差相关偏相关分析所谓偏相关,是指在诸多相关的变量中,剔除其中的一个或若干个变量的影响后,两个变量之间的相关关系。对应的相关分析即为偏相关分析。偏相关系数的计算公式假定有3个变量:x1、x2、x3,求剔除变量的影响后,变量和之间的偏相关系数r123:偏相关系数的显著性检验公式距离相关分析距离相关分析是对观测量之间或变量之间相似或不相似的程度的一种测量。距离相关分析可用于同一变量内部各个取值间,以考察其相互接近程度;也可用于变量间,以考察预测值对实际值的拟合优度。它有助于分析复杂的数据集合。距离相关分析根据统计量不同,分为两种:(1)不相似性测量,通过计算样本之间或变量之间的距离来表示。(2)相似性测量,通过计算Pearson相关系数或Cosine相关系数来表示。根据分析对象不同,分为两种:

样本间分析和变量间分析。三、相关分析中的可能错误

相关系数r是对两个变量之间线性关系的简单度量,因此当r=0时,只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,比如,它们之间可能存在非线性关系,如图8.1(e)就属于这种情况。三、相关分析中的可能错误

r的计算涉及到变量的标准差和协方差,其数值大小易受极端值的影响,特别是与自变量x的变化范围有很大关系。这时会产生两种情况:—是多数观察值不相关时,个别极瑞值引起中度相关,如图8.4(a);二是大多数观察值存在线性相关,个别极端值使观察数据呈非线性相关.如图8.4(b)。

三、相关分析中的可能错误

在对两个时间数列的相关分析中,r所表现的相关程度同样本数据的时间范围有很大关系。比如.两个现象在某段时期内的相关关系为线性的.而整个发展过程可能是非线性的,如图(a);或者在某段时期内无线性关系,而整个发展过程可能存在线性关系,如图(b)三、相关分析中的可能错误根据样本数据计算的r带有—定的随机性,样本数据越少,随机性则越大。对于不相关的两个变量计算出的r不—定为0,有时甚至会很高。但较大的r值不一定就意味着两个变量之间确实存在着较高的相关;反之,较小的r也不一定就意味着变量之间无相关关系,这就是所谓的虚假相关。为避免出现分析上的错误,在实际应用r时,必须对r的显著性进行检验,r在统计上是否显著,才是它能否作为变量之间线性关系度量的依据。四、应用(测验分析)信度系数衡量一次测验可靠性、稳定性的统计指标叫做信度。通常用不同次测验结果的相关系数来衡量,即信度系数α。信度的高低反映了测验中随机因素影响的大小,一次测验中随机因素影响小则信度大,随机因素影响大则信度小。信度的种类(1)再测信度系数——用同一套问卷在两个不同时间内来测试同一批对象,计算两次测验分数的相关系数,又称稳定系数。(2)等值系数——用两份等值的问卷对同一批对象进行测验,计算两次测验分数的相关系数,又称复本信度。(3)内在一致性系数——一个测验中所包含的各个项目上所的成绩的一致性,又称同质信度。估计信度的方法用于衡量再测信度、复本信度——积差相关法。用于计算内部一致性系数——折半相关分析法——克伦巴赫α系数法——库德-理查逊(K-R)公式

四、应用(测验分析)效度所谓效度,就是衡量测验有效性、准确性的统计指标。实质上是指所测量到的东西与要测量的东西之间的相符合的程度。它与信度的区别在于:信度反映了测验中随机误差的大小,而效度反映了测验中系统误差的大小。四、应用(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论