第十一章相关分析课件_第1页
第十一章相关分析课件_第2页
第十一章相关分析课件_第3页
第十一章相关分析课件_第4页
第十一章相关分析课件_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十一章相关分析一、相关概述1、相关的概念

两个变量之间不精确、不稳定的变化关系,称为相关关系。两个变量之间的变化关系,既表现在变化方向上,又表现在密切程度上。两个变量之间的变化方向有:正相关:两个变量的变化方向相同。负相关:两个变量的变化方向相反。零相关:两个变量的变化方向无一定规律。从关系密切程度来看,两个变量的变化程度可大致分为

完全相关:两个变量的变化程度完全一致。强相关:两个变量变化的一致性比较强。中等相关:两个变量变化的一致程度中等。弱相关:两个变量变化的一致性比较差。完全不相关:两个变量变化程度没有一致性。2.相关系数用来描述两个变量相互之间变化方向及密切程度的统计指标称为相关系数,一般样本的相关系数用r表示,总体的相关系数用ρ表示。相关系数的取值:-1≤r≤+10≤∣r∣≤1相关系数的符号:“+”表示正相关,“-”表示负相关。3、相关系数的性质相关系数不是由相等单位度量而来的,因此只能比较大小,不能做任何加、减、乘、除运算。二、积差相关1、积差相关及其适用条件积差相关是英国统计学家皮尔逊(pearson)于20世纪初提出的一种计算相关的方法,因而被称为皮尔逊积差相关,也称为积矩相关(productmomentcorrelation)。积差相关适用于:两个变量都是连续数据;两变量总体都为正态分布;两变量之间为线性关系。成对数据,样本容量要大。2、积差相关条件的判断方法连续变量:根据得到数据的方式判断,测量数据。正态分布一般情况下,正常人群的身高、体重、智力水平、心理与教育测验的结果,都可按总体正态分布对待;如果要求比较高,则需要对数据进行正态性检验。线性关系根据相关散布图可判断两个变量之间是否线性关系。图18-1正相关图18-2负相关散点的分布形状为椭圆形,可认为两变量之间具有线性关系。图18-4完全负相关图18-3完全正相关当所有的点都分布在一条直线上时,两变量之间的关系为完全相关。两个变量之间是否相关,要有充分的理论依据,并排除共变因素的影响。图18-5零相关散点的分布没有明显集中在某一方向的趋势,形成圆形区域时,两变量之间的关系为零相关。3、积差相关系数的计算公式积差相关系数的定义公式协方差积差相关系数为(18.1

)公式中:为变量X的平均数,为变量Y的平均数,为变量X的标准差,为变量Y的标准差,

n为数据的对数或计算得到了相关系数,还不能确定这两个变量一定具有相关关系,需要对相关系数进行显著性检验之后,才能做出判断。表18-110个学生初一与初二数学成绩积差相关系数计算表序号XY1747633.711.1913.692717502.7007.29372711-1.3-1.311.6946870-3-2.36.995.295767653.718.52513.696737926.713.4444.8976765-4-7.329.21653.2987077-14.7-4.7122.0995462-6-10.361.836106.091074723-0.3-0.990.09合计710723134110268.10计算先计算变量X和Y的标准差:再将数据代入公式计算积差相关系数:积差相关系数的原始数据计算公式(18.2a

)(18.2b

)表18-210个学生初一与初二数学成绩积差相关系数计算表序号XYXY174765476577656242717580415626532537271518450415112468704624490047605767657765776577667379532962415767767654489422543558707749005929539095462422538444030107472547651845328合计710723505205254151467代入公式计算:两种公式计算结果相同,但以原始数据的计算公式更为简捷和准确。三.斯皮尔曼等级相关等级相关(rankcorrelation)是指以等级次序排列或以等级次序表示的变量之间的相关。主要包括斯皮尔曼(spearman)二列等级相关和肯德尔和谐系数(thekandallcoefficientofconcordance)多列等级相关。

1、斯皮尔曼等级相关的概念及适用条件斯皮尔曼等级相关是等级相关的一种。它适用于两个以等级次序表示的变量,并不要求两个变量总体呈正态分布,也不要求样本的容量必须大于30。当连续数据不能满足计算积差相关的条件时,可以转换成等级数据从而计算斯皮尔曼等级相关系数。2、斯皮尔曼等级相关系数的计算斯皮尔曼等级相关系数表示为rR,其计算公式为:(18.3

)公式中:RX为变量X的等级数,

RY为变量Y的等级数,

D为两变量的等级数之差,即D=RX-RYn为样本的容量表18-310个高三学生学习潜在能力测验(X)与自学能力测验(Y)成绩

斯皮尔曼等级相关系数计算表序号XYRXRYD=RX-RY190212-1128412111376434-11475545-11573656-11671767-11769878-118683862496610910-111064910911合计13如果有相同等级时,可用它们所占等级位置的平均数作为它们的等级。表18-410个学生初一与初二数学成绩斯皮尔曼等级相关系数计算表序号XYRXRYD=RX-RY174762.53.5-1.012717565113727157-244687088005767613.5-2.56.256737941397676599008707772525954621010001074722.56-3.512.25合计71072358.5计算思考:同一组数据的积差相关系数和等级相关系数为什么会有差别?哪一个更准确?四.肯德尔和谐系数肯德尔等级相关方法有许多种,肯德尔和谐系数是其中一种。肯德尔和谐系数常以rW表示,适用于多列等级变量的资料。肯德尔和谐系数可以反映多个等级变量变化的一致性。肯德尔和谐系数的计算公式公式中:rw表示肯德尔和谐系数

K表示等级评定者的数目,即变量数

n为被等级评定的对象的数目

R为被评定对象获得的K个等级之和SSR为R的离差平方和,即(18.4

)n=7评价者K=10Ri12345678910红3523443243331089橙6676757766633969黄5457664454502500绿111222211215225青4344335635401600蓝223111132117289紫7765576577623844Σ28013516例表18-5肯德尔和谐系数计算表学生n=6评价者K=41234134212431332134465655124265656例:4位教师对6位学生作文竞赛的名次排列次序如表18-6。问4位教师评定的一致性程度如何?表18-64位教师对6位学生作文竞赛的名次排列学生n=6评价者K=4Ri12341342110100243131112132134101004656522484512429816565622484Σ841370表18-74位教师对6位学生作文竞赛名次排列的肯德尔和谐系数计算表有相同等级时,需要用肯德尔和谐系数的修正公式计算rW系数。(18.5

)公式中:m为相同等级的数目。五、质与量的相关

一个变量为性质变量,另一个变量为数量变量,这样的两个变量之间的相关称为质与量的相关。1、点二列相关适用条件一个变量为正态、连续变量,另一个变量为真正的二分名义变量,这两个变量之间的相关,称为点二列相关(point-biserialcorrelation)。有时一个变量并非真正的二分变量,而是双峰分布的变量,也可以用点二列相关来表示。点二列相关系数的计算公式为

或(19.1)(19.2)公式中:是与二分名义变量的一个值对应的连续变量的平均数是与二分名义变量的另一个值对应的连续变量的平均数

p和q分别是二分名义变量的两个值各自所占的比例,p+q=1St是连续变量的标准差表19-1五岁幼儿投掷砂袋成绩例19-1:18个五岁幼儿掷砂袋(150克),成绩如表19-1,问性别与投掷成绩的相关情况如何?序号成绩性别序号成绩性别14.01103.4223.62114.9133.52123.7243.22133.3254.41144.7164.81154.8173.82163.1285.21172.9294.71183.42表19-2五岁幼儿性别与投掷砂袋点二列相关计算表序号成绩性别序号成绩性别14.01133.3223.62144.7133.52154.8143.22163.1254.41172.9264.81183.4273.82分数总和71.437.533.985.21人数总和1881094.71人数比率0.4440.556103.42平均数3.9674.6883.390114.91标准差0.7090.3330.262123.72代入公式计算或者2、二列相关两个变量都是正态连续变量,其中一个变量被人为地划分成二分变量,表示这两个变量之间的相关,称为二列相关(biserailcorrelation)。将连续变量人为划分为二分变量时,应注意尽量使分界点接近平均数。二列相关系数的的计算公式公式中,Y为标准正态分布曲线中与P值对应的纵线高度其余符号与点二列相关计算公式中含义相同(19.3)(19.4)例19-2:表8-3是10名学生在一次测验中的卷面总分和一道问答题的得分。该问答题回答是否合格与卷面总分的关系如何?(该问答题满分为10分,规定达到6分为合格)表19-310名学生某题得分与卷面总分学生ABCDEFGHIJ卷面总分75577365675663616567问答题分7674744476计算:

SX=6.12,p=0.6,q=0.4,查正态分布表,当

p=0.60时,Y=0.386673.多系列相关(选学)

当两个变量都是正态连续变量,其中一个变量按不同质被人为地分成多种类别(两类以上)的正态名义变量。表示正态连续变量与多类正态名义变量之间的相关,称为多系列相关(multiserialscorrelation)。六、品质相关两个变量都是按性质划分成几种类别,表示这两个变量之间的相关称为品质相关。品质相关处理的一般是计数数据而不是连续数据,主要用于双向表或称为列联表(R×C表)。品质相关的方法有多种,最常用的是Φ相关和列联相关。1、Φ相关当两个变量都是二分名义变量,这两个变量之间的关系,可以用Φ相关来讨论(两个变量都是人为二分变量的情况除外)。Φ相关系数用

表示。当两个变量都各分为两类时,数据在统计表中占有四个单元格,因此这类统计表又称为四格表。Φ相关就适用于四格表。四格表的一般形式变量XX1X2合计变量YY1aba+bY2cdc+d合计a+cb+dn=a+b+c+dΦ相关系数计算公式(19.5)aba+bcdc+da+cb+d巧记公式:P144例5-14:关于吸烟与患癌症之间关系数据的四格表癌症(0)其他(1)吸烟者(0)64非吸烟者(1)37从高中入学考试的英语试卷中抽取100份,并将成绩分为中等以上和中等以下。其中男生中等以上的有15人,中等以下的有31人;女生中等以上的有36人,中等以下的有18人。问英语测验成绩与性别是否存在相关?列表:中等以上中等以下男生153146女生3618543618100怎样解释这一结果?怎样理解负相关?计算:2、列联相关当两个变量均被分成两个以上类别,或其中一个变量被分成两个以上类别,表示这两个变量之间的相关,称为列联相关。列联相关系数是由R×C的列联表求得的,因此称为列联相关。最常用的是皮尔逊定义的列联相关系数C。列联相关系数的计算公式中:C为列联相关系数值是经检验计算的结果

n是样本的容量(19.6)仅仅根据计算得到的相关系数还不足以确定变量之间是否存在相关。只有通过对相关系数显著性的检验,才能确定相关关系是否存在。对相关系数进行显著性检验包括三种情况(即三种零假设):一是ρ=0;二是ρ=ρ0;三是ρ1=ρ2。本讲主要介绍前两种情况。七.相关系数的显著性检验1.积差相关系数的显著性检验相关系数的显著性检验即样本相关系数与总体相关系数的差异检验。包括两种情况:ρ=0和ρ=ρ0对ρ=0的检验是确认相关系数是否显著;对ρ=ρ0的检验是确认样本所代表的总体的相关系数是否为ρ0。根据样本相关系数r

对总体相关系数ρ进行推断,是以r的抽样分布正态性为前提的,只有当总体相关系数为零,或者接近于零,样本容量n相当大(n>50或

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论