版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章相关关系本章目录第一节相关、相关系数与散点图第二节积差相关第三节等级相关第四节质量相关第五节品质相关第六节相关系数的选用与解释相关系数用于描述双变量数据相互之间的关系。双变量:对于一个变量X的每一个观测值X1,X2,…,XN,同时有另一个变量Y的相应观测值Y1,Y2,…,YN与之对应。双变量总体(bivariatepopulation):由成对变量所组成的集合。第一节相关、相关系数与散点图一、什么是相关(一)事物之间的相互关系因果关系共变关系相关关系(二)相关的类别正相关:两列变量变动方向相同。负相关:两列变量变动方向相反。零相关:两列变量变动方向无一定规律。二、相关系数相关系数(coefficientofcorrelation):两列变量间相关程度的数字表现形式,是用来表示相关关系强度的指标。样本统计量:r总体参数:ρ相关系数的取值:-1≤r≤+1;0≤∣r∣≤11.相关系数r的取值范围介于﹣1.00至+1.00之间,它是一个比率,常用小数形式表示。2.相关系数的“+、﹣”号表示双变量数列之间相关的方向。3.相关系数r=+1.00时表示完全正相关,r=﹣1.00时表示完全负相关;r=0时表示完全独立。4.相关系数取值的大小表示相关的强弱程度。相关系数的性质相关系数不是由相等单位度量而来的,因此只能比较大小,不能做任何加、减、乘、除运算。在对相关程度做判定时应注意:①要把样本量大小与相关系数取值大小综合起来考虑;②一般要经过统计检验方能确定变量之间是否存在显著的相关;③若是非线性相关关系,而用直线相关计算r值可能很小,但不能说明两变量关系不密切。表5-1五名学生四种测验的分数学生测验分数ABCD11553641022145265100313516610441250671035114968101图5-1利用数据等级一致性说明相关关系的图解三、散点图散点图:相关图,在平面直角坐标系中,以X、Y二列变量中的一列变量(X变量)为横坐标,以另一列变量(Y变量)为纵坐标,把N对数据Xi、Yi当作同一个平面上的N个点(Xi,Yi),一一描绘在XOY坐标系中,所产生的图形。散点图通过点的散布形状和疏密程度来显示两个变量的相关趋势和相关程度,能够对原始数据间的关系做出直观而有效的预测和解释。第二节积差相关一、积差相关的概念与适用资料积差相关是英国统计学家皮尔逊(Pearson)于20世纪初提出的一种计算相关的方法,因而被称为皮尔逊积差相关(皮尔逊相关),也称为积矩相关(productmomentcorrelation)。积矩X的离均差和Y的离均差二者乘积的总和除以N。积差相关的适用范围成对数据;两列变量总体都为正态分布,至少应是接近正态的单峰分布;两个变量都是连续数据,也即两列数据都是测量数据;两列变量之间的关系应为线性关系。积差相关条件的判断方法连续变量:根据得到数据的方式判断,测量数据正态分布:一般情况下,正常人群的身高、体重、智力水平、心理与教育测验的结果,都可按总体正态分布对待;如果要求比较高,则需要对数据进行正态性检验。线性关系根据相关散布图可判断两个变量之间是否线性关系。二、计算积差相关系数的基本公式(一)运用标准差与离均差的计算公式
(二)运用标准分数计算相关系数的公式协方差(covariance):两个变量离均差乘积的平均数。(三)原始观测值计算公式【例5-1】表5-2是10名中学生身高与体重的测量结果,问身高与体重的关系如何?被试编号身高(cm)
X体重(kg)
YX2
Y2XY
1170
502890025008500
2173
452992920257785
3160
4725600220975204155442402519366820
5173502992925008650
6188533534428099964
7178503168425008900
8183493348924018967
9180523240027049360
10165452722520257425∑17254852985252360983891解:用离均差、标准差和标准分数计算相关系数的步骤被试身高(X)cm体重(Y)kgxcmykgx2y2xyZXZYZXZY117050-2.51.56.252.25-3.75-0.2550.510-0.1302173450.5-3.50.2512.25-1.750.051-1.190-0.061316047-12.5-1.5156.252.2518.75-1.274-0.5100.650415544-17.5-4.5306.2520.2578.78-1.784-1.5302.7295173500051.50.252.250.750.0510.5100.02661885315.54.5240.2520.2569.751.5801.5302.4177178505.51.530.252.258.250.5610.5100.28681834910.50.5110.250.255.251.0700.1700.1829180527.53.556.2512.2526.250.7651.1900.9101016545-7.5-3.556.2512.2526.25-0.765-1.1900.9101725485962.586.5228.57.919用离均差用标准分数表5-4不同测量单位的数据计算相关系数比较被试身高cm(X)尺体重kg(Y)斤x尺y斤x2y2xyZXZYZXZY11705.1050100-0.07530.00569-0.225-0.25510.510-0.130217.5.1945900.015-70.000249-0.1050.0510-1.190-0.06131604.804794-0.375-30.140691.125-1.2755-0.5100.65141554.654488-0.525-90.2756814.725-1.7857-1.5302.73251735.19501000.01530.000290.0450.05100.5100.02661885.64534060.46590.2162814.1851.58161.5302.42071785.34501000.16530.027290.4950.56120.1500.28681835.4949980.31510.099210.3151.07140.1700.18291805.40521040.22570.0506491.5750.76531.1900.911101654.954590-0.225-70.0506491.575-0.7653-1.1900.911
51.759700.86634613.717.928相关系数三、计算积差相关系数的差法公式(一)减差法(二)加差法减差法加差法四、相关系数的合并求平均的相关系数,一般采用Z-r转换法。具体步骤(1)查费舍Z-r转换表,先将各样本的r转换成费舍Z分数(2)求每一样本的Z分数之和(3)求平均Z分数,即(4)再查费舍Z-r转换表,将转换成相应的r值。【例5-2】表5-6是来自同一总体的三个样本的相关系数,求平均相关系数。表5-6相关系数的合并
样本nirini
-3Zi(ni
-3)Zi1500.419470.44821.05622640.3902610.412107.5323370.425340.45415.436342144.024第三节等级相关适用范围等级顺序的测量数据;搜集到的数据是等距或等比的数据,但其总体分布不是正态。由于等级相关对变量的总体分布不作要求,故等级相关也称非参数的相关方法。一、斯皮尔曼等级相关(一)适用资料斯皮尔曼等级相关,常用符号rR或rS表示,有时也称之为斯皮尔曼ρ系数。适用范围适用于只有两列变量,而且是属于等级变量性质的具有线性关系的资料,主要用于解决称名数据和顺序数据的相关问题。缺点:一组能计算积差相关的资料若改用等级相关计算,精确度要差于积差相关。因此,凡符合计算积差相关的资料,不要用等级相关计算。(二)计算公式1.等级差数法(N<30)2.等级序数法【例5-3】现有10人的视、听两种感觉通道的反应时(单位:毫秒),数据见下表。问视、听反应时是否具有一致性?表5-7等级相关系数计算说明被试听反应时
X视反应时YRXRYD=RX-RYD2RXRY117217975243521401622200431521535141654187189880064513918116-52566195220910-119072122101091190816418267-114291491784400161014617033009555548361解:3.有相同等级时计算等级相关的方法表5-8不同数目的相同等级对平方和的影响R1R2R3R4R51111242.56.251.52.25242.56.25242.56.251.52.25392.56.25242.56.25394164164162.56.254163029.5282529.5∑R2随相同等级数目减少的数量出现相同等级时,计算等级相关系数的公式【例5-4】表5-9是10名学生的数学和语文考试成绩,问数学与语文成绩是否相关?学生语文X数学YRXRYD=RX-RYD2159474.56-1.52.2523540101000359424.58-3.512.254575563.52.56.255504975246716311007625533.5-0.50.258474288009434298111068572200N=10∑D2=26解:【例5-5】有12名学生的两门功课成绩评定分数,见表5-10。问该两门功课成绩是否具有一致性?学生成绩评定RARBD=RA-RBD2课程A课程B1良良77.5-0.50.252优优2.53-0.50.253优良2.57.5-5254良优734165优优2.53-0.50.256良良77.5-0.50.257中中1111008良优734169良中711-41610中良117.53.512.2511优优2.53-0.50.2512中中111100N=12
∑D2=86.5解:二、肯德尔等级相关肯德尔等级相关方法有许多种:有适合两列等级变量资料的交错系数(肯德尔τ相关)和相容系数(ξ);也有适合多列等级变量资料的肯德尔W系数和肯德尔U系数。(一)肯德尔W系数肯德尔W系数,也称肯德尔和谐系数,表示多列等级变量相关程度的一种方法,适用于两列以上的等级变量。适用资料(1)K个评价者对N件事物或N种作品进行等级评定;(2)一个评价者先后K次评价N件事物或N件作品。肯德尔将W界定为每一评价对象实际得到的等级总和的变异与被评价对象最大可能变化的等级总和的变异的比值。2.基本公式及计算W值介于0与1之间,计算值都为正值。若表示相关方向,可从实际资料中进行分析。如果K个评价者意见完全一致,则W=1;若K个评价者的意见存在一定的关系,但又不完全一致,则0﹤W﹤1;如果K个评价者的意见完全不一致,则W=0。【例5-6】有10人对红、橙、黄、绿、青、蓝、紫七种颜色按照其喜好程度进行等级评价。其中,最喜欢的等级为1,最不喜欢的等级为7.结果见表5-11。问这10个人对颜色的爱好是否具有一致性?N=7评价者K=10Ri12345678910红3523443243331089橙6676757766633969黄5457664454502500绿111222211215225青4344335635401600蓝223111132117289紫7765576577623844∑28013516表5-11肯德尔和谐系数计算说明解:3.有相同等级出现时W的计算【例5-7】五位评分者对七篇作文进行评价,评价等级为1-5,评估结果见表5-12,试问评分者之间对标准的掌握是否一致?N=7评价者K=5Ri被评作文12345A453.55421.5462.25B111.5216.542.25C2.521.52210.0100D6554525.0625E2.533.52314.0196F5576629.0841G7767734.01156合计1403422.5表5-12有相同等级时肯德尔和谐系数的计算解:(二)肯德尔U系数肯德尔U系数又称一致性系数,适用于对K个评价者的一致性进行统计分析。1.适用资料若评价者采用对偶比较的方法,即将N件事物两两配对,可配成对,然后对每一对中两事物
进行比较,择优选择,优者记1,非优者记0。2.公式及计算rij:对偶比较记录表中i﹥j(或i﹤j)格中的择优分数。计算步骤:将被评价的事物用符号代表,分别横行与纵列,这样可画成N×N个格子。将每一对事物择优比较的结果按优者记1,非优者记0,难以判定记0.5的方法记分,将分数填到相应的格子中,这便是rij。两相同事物不用比较,因此在整个方格中,位于对角线位置的小格空着。在对角线以下每格的次数记为i﹥j,对角线以上每格的次数记为i﹤j。【例5-8】表5-13是根据表5-11中10个评价者对7种颜色对偶选择分数整理而成。整理的方法为:如果第一个评价者对7种颜色评定的等级分别为绿色1、蓝色2、青色3……。也就是说若用对偶比较,则当绿色与其他颜色比较时,都选择绿,因此在绿色这一行都记为1分;蓝色排第二,其意是当蓝色与其他6种颜色比较时,除绿色之外都选择蓝色……。以此类推。试计算肯德尔U系数。解:一致性系数U的取值:若完全一致则U=1,若对角线上下格子中出现的择优分数相同,则一致性最小,但其值不为0。有下面两种情形:如果K为奇数时,每格的择优分数为与,均匀分布在对角线上下,这时;若K为偶数时,则对角线上下每格中的择优分数为,其中。第四节质量相关适用范围需要计算相关的两列变量一列为等比或等距的测量数据,另一列是按性质划分的类别,欲求这样两列变量的直线相关,称为质量相关。包括点二列相关、二列相关及多列相关。一、点二列相关(一)适用资料二分变量(dichotomousvariable):按事物的某一性质划分的只有两类结果的变量。二分变量分为真正的二分变量(离散型二分变量)和人为的二分变量。点二列相关法就是考察两列观测值一个为连续变量(点数据),另一个为二分称名变量(二分型数据)之间相关程度的统计方法。点二列相关多用于评价由是非类测验题目组成的测验的内部一致性等问题。(二)公式及计算:与二分称名变量的一个值对应的连续变量的平均数;:与二分称名变量的另一个值对应的连续变量的平均数;p、q:二分称名变量两个值各自所占的比率,p+q=1;st:连续变量的标准差。【例5-9】有一是非式选择测验,每题选对得2分,共有50题,满分100分。表5-14是20名学生在该测验中的总成绩及第5题的选答情况。问这道题与测验总分的相关程度如何?表5-14点二列相关计算数据学生总分第五题学生总分第五题184对1178对282错1280错376错1392对460错1494对572错1596对674错1688对776错1790对884对1878错988对1976错1090对2074错解:【例5-10】一个测验满分为20分,想了解该测验结果与文化程度是否有关,文化程度分为文盲(0)、非文盲(1)。下表是部分被试实验结果,试求其相关系数。被试测验总分文化程度被试测验总分文化程度1201718121918161317191514801014159011806501290解:二、二列相关(一)适用资料二列相关(biserialcorrelation)适用的资料是两列数据均属于正态分布,其中一列变量为等距或等比的测量数据,另一列变量为人为划分的二分变量。(二)公式及计算st、:连续变量的标准差与平均数;:与二分变量中某一分类对偶的连续变量的平均数;:与二分变量中另一类对偶的连续变量的平均数;P:某一分类在所有二分变量中所占的比率;y:标准正态曲线中p值对应的高度,查正态分布表能得到。【例5-11】表5-15是108名学生某个测验总分分组数据和在某道问答题上得分依一定标准将其分为对、错两类后的数据,请问这道问答题的区分度如何?得分ft某一题目dftdftd2fpdfqd分组fpfq90~224832880~55315451570~161332326426660~191631191916350~231490000040~18810-1-1818-8-1030~15411-2-3060-8-2220~817-3-2472-3-2110~22-4-832-8合计1086345-634246-52表5-15二列相关的计算解:p=63/108=0.583,q=1-0.583=0.417查正态分布表,当p=0.583时,y=0.39024三、多列相关(一)适用资料多列相关(multiserialcorrelation)适合处理两列正态变量资料,其中一列为等距或等比的测量数据,另一列被人为划分为多种类别,称为名义变量。(二)公式及计算Pi:每系列的次数比率;yL:每一名义变量下限的正态曲线高度,由pi查正态表给出;yH:每一名义变量上限的正态曲线高度,由pi查正态表给出;:与每一名义变量对偶的连续变量的平均数;st:连续变量的标准差。【例5-12】表5-16中的数据是140名学生学习能力测验分数与教师对该部分学生的评价等级(A、B、C、D)资料。计算能力测验与教师评价之间的一致性。表5-16四系列相关的计算解:代入公式第五节品质相关品质相关用于表示R×C(行×列)表的两个变量之间的关联程度。适用范围计数数据,而非测量数据。品质相关因二因素的性质及分类项目的不同,可分为四分相关、Φ相关、列联表相关等。一、四分相关四分相关(tetrachoriccorrelation)适用于计算两个变量都是连续变量,且每一个变量的变化都被人为地分为两种类型的测量数据之间的相关。(一)适用资料四格表的二因素都是连续的正态变量,只是人为将其按一定标准划分为两个不同的类别。四格表(二)计算公式计算四格相关最常用的方法是皮尔逊余弦π法(近似计算法)。【例5-13】下表所列数据是调查377名学生两科测验成绩所得到的结果,假设两科成绩的分布为正态,只是人为地将其按一定标准划分为及格、不及格两类。四格表解:已知a=124,b=68,c=85,d=100,a+b+c+d=377
二、Φ系数(一)适用范围两个相互关联着的变量分布都是真正的二分变量。Φ系数可以运用列联表计算,因此又称为列联系数(contingencycoefficient)。(二)计算公式【例5-14】下面是关于吸烟与患癌症之间的一组假设数据,吸烟状况(X)分为吸烟者与非吸烟者,用0、1表示,死亡原因(Y)分为因吸烟致癌死亡与其他原因死亡两种,用0、1表示。试求它们之间的相关。X:0000
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024至2030年中国有源音箱专用变压器数据监测研究报告
- 2024年矿业测量仪器项目成效分析报告
- 2024至2030年中国舞台提升机控制柜数据监测研究报告
- 2024年苯甲酰H酸项目综合评估报告
- 2024至2030年中国磷铁环压脱装置数据监测研究报告
- 2024至2030年中国电接头行业投资前景及策略咨询研究报告
- 2024至2030年中国焗油营养洗发露数据监测研究报告
- 2024至2030年中国同轴信号防雷器数据监测研究报告
- 小学二年级奥数100题及答案
- 河南省焦作市(2024年-2025年小学五年级语文)统编版随堂测试(下学期)试卷及答案
- 建筑公司合规性评价报告
- 促销策略课件
- 大数据和人工智能知识考试题库600题(含答案)
- 2023年上海机场集团有限公司校园招聘笔试题库及答案解析
- 勘察质量及安全保障措施
- 高保真音频功率放大器
- 架桥机安全教育培训试卷
- 临时工用工协议书简单版(7篇)
- 国家电网公司施工项目部标准化管理手册(2021年版)线路工程分册
- 马克·夏加尔课件
- 沧州市基层诊所基本公共卫生服务医疗机构卫生院社区卫生服务中心村卫生室地址信息
评论
0/150
提交评论