版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章相关性第八章相关性18.1引言前面我们研究了描述单一随机变量的统计方法。这些描述统计量使我们能够研究一种特定的分布,解释在这种分布下的某一得分。这些描述统计量代表了所有统计方法的基础。但同时它们又存在着局限性,因为我们不能运用它们研究两个或多个随机变量之间的关系。所以我们要运用关联性研究来观察两个随机变量是否依照系统的方式单独变化或者共同变化。如果我们发现两个随机变量之间存在着相关性,就能利用这一信息来描述甚至很可能做到预测未来的行为和事件。8.1引言前面我们研究了描述单一随机变量的统计方法。28.2相关性的概念相关性是一个非常强而有效地检验两个或更多变量之间关系的统计量。它可以回答许多关于两变量之间关系的自然属性的有趣问题。8.2相关性的概念相关性是一个非常强而有效地检验两个3首先相关系数告诉我们相关性的方向。相关系数可以是正值也可以是负值。正值说明随机变量之间是正相关关系;负值说明是负相关关系。一个正相关(positivecorrelation)的数据集合就是一个随机变量的较大值对应另一个随机变量的较大值,一个随机变量的较小值对应另一个随机变量的较小值。一个数据集合可能是负相关(negativecorrelation)的,那意味着X随机变量数值增加,Y随机变量有减少的趋势。首先相关系数告诉我们相关性的方向。相关系数可以是正值也可以是4r=1.00表示一个严格的正相关关系;X随机变量增加与Y随机变量的增加严格匹配。相对比,r=-1.00表示一个严格的负相关;较小的X值与较大的Y值相联系,X增加Y减小。注意到相关性与1.00或-1.00越接近,越多数据点落在一条直线上。当计算相关系数时,我们希望一条直线能够最好地表达这些数据,这条直线表示的是线性关系(linerrelationship)。r=1.00表示一个严格的正相关关系;X随机变量增加与Y随机5相关性分析也使我们能够检验两个随机变量相互联系的程度。相关系数可以从0到1.00。0说明两个随机变量之间没有任何关系;1.00说明存在可能的最强的关系。取值与1.00越接近,相关关系也就越强。取值为0.85,0.90或者0.96说明相关关系越来越强。取值与0越接近,相关关系也越弱。取值为0.26,0.15与0.07就是弱相关系数的例子。相关性分析也使我们能够检验两个随机变量相互联系的程度。相关系6无论关系强弱,相关系数的取值都可能是正是负。当相关性r=0.9时,我们可以总结为两个随机变量之间存在强的正相关关系。当r=-0.9时,仍然可以总结为存在强的相关关系,不过是负相关关系。当r=0时,两个随机变量之间不存在系统的关系。无论关系强弱,相关系数的取值都可能是正是负。当相关性r=0.7虽然相关性是一个有用的统计量,但它本身并不能让我们推断出两个随机变量间的因果关系。在关联性研究中,研究者并不能直接控制任一个随机变量。因此,说相关系数是描述两个随机变量在多大程度上相关更加合适。要假设存在因果关系,自变量与依赖它的随机变量必须相关且数据必须来源于真实实验。虽然相关性是一个有用的统计量,但它本身并不能让我们推断出两个88.3其他相关系数相关系数有很多种。选择不同的相关系数依赖于以下几个因素:(1)表达每一个随机变量时度量尺度的不同类型;(2)潜在分布的属性(连续或者离散);(3)分布取值的特点(线性或者非线性)8.3其他相关系数相关系数有很多种。选择不同的相关系9定类数据:phi系数,biserialr顺序数据:tetrachoric,Spearmanr区间或比率数据:Kendall’stau,Pearsonr,多元R定类数据:phi系数,biserialr10无论你使用哪一种相关性技术,它们都拥有相同的基本特点:1.两个或多个度量的集合都获得于相同的个体(或事件),或者是基于在相同基础上成对匹配的个体。2.相关性可以在r=-1.00到r=1.00之间取值。两个极端值表示随机变量间的严格关系,r=0.00表示不存在线性关系。3.一个较大的相关关系本身并不意味着随机变量间存在因果关系。无论你使用哪一种相关性技术,它们都拥有相同的基本特点:118.4计算Pearson乘积矩相关系数Pearsonr与z值一个正的较大值的Pearsonr说明每一个个体或者事件在两个随机变量上获得大约相等的z值。换句话说,每一个个体的数值在X和Y的分布中大致位于相同的位置。在严格的正相关关系中(r=1.00),两个随机变量中每个个体获得精确相同的z值。相似地,在严格的负相关关系中,两个随机变量中每个个体获得精确相同的z值,但是符号相反。8.4计算Pearson乘积矩相关系数Pearson12Pearson相关系数r(Pearsonr):Pearson乘积矩相关系数r,表示个体或事件在两个分布中占据相同相对位置的程度。Pearson相关系数r(Pearsonr):Pears13虽然用z值公式来定义r是一种有效的方法,但在实际应用中却并不可行。想象一下当N等于25或者更大时的巨大计算量情况,这在行为研究中是经常碰到的。你需要为每一个数计算z值,然后计算z值的交叉乘积和,再除以数据对数。当介绍标准差与方差时,我们提到有两个公式可以被用来计算相同的统计量。计算式对于计算一个统计量是非常好的,但它对理解这个统计量的含义作用不大。定义式对于理解一个统计量的逻辑是非常有用的,但对于实际的计算价值较小。r的z值公式就是后一种,它帮助我们理解怎样思考相关系数,但是不要用它来计算r。一种更加有用且省时的计算r的方法就是RawScore公式,现在我们来看看。虽然用z值公式来定义r是一种有效的方法,但在实际应用中却并不148.5Pearson乘积矩相关系数:概念的由来弗朗西斯·高尔顿(FrancisGalton)在19世纪末创立了相关性的概念。虽然高尔顿首先想到“相关性”这一指标的概念,但是数学家卡尔·皮尔逊(KarlPearson)创立了以自己名字命名的统计量的数学方法。8.5Pearson乘积矩相关系数:概念的由来弗朗西斯·高158.6解释相关系数相关系数的大小与符号首先要问的问题就是两个随机变量是否相互联系,它们以何种方式相互联系。第二个要问的问题就是相关系数的数值大小。有很多种方法可以用来判断相关系数的数值大小。第一种方法是按照大多数行为科学研究的一般准则。科恩(Cohen,1998)建议,相关系数可以被划分为“小”、“中”、“大”。8.6解释相关系数相关系数的大小与符号16另一种解释相关系数的方法是将它的值平方。相关系数的平方r^2被称为决定系数(coefficientofdetermination)。决定系数告诉我们一个随机变量的方差有多少百分比可以被另一个随机变量解释。另一种解释相关系数的方法是将它的值平方。相关系数的平方r^217一种理解决定系数的方法时可以用图来表示不同的相关关系。圆圈代表随机变量X和Y,当X和Y的相关关系为0时,两个圆圈没有重叠。当相关系数的值不断增加时,重叠区域逐渐增加。两个随机变量的决定系数用两个圆圈的重叠区域大小来表示。一种理解决定系数的方法时可以用图来表示不同的相关关系。圆圈代18现在仍有一些基本的问题还没有提到和解决。“什么叫做X与Y之间有好的相关关系?”“怎样才能知道相关系数是否显著?”这是两个非常不同的问题。第一个问题与相关系数的重要性有关。当研究者们提及相关系数的重要性时,他们是想说明相关系数帮助他们更好地理解复杂的现象。相关系数的重要性依赖于研究的种类。一个相关系数值0.2也许对一位研究者来说非常重要,但对另一位来说不值一提,这完全依赖于数据被解释的条件。现在仍有一些基本的问题还没有提到和解决。“什么叫做X与Y之间198.7需要注意的几点当解释相关系数时,有一些地方需要注意。有一些很重要的因素会导致相关系数人为地很高或者很低。这些极端值的相关性有时被称为假性相关(spuriouscorrelation),因为它们并不代表随机变量间真实的关系,也可能是一些容易引起混淆的因素造成的结果。有时候一个相关系数可能很小或者接近零。一些研究者假设研究中一个很小的相关系数意味着两个随机变量之间关系微弱或者没有关系。8.7需要注意的几点当解释相关系数时,有一些地方需要20两个随机变量之间缺乏明显的相关性可以有很多原因来解释。同样很多情况可以导致两个随机变量有极强的相关性,虽然这与它们真实的关系是无关的。一位优秀的研究者将试图在做出任何关于相关系数含义的结论前,为这些不一样的解释寻找原因。下面列举一些会导致假性相关的原因。两个随机变量之间缺乏明显的相关性可以有很多原因来解释。同样很21随机变量之间缺乏线性关系截断的区域样本容量离群点多总体极值因果关系随机变量之间缺乏线性关系228.8相关性是可靠性的一种度量
心理学研究中一个非常重要的概念就是可靠性(reliability)。可靠性指一种度量方法能够产生相同结果的这种一致性。一种测试如果在标准化条件下进行得到一致的结果,就说它是可靠的。可靠性经常用相关系数来评估。8.8相关性是可靠性的一种度量
心理学研究中一个非常23不要混淆可靠性与有效性的概念。有效性是一种度量手段多大程度上能够达到预先的目的。如果一项测试希望度量拼写能力,那么需要提供一种较好的评估该能力的手段。如果它是一种解决词汇问题能力的有效度量,就不能用测度阅读能力来代替。有效性和可靠性相似,也可以用相关系数来评估。一次测试中的数据与它的测度数据相关或者与另一测试相关。如果这种相关关系较强,测试就被认为是有效的。不要混淆可靠性与有效性的概念。有效性是一种度量手段多大程度上248.9相关性矩阵有时候我们相信并没有被证实的事情。例如,我们有这样的观念,一个体重超重的儿童必然会成为一个体重超重的成年人。家长们担心他们的肥胖小宝贝会变成肥胖青少年。一些肥胖的青少年担心他们的一生都将是这样的情形。但是这样认为有经验根据吗?事实是怎样的?关联性研究经常为证实或者否定这种普遍概念提供证据。你是怎样认为的?儿童时的体重是否为你一生体重的一个可靠指标?8.9相关性矩阵有时候我们相信并没有被证实的事情。例25研究者使用一种叫做BodyMassIndex(BMI)的方法研究这个有关一生体重的问题。这个指标考虑到体重相对于身高的关系。出于我们的目的,我们可以将它认为是肥胖程度的一种度量。一组测试者被跟踪调查40年,他们的体重在不同时间被采集——儿童,青少年,18岁,30岁和40岁。这些不同时间收集到的数据彼此相互关联。研究者使用一种叫做BodyMassIndex(BMI268.10定序尺度变量与rs度量结果是一个顺序数据。虽然能从排序数据中得到Pearsonr,我们还有另外一种乘积矩系数叫做Spearmanr,rs,或者叫做等级相关系数(rankcorrelationcoefficient)。等级数据的相关系数降低了获取相关系数的计算工作。Spearmanr对于数据中一方是顺序数据而另一方是顺序数据或者区间/比例数据的情况非常合适。在数据偏度较大时,Spearmanr也是相关性的一种较好
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校安全重点部位实验室检查记录表
- 高一化学教案:专题第二单元第三课时燃料燃烧释放的热量
- 2024高中物理章末质量评估一含解析粤教版选修1-1
- 2024高中语文开学第一课学生观后感范文800字少年强中国强素材
- 2024高中语文精读课文二第4课1贝多芬:扼住命运的咽喉一课堂练习含解析新人教版选修中外传记蚜
- 2024高考化学一轮复习第十二章物质结构与性质第一讲原子结构与性质规范演练含解析新人教版
- 2024高考历史一轮复习方案专题十五西方人文精神的起源和发展专题整合备考提能教学案+练习人民版
- 2025新人教版英语七年级下单词表(小学部分)
- (2篇)2024初中英语教师工作总结初中英语教师述职报告
- 仓库管理制度通知
- 危险化学品的应急处理和救援措施
- DB23-T 2334-2019 装配式混凝土矩形渠道应用技术规范
- 2023信息系统运维服务方案
- 试卷分析格式表
- 本霍根的五堂课中文版
- 软件无线电原理与应用第3版 课件 【ch02】软件无线电理论基础
- 国网山东电力生产技术改造原则
- 铁路运输安全现场管理
- 自粘聚合物改性沥青防水卷材施工工艺与规程
- 线上学习平台管理办法
- 2023年某保险公司春节经营教材
评论
0/150
提交评论