2.1-相关与偏相关ppt课件_第1页
2.1-相关与偏相关ppt课件_第2页
2.1-相关与偏相关ppt课件_第3页
2.1-相关与偏相关ppt课件_第4页
2.1-相关与偏相关ppt课件_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 医学上,许多现象之间也都有相互联系,例如:身高与体重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之间的关系密切得多,而体重和身高的关系则介与二者之间。另外,可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。相关就是用于研究和解释两个变量之间相互关系的。 主要内容n第一节 直线相关n第二节 偏相关n第三节 小 结第一节第一节 直线相关直线相关Linear Correlat

2、ionn为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。 一、相关的类型一、相关的类型正相关 负相关 完全正相关 完全负相关 称零相关 二、相关系数 n样本的相关系数用r (correlation coefficient)n相关系数r的值在-1和1之间,但可以是此范围内的任何值。正相关时,r值在0和1之间,散点云图是斜向上的,这时一个变量增加,另一个变量也增

3、加;负相关时,r值在-1和0之间,散点云图是斜向下的,此时一个变量增加,另一个变量将减少。r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。rXX YYXXYYXYXYnXXnYYn()()()2().22222三、相关系数的计算公式r的计算结果说明了两个变量的计算结果说明了两个变量X与与Y之间关联的密之间关联的密切程度绝对值大小与关联的性质正负号)。切程度绝对值大小与关联的性质正负号)。n一个产科医师发现孕妇尿中雌三醇含量与产儿的体重有关。于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,

4、测量其中的雌三醇含量,同时记录产儿的体重。问尿中雌三醇含量与产儿体重之间相关系数是多少?是正相关还是负相关?n分析问题:目的、变量、关系 编号 (1)尿雌三醇mg/24h2产儿体重kg3)编号 (1)尿雌三醇mg/24h2)产儿体重kg3)172.517173.2292.518253.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.024193.49163.025183.510163.126173.611173.027183.712193.128203.813213.029224.014242.8302

5、53.915153.231244.316163.2 待产妇尿雌三醇含量与产儿体重关系 r 412067742 674061.计算结果从计算结果可以知道,31例待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是0.61。问题:我们能否得出结论说明待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是0.61?为什么?四、相关系数的假设检验 n上例中的相关系数r等于0.61,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是,这31例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,总体相关系数()为零时,由于抽样误差,从总体抽出的31例,其r可能不等于零。所以,要判断该

6、样本的r是否有意义,需与总体相关系数=0进行比较,看两者的差别有无统计学意义。这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。 对相关系数的假设检验,常用t检验,选用统计量t的计算公式如下:trsrrrnrnr0122122 =n-2 =n-2 zH0 : =0 z H1 : 0 z =0.05z r=0.61, n=31, 代入公式 t=rnr212=n-2=31-2=29 t=4.14查t值表, =2.756, t001(29.)查t值表, =2.756, 上述计算t=4.142.756,由t所推断的P值小于0.01,按=0.05水准拒绝,接受,

7、认为临产妇24小时内尿中雌三醇浓度与产儿体重之间有正相关关系。 t0 01(29.)SPSS计算n1.做散点图:标题、标目、散点nGRAPHS-SCATTERT-SIMPLE-DEFINDn双击TITLE加标题、标目n2. 相关分析 ANALYZE-CORRELATION BIVARIATE -VARIABLESCorrelations1.610*.0003131.610*1.000.3131Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N尿雌三醇产儿体重尿雌三醇产儿体重Correlation is s

8、ignificant at the 0.01 level(2-tailed).*. 五、直线相关的应用五、直线相关的应用n 前面我们已经讲过,相关是研究两个变量间的相互关系,而且这种相互关系是用相关系数反应的。在确实存在相关关系的前提下,如果r的绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;如果r绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。n 一般说来,当样本量较大n100),并对r进行假设检验,有统计学意义时,r的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变

9、量之间中度相关;r的绝对值大于0.2,小于等于0.4时,则两个变量低度相关。 例题:某地例题:某地29名名13岁男童身高岁男童身高X1cm)、)、体重体重X2kg和肺活量和肺活量Yml), 请用该请用该资料计算身高与肺活量,体重与肺活量的资料计算身高与肺活量,体重与肺活量的相关关系。相关关系。第二节第二节 偏相关偏相关一、概念一、概念 当有多个变量存在时,为了研究任何当有多个变量存在时,为了研究任何两个变量之间的关系,而使与这两个变两个变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。即控量有联系的其它变量都保持不变。即控制了其它一个或多个变量的影响下,计制了其它一个或多个变量的影响

10、下,计算两个变量的相关性。算两个变量的相关性。二、偏相关系数二、偏相关系数 偏相关系数是用来衡量任何两个变量偏相关系数是用来衡量任何两个变量之间的关系的大小。之间的关系的大小。三、选择不同的方法计算相关系数三、选择不同的方法计算相关系数Pearson:双变量正态分布资料:双变量正态分布资料,连续变量连续变量Kendall: 资料不服从双变量正态分布或资料不服从双变量正态分布或 总体分布未知,等级资料。总体分布未知,等级资料。Spearman:等级资料。:等级资料。Analyze-Correlation-Partial把分析变量选入把分析变量选入 Variable 框框把控制变量选入把控制变量选

11、入 Controlling for 框框点击点击 Options点击点击 Statistics:选择:选择 Mean and standard deviation Zero-order correlation Continue OK四、四、SPSS操作步骤操作步骤Variable Mean Standard Dev CasesX1( 身高身高 ) 152.5759 8.3622 29Y (肺活量)(肺活量) 2206.8966 448.5541 29X2 ( 体重体重 ) 37.3069 5.6704 29结结 果:果:身高与肺活量的简单相关系数身高与肺活量的简单相关系数C Co or rr

12、re el la at ti io on ns s1 1. .0 00 00 0. .5 58 88 8* * *. . .0 00 01 12 29 92 29 9. .5 58 88 8* * *1 1. .0 00 00 0. .0 00 01 1. .2 29 92 29 9P Pe ea ar rs so on nC Co or rr re el la at ti io on nS Si ig g. .( (2 2- -t ta ai il le ed d) )N NP Pe ea ar rs so on nC Co or rr re el la at ti io on nS Si

13、ig g. .( (2 2- -t ta ai il le ed d) )N N身身高高肺肺活活量量身身高高肺肺活活量量C Co or rr re el la at ti io on n i is s s si ig gn ni if fi ic ca an nt t a at tt th he e 0 0. .0 01 1 l le ev ve el l ( (2 2- -t ta ai il le ed d) ). .* * *. . 1、身高与肺活量的简单相关系数、身高与肺活量的简单相关系数2、体重与肺活量的简单相关系数、体重与肺活量的简单相关系数C Co or rr re el la

14、at ti io on ns s1 1. .0 00 00 0. .6 65 53 3 * * *. . .0 00 00 02 29 92 29 9. .6 65 53 3 * * *1 1. .0 00 00 0. .0 00 00 0. .2 29 92 29 9P Pe ea ar rs so on nC Co or rr re el la at ti io on nS Si ig g. .( (2 2- -t ta ai il le ed d) )N NP Pe ea ar rs so on nC Co or rr re el la at ti io on nS Si ig g. .

15、( (2 2- -t ta ai il le ed d) )N N体体重重肺肺活活量量体体重重肺肺活活量量C Co or rr re el la at ti io on n i is s s si ig gn ni if fi ic ca an nt t a at tt th he e 0 0. .0 01 1 l le ev ve el l ( (2 2- -t ta ai il le ed d) ). .* * *. . 3、身高与体重的简单相关系数、身高与体重的简单相关系数C Co or rr re el la at ti io on ns s1 1. .0 00 00 0. .7 70

16、 07 7 * * *. . .0 00 00 02 29 92 29 9. .7 70 07 7 * * *1 1. .0 00 00 0. .0 00 00 0. .2 29 92 29 9P Pe ea ar rs so on nC Co or rr re el la at ti io on nS Si ig g. .( (2 2- -t ta ai il le ed d) )N NP Pe ea ar rs so on nC Co or rr re el la at ti io on nS Si ig g. .( (2 2- -t ta ai il le ed d) )N N身身高高体

17、体重重身身高高体体重重C Co or rr re el la at ti io on n i is s s si ig gn ni if fi ic ca an nt t a at tt th he e 0 0. .0 01 1 l le ev ve el l ( (2 2- -t ta ai il le ed d) ). .* * *. . 4、体重为控制变量,身高与肺活量的偏、体重为控制变量,身高与肺活量的偏相关系数相关系数P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for. X2 (体重)

18、(体重) Y肺活量)肺活量) X1身高)身高)Y (肺活量)(肺活量) 1.0000 .2361 ( 0) ( 26) P= . P= .226X1 (身高)(身高) .2361 1.0000 ( 26) ( 0) P= .226 P= .P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for. X1身高)身高) Y肺活量)肺活量) X2体重)体重)Y 1.0000 .4152 ( 0) ( 26) P= . P= .028X2 .4152 1.0000 ( 26) ( 0) P= .028 P=

19、.5、身高作为控制变量,肺活量与体重的、身高作为控制变量,肺活量与体重的偏相关系数偏相关系数应用相关注意事项应用相关注意事项 1.实际意义 进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。例如,有人说,孩子长,公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加慌谬。 2.相关关系 相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素 年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也

20、穿不下原来的鞋。 3.利用散点图对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关分析。4.变量范围相关分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量的相关关系和原来的回归关系。第三节 小结 n一、基本概念n二、分析计算1.为了了解某地2029岁健康女性血红蛋白的正常值范围,现随机调查了该地2000名2029岁的健康女性,并对其血红蛋白进行测量,请问本次调查的总体是 A该地所有2029的健康女性 B该地所有2029的健康女性的血红蛋白测量值 C抽取的这2000名2029岁女性 D抽取的这2000名20

21、29岁女性的血红蛋白测量值选择最佳答案选择最佳答案2.各观察值加同一数后:A.均数不变,标准差改变 B.均数改变,标准差不变C.二者均不变 D.均改变3.用均数和标准差可全面描述:A.正偏态资料 B.负偏态资料 C.正态分布和近似正态分布 D.任何分布4.正态分布曲线下,从均数u 到u +1.96的面积为;A.95% B.45% C. 97.5% D.47.5%5. 按=0.10水准做t检验,P0.10,不能认为两总体均数不相等,此时若推断有错,其错误的概率为( )。 A大于0.10 B,而未知 C小于0.10 D1-,而未知6某地正常成年男子红细胞的普查结果,均数为480万/mm3,标准差为41.0万/mm3,后者反映( )A

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论