版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
9
关联性分析有两个独立的随机变量:例如:父子的身高(X)、儿子的身高(Y)特点:1.它们在客观上是有一定联系的;2.在观察时是独立地去测量的;X1
Y1
、X2
Y2
、X3
Y3
、
…
、Xn
Yn
3.这两个随机变量都服从正态分布;相关分析和回归分析是否有联系,联系的方向、程度如何?定量指示相关或关联的指标:如相关系数定量描述其依存关系回归分析相关或关联依存性(relationship)数学模型:如Y=f(x)回归分析抽样研究保证样本的合格性随机抽样保证样本间相互独立如何保证一份作关联性研究的样本合格?关联性分析9.1概述9.2两个连续型随机变量的相关分析9.3
两个分类变量间的关联分析9.1概述例9-1:下表为一项关于儿童健康和发展的研究中10名学龄儿童的身高和体重资料,试对学龄儿童的身高(cm)和体重(kg)进行相关分析。12345678910身高X149.4167.6146.3170.7161.5164.6155.5158.5149.4152.4体重
Y30.842.633.144.036.340.832.735.433.131.8表9-110名学龄儿童的身高和体重图9-110名学龄儿童的身高和体重的散点图1.散点图Scatterplot(158.5,35.4)(h)(f)(d)(b)(a)(c)(e)(g)ZeroCorrelationPositiveCorrelationNegativeCorrelationPositiveLinearNegativeLinearZeroCorrelationZeroCorrelationCurvilinearrelationship散点图能直观地看出两变量是否存在相关关系,故研究两变量关系应先绘散点图,再量化两者的关系。(h)(f)(d)(b)(a)(c)(e)(g)ZeroCorrelationPositiveCorrelationNegativeCorrelationPositiveLinearNegativeLinearZeroCorrelationZeroCorrelationCurvilinearrelationship散点图能直观地看出两变量是否存在相关关系。故研究两变量关系应先绘散点图,再量化两者的关系。LinearRelationship
关联(association):两个分类变量间的联系,则称为~。
线性相关(linearcorrelation):若两个连续的随机变量间存在线性联系,则称为~,也称为简单相关(simplecorrelation)。两个基本概念:相关的种类⑴正相关(positivecorrelation):在图中若Y有随X增大而线性上升的趋势,则称为正相关。⑵负相关(negativecorrelation):在图中若Y有随X增大而线性下降的趋势,则称为负相关。⑶零相关(zerocorrelation):在图中若Y或X不随另一变量的改变而改变,则称为零相关。⑷非线性相关(nonlinearcorrelation
):散点图呈曲线形状,表明变量间呈曲线相关,不是呈线性相关关系,也不宜作线性相关分析。线性相关系数
(linear
correlationcoefficient):是定量描述两个变量间线性联系的强度和相关方向的统计学指标;又称Pearson积矩相关系数(
Pearson
productmomentcoefficient
),总体相关系数用ρ表示样本相关系数用r表示表示方法2.关联强度的指标⑴Pearson积矩相关系数的计算
即:离均差的乘积假定系独立随机的双正态样本:Pearson积矩相关系数指示相关的方向:
r=0:X和Y无线性相关或零相关(nullcorrelation)
r≠0:则X和Y线性相关
r=1或
r=-1:完全相关(罕见)r>0:正相关r<0:负相关(a)(b)(c)Pearson积矩相关系数(Pearson
productmomentcoefficient)总体相关系数用ρ表示;样本相关系数用r表示;取值-1<ρ<1;ρ>0为正相关,ρ<0为负相关;ρ
越接近于1,相关性越强;
越接近于0,相关性越差相关系数反应线性相关性:正相关负相关非线性相关例9-1:计算学龄儿童的身高和体重的样本相关系数。答:12345678910身高X149.4167.6146.3170.7161.5164.6155.5158.5149.4152.4体重
Y30.842.633.144.036.340.832.735.433.131.8表9-110名学龄儿童的身高和体重3.
Pearson积矩相关系数的假设检验—t
检验法步骤:Pearson积矩相关系数的假设检验—查表法(假定系独立、随机的双正态样本)直接查
r临界值表(P581)以自由度v=n-2查出r临界值,比较检验统计量值与r临界值,后确定P值,作统计推断。统计量
越大,概率P越小;统计量
越小,概率P越大。4.Pearson积矩相关系数的区间估计即:以样本相关系数r以一定的概率估计总体相关系数ρ
的置信区间。步骤:线性相关分析的步骤:绘制散点图:1.相关趋势?2.线性的还是曲线的?3.异常值或强影响点?估计Pearson样本相关系数r对相关系数的假设检验,即回答在总体中该相关关系是否存在的问题参数估计:以一定的概率估计总体相关系数所在的置信区间t
检验法9.2两个连续随机变量的相关分析一、Pearson积矩仅适用于两个变量都是随机变量,并呈现线性趋势的情形。要求x、y服从联合的双变量正态分布。注意样本中的极端值,必要时可剔除或进行变量变换。适用条件简单线性相关(simplelinarcorrelation)例9-1:下表为一项关于儿童健康和发展的研究中10名学龄儿童的身高和体重资料,试对学龄儿童的身高(cm)和体重(kg)进行相关分析。解:(1)绘制散点图(2)计算相关系数r从整体趋势而言,随着身高的增加,体重呈增加的趋势,二者之间可能存在线性相关关系。图9-110名学龄儿童的身高和体重的散点图(3)假设检验:作总体相关系数ρ=0的检验
查t分布表,t(0.05/2,8)=2.306,故P<0.05,拒绝H0,接受H1,可认为学龄儿童的身高与体重之间存在线性相关。法一:t
检验法法二:查表法
由v
=10-2=8,查r界值表得r(0.05/2,8)=0.632;因统计量r=0.93,故P<0.05,接受H1,相关有统计学意义,可认为学龄儿童身高与体重之间存在线性相关。(3)区间估计:计算95%置信区间①
经反双曲正切变换,得z的95%置信区间为:(0.91,2.39)。②反变换得相关系数ρ的95%置信区间为:(0.72,0.98)【电脑实现】—SPSS线性相关分析:1.数据录入:2.作散点图:3.读散点图,作线性趋势判断:4.作线性相关分析:5.结果及结果输出:
相关系数及假设检验
【结果报告】
为探讨学龄儿童身高与体重的关系,搜集了10名学龄儿童的相关数据,经分析得以下结论:1.10名儿童身高的均值为157.6cm,标准差为8.4cm;体重的均值为36.1kg,标准差为4.8kg;2.从散点图可见,其身高与体重有线性趋势,Pearson相关系数r=0.93(t=7.10,P<0.001),总体相关系数的可信区间为(0.72,0.98),结果表明:学龄儿童的身高和体重之间呈线性正相关。小结:线性相关分析的通常有下面三个方面:X和Y间是否有联系,是线性还是非线性联系?正向的还是负向的?
联系的程度?⑴统计描述X和Y间的线性联系是否有统计学意义?就总体而言,联系的程度如何?⑵统计推断结合专业知识,如何对X和Y间的联系进行解释?⑶统计应用二、Spearman秩相关适用条件不服从双变量正态分布的资料总体分布类型未知,数据本身有不确定值或等级资料
秩相关(rankcorrelation)例9-2:10名患者参加家庭计划的长度(天)和每名患者每天的费用(元)见下表示,问参加的时间长度和费用是否相关。编号12345678910时间1015014325132651181297092费用5161228226213530086268203134表9-210名患者参加家庭计划的时间/d和每名患者每天的费用/元独立随机的双变量资料;目的:讨论两变量时间X和费用Y的相关性;但该资料的两变量均不服从正态分布。【案例解析】秩相关独立随机的双变量资料;目的:讨论两变量时间X和费用Y的相关性;但该资料的两变量均不服从正态分布。【案例解析】Spearman等级秩相关⑵计算秩相关系数:将两变量X和Y分别从小到大进行编秩:Spearman等级相关系数的计算公式:类似与pearson相关系数,不过在此应用的是数据的秩次,而不是原始数据本身。即:上例题解:(3)Spearman秩相关系数的假设检验:
t(0.05/2,8)=2.306,故P<0.05,拒绝H0,接受H1。法一:t
检验法法二:查表法
由v
=10-2=8,查r界值表得r(0.05/2,8)=0.632;因统计量r=-0.707,故P<0.05,接受H1,相关有统计学意义,可认为参加家庭计划的时间长度和每天的费用之间有负相关关系。【电脑实现】—SPSS线性相关分析:1.数据录入:2.秩转换:3.作散点图:4.读散点图,作线性趋势判断:5.作线性相关分析:3.结果及结果输出:
NonparametricCorrelations四、线性相关分析应用中应注意的问题只有当两变量有线性趋势时,才能进行线性相关分析。即:根据变量间可能的关系,选择不同的相关分析方法。发现和处理异常点1.首先绘制散点图,观察判断两变量间的关系。2.线性相关分析要求的两个重要条件线性相关分析仅适用于二元正态分布资料,否则需进行变量变换或采用其它计算方法,如秩相关。两个变量都是随机变量,当一个变量的数值人为选定时不能做相关分析。例:为研究不同温度下兔肺动脉张力,人为选定四个温度,作相关分析。3.出现离群值(异常值)时,慎用相关。图剔除异常值前后的散点图举例:儿子身高与树身高的故事。4.相关关系不一定是因果关系。
儿子身高树身高时间间接联系2)简单相关=直接联系-间接联系。注意:1)不要抽任意两个变量放在一起算相关系数——在专业上,只有两者存在直接联系的变量可能存在联系。对相关的解释一定要结合专业知识,切不可把任意两个变量拉在一起,盲目下结论!!!(a)(b)5.分层资料盲目合并容易引起假象。6.“相关分析”的结果解释:统计结论:可推断两变量呈“线性相关”的。专业结论:不能因此推断两变量在生物学上有任何联系,更不能因为呈因果关系。(1)如果散点图可见两随机变量有线性相关趋势,且得到的相关系数r经假设检验后也得出拒绝H0,即否定总体相关系数ρ=0的假设,则:(2)如果两变量经线性相关分析,及假设检验得到“不能拒绝总体相关系数ρ
=0”
的结论时,不要轻易下“两变量无关”的结论。
2)还要观察散点图,看两变量1)应首先看样本含量是否足够。即:检验功效是否足够大。
如果不能进行深入分析,则应下结论:“根据目前数据尚不能认为两变量呈线性相关”曲线相关?是否应进行分层分析?9.2两个分类变量间的关联分析
对两个反应属性的分类变量,若有一份随机样本,可作交叉分类的频数表,利用关于独立性的检验和列联系数表示这两个变量之间的关联性(association)。一、交叉分类2×2列联表的关联分析例9-3为观察行为类型与冠心病的关系,某研究组在当地随机调查了3154名居民,对象按行为类型分为A型和B型。对每个个体分别观察是否为冠心病患者和行为类型两种属性,试分析两种属性的关联性。【资料特点】是关于两个变量的一份随机样本。或说:一份随机样本,同时按两种属性分类,形成一个2×2交叉分类表,也称的2×2列联表。目的:冠心病的有无和行为方式两个变量之间的相关性,即讨论两个属性概率分布的关系。如果一种属性的概率分布与另一种属性的概率分布无关,则称这两种属性相互独立(independence),否则称这两种属性之间存在关联性(association)。关于随机变量独立性的定理:
设X、Y为二维离散型随机变量,则X、Y相互独立的充要条件是:对于任何i、j=1,2,…,有即:2×2交叉分类资料关联分析的基本思想:统计思想:从概率角度出发,独立是指交叉分类表的每一个格子中同时具有两种属性的联合概率等于相应属性的边计概率的乘积。即:故,独立性检验实际上就是考察是否成立。1.假设检验证实两变量是否存在关联:2.计算关联系数(associationcoefficient,r)
以表示关联的程度:对2×2交叉列联表而言,r介于0和之间,其数值越大,说明两变量的关联程度越高。关于交叉分类资料的独立性检验比较两独立样本率的假设检验试区别:必须注意的是:这两类问题的研究目的、设计方案、数据结构以及最终对结果的解释都是不同的。答:检验过程:【电脑实现】
—SPSS关联性分析:1.数据录入:2.加权:3.关联性分析的步骤:4.结果及结果输出:
【结果报告】为探讨冠心病患病与行为类型之间的关联,对3154例居民进行了分析,结果如下表示:以Pearson独立性检验,=39.900,P<0.001,r=0.112。结果表明,冠心病患病与行为类型间存在着一定的联系。二、2×2配对资料的关联分析例9-4
研究者对103例患者进行了影像学检验(A)和生化检验(B),数据如下,试分析两种检验结果的关联性。【资料特点】是关于一份随机样本,同时按两种属性分类是2×2配对资料。目的:了解两种方法的结果之间是否有关联。方法:两种属性的关联性分析。检验统计量:答:检验过程:三、多分类资料的关联分析例9-5
有人在某地随机抽取2500名居民,记录其民族与血型,资料见下表,试问民族和血型是否有关?【资料特点】多组资料的关联设计:一份样本,按两种属性交叉分类,统计频数。目的:了解两种属性间是否有关联。方法:多组资料—两种属性的关联性分析。检验统计量:多分类资料的关联系数:对多分类资料列联表而言,r介于0和之间,其数值越大,说明两变量的关联程度越高。答:检验过程:【电脑实现】
—SPSS关联性分析:1.数据录入:2.加权:3.关联性分析:4.结果及结果输出:
四、
偏相关在研究两个事物或现象之间的关系时,要充分考虑其它事物和现象对两者之间的影响;偏相关的优势就是在排除混杂因素的作用后,再评价两个事物或现象之间的联系。例:考察消费者信心指数值和年龄的相关性,但考虑家庭月收入对其有一定的影响。结果输出:在控制家庭收入的作用后,消费者总信息指数和年龄之间Pearson相关系数r=-0.216,经检验有统计学意义(P=0.009),可以认为二者之间存在负相关关系。小结相关是测量变量间的相互联系或关联的指标,要求变量资料满足独立随机性。在线性相关分析时必须先作散点图,发现有线性趋势后,再作进一步的分析。依据不同资料的特点分别采用Pearson相关分析,Spearman秩相关分析,以及分类资料的检验的关联分析方法。相关和关联是两变量之间在数量上的关联,不能据此推论两变量有生物学的联系,或有因果关系。相关有可能只是伴随关系。两样本资料的关联性分析数据类型定量资料定性资料双变量正态分布非双变量正态分布双变量一定量一有序分类变量资料交叉分类2×22×2配对R×C表两有序分类一致性检验Pearson积矩相关Pearson积矩相关系数rSpearman秩相关Spearman秩相关系数rs
ф系数
CramerV系数
Pearson列联系数列联相关Gamma系数Gamma法Kappa一致性检验Kappa系数12SPSS软件中“相关”功能:1.Pearson积矩相关分析适用条件:两变量呈独立、随机及正态分布的资料。表示方法:相关系数r注意事项:一定要先绘制散点图,看出两变量间有线性趋势时,再计算积差相关系数。不可用相关系数检验所得P值的大小来判断有否线性关系。2.Spearman秩相关分析适用条件:
—两独立、随机变量不满足正态分布的
—等级资料表示方法:相关系数3.分类资料的关联分析—检验适用条件:定性资料(一份随机样本,同时按两种属性分类),当两变量都是无序分类变量或一个是无序分类变量、另一个是有序分类变量时。表示方法:列联系数案例分析一案例9-2
有研究者欲评价两种量表对某疾病的严重程度得分的一致性,评分者A用量表1,评分者B用量表2,对同一批患者(5人)进行了评分,结果见教材表9-8,研究者在Excel中采用Pearson函数计算了两次评分的相关系数,结果两者相关系数非常之高(r=0.8663),因此认为,两种量表得分是一致的。.请问:该研究的目的与设计方法吻合吗?就本例的设计而言,存在任何不妥吗?本例可否采用Pearson相关系数进行计算?计算的结果正确吗?推论正确吗?“相关”:1.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度二手教材买卖合同样本2篇
- 2024年度演出经纪合同的演出项目、经纪服务与报酬分配
- 2024年度货物买卖合同的支付与交付保证
- 北京城市学院《英语阅读》2021-2022学年第一学期期末试卷
- 二零二四年度影视制作合同标的剧本创作与拍摄制作
- 北京城市学院《广告创意与表现》2023-2024学年第一学期期末试卷
- 苗木种植与环保产业融合发展2024年度合作协议
- 2024年智能工厂建设项目合同
- 二零二四年度土地使用权互换合同
- 2024版设备租赁及维护服务协议
- 企业形势任务教育课件
- -A letter of advice 建议信写作教案- 高三英语一轮复习
- 南航订座系统培训-详细版课件
- 0-3岁婴幼儿保育与教育-课件
- 学校工程管理制度5篇
- 易栓症教学讲解课件
- (完整版)单板硬件调试报告
- 职业危害因素监测检测记录表
- 内照射的防护课件
- 厨房灶台灭火装置安装说明
- 2022新闻联播播报PPT通用模板
评论
0/150
提交评论