![第十三、十四章 直线相关与回归分析(11讲).ppt_第1页](http://file1.renrendoc.com/fileroot2/2020-2/2/fc7b89fe-731f-4226-af95-20cffffdf294/fc7b89fe-731f-4226-af95-20cffffdf2941.gif)
![第十三、十四章 直线相关与回归分析(11讲).ppt_第2页](http://file1.renrendoc.com/fileroot2/2020-2/2/fc7b89fe-731f-4226-af95-20cffffdf294/fc7b89fe-731f-4226-af95-20cffffdf2942.gif)
![第十三、十四章 直线相关与回归分析(11讲).ppt_第3页](http://file1.renrendoc.com/fileroot2/2020-2/2/fc7b89fe-731f-4226-af95-20cffffdf294/fc7b89fe-731f-4226-af95-20cffffdf2943.gif)
![第十三、十四章 直线相关与回归分析(11讲).ppt_第4页](http://file1.renrendoc.com/fileroot2/2020-2/2/fc7b89fe-731f-4226-af95-20cffffdf294/fc7b89fe-731f-4226-af95-20cffffdf2944.gif)
![第十三、十四章 直线相关与回归分析(11讲).ppt_第5页](http://file1.renrendoc.com/fileroot2/2020-2/2/fc7b89fe-731f-4226-af95-20cffffdf294/fc7b89fe-731f-4226-af95-20cffffdf2945.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2020/10/10,1,第十三、十四章 直线相关与回归,景学安,2020/10/10,2,学习要点 1.掌握相关系数的意义、计算和假设检验 2.掌握回归系数的意义、计算和假设检验 3.直线相关与回归分析时应注意的问题,2020/10/10,3,学习要求 了解:散点图的相关性意义;直线回归分析的应用。 熟悉:秩相关的意义和Spearman秩相关系数的计算方法。 掌握:直线相关和回归的意义和资料使用条件;相关系数和回归系数计算方法和假设检验的方法;相关与回归分析的联系与区别。,2020/10/10,4,在医学研究中,常会有两个变量之间相互联系、相互影响,在数量上存在互相协同变化的关系,如年龄与血
2、压、身高与体重、药物剂量与动物死亡率、血铅值与尿铅值等。统计学常用相关与回归来分析此类关系。 第一节 直线相关分析 当两个变量(x,y)在数量上的协同变化呈直线趋势时则称为直线相关(linear correlation),又称简单相关(simple correlation),用于分析双变量正态分布资料。表示两变量相关关系的重要指标就是相关系数。,2020/10/10,5,一、相关系数的意义 直线相关系数(linear correlation coefficient)又称为Pearson积距相关系数,用符号r表示。它描述两变量间直线相关关系的密切程度和相关方向。r值的范围为:1r1,当r0时,为
3、正相关,r=1为完全正相关;当r0时,为负相关,r=-1为完全负相关。当r愈接近1,表示两变量的相关愈密切;当r愈接近0时,表示两变量相关程度愈低;当r0时,称为零相关,表示两变量无直线相关关系,见示意图13.2。,2020/10/10,6,图13.2 相关系数示意,2020/10/10,7,一般认为,当样本含量较大的情况下(n100),大致可按下列标准估计两变量相关的程度:当r0.7时为高度相关;当0.7r0.4时为中度相关;当0.4r0.2时为低度相关。 二、相关系数的计算 相关系数r的计算公式:,2020/10/10,8,. .,. .,.,. .,. .,.,.,. .,. .,. .
4、,.,. .,.,. .,.,2020/10/10,9,例13.1 某医师测量了15名正常成年男子的体重(kg)与CT双肾体积(mL)大小,数据见表13.1所示。问体重与双肾体积之间有无直线相关关系?,2020/10/10,10,表13.1 15名正常成年人体重和双肾体积的测量值,计算步骤: 1.由原始数据绘制散点图13.1,本资料呈直线相关趋势。,2020/10/10,11,图13.1 15名正常成年人体重和双肾体积的散点图,2020/10/10,12,2.根据表13.1原始数据计算出x,y,x2,y2,xy。 本例x893,y3991.56,x255719,y21082440.577,xy
5、243931.91。 3.计算X、Y的离均差平方和与离均差积和,2020/10/10,13,4.求相关系数r,三、相关系数的检验假设 上面所求相关系数r为样本相关系数,是总体相关系数的估计值,要判断 x与y间是否有相关关系就要检验r是否来自总体相关系数为零的总体。因为有抽样误差,即使在0的总体中随机抽样,r值也不一定等于零。因此计算出r值,要进行统计学检验。常用的方法为t检验。另外也可以直接查r界值表,确定P值。,2020/10/10,14,1. t检验法 t检验的计算公式,自由度n2,式中:Sr为相关系数的标准误,n为样本含量。,2020/10/10,15,例13.2 对例13.1资料所得r
6、=0.875,检验体重与双肾重量之间是否有直线相关关系。 (1)建立检验假设,确定检验水准 H0:0 ,两变量间无直线相关关系。 H1:0 ,两变量间有直线相关关系。 0.05。 (2)计算t值 本例n=15 , r=0.875,2020/10/10,16,(3)确定P值,作出推断结论 按n-2=13查t界值表,得 P0.001,按0.05水准,拒绝Ho,接受H1,相关系数有统计学意义,可认为体重和双肾体积之间有直线相关关系。 2.查表法 查附表14, 相关系数界值表。按自由度n-2查r界值表,当r 时,则P;反之,r 时,则P。本例r0.875,r0.001(13)0.760 ,rr0.00
7、1(13), 则P0.001。检验结果与t检验相同。,2020/10/10,17,第二节 秩相关 前面所述直线相关分析适用于双变量为正态分布的资料,在实际工作中,常遇到有些资料并不呈正态分布,对于此类资料就不宜用上述所讲的直线相关分析,而常用秩相关处理资料。秩相关(rank correlation)亦称为等级相关,适用于分布类型不明的资料、偏态分布资料和等级资料的相关分析。本节主要介绍Spearman秩相关法,其分析步骤如下:,2020/10/10,18,1. 先将x,y 分别由小到大编秩次,数字相同时需要求平均秩次; 2.以pi表示xi的秩次,qi表示 yi的秩次,用pi、qi直接代替 x
8、和 y,直接计算Pearson积矩相关系数。,2020/10/10,19,3. 根据n查附表15,rs界值表,确定P值。如rsra,n ,则 P,说明x,y两变量直线相关有统计学意义;如rs ra,n ,则 P,说明x,y两变量直线相关无统计学意义。 例13.4 某研究者对15例3050岁成年男性的舒张压(mmHg)与夜间最低血氧含量分级进行研究,结果见表13.2,试分析两者的关联性。,2020/10/10,20,表13.2 15例成年男子的舒张压与夜间最低血氧含量分级测量值,2020/10/10,21,(1)建立检验假设,确定检验水准 H0:s=0,即舒张压与夜间最低血氧含量分级无相关关系。
9、 H1:s0,即舒张压与夜间最低血氧含量分级有相关关系。 =0.05。 (2)计算秩相关系数rs,2020/10/10,22,(3)确定P值,作出推断结论 查附表15,rs界值表,n=15,r0.001,15=0.779,现rs r0.001,15,故P0.001。在=0.05水准上,拒绝Ho,接受H1,可以认为舒张压与夜间最低血氧含量分级之间有正相关关系。,2020/10/10,23,第三节 直线回归分析 一、直线回归的概念 在描述两变量间的关系时,若散点图呈直线趋势或有直线相关关系,可进行直线回归(linear regression)分析。直线回归分析就是找出一条最能代表这些数据关系的直线
10、方程,以说明两变量间的依存关系。习惯上用x作为自变量,y作为因变量,则直线回归方程为,2020/10/10,24,式中: 为因变量y的估计值,a为回归直线y轴上的截距,为常数项;b为回归系数即回归方程的斜率,表示x改变一个单位时y的平均变动量。这与两变量间严格对应的函数关系不同。直线回归是回归分析中最基本最简单的一种,故又称简单回归(simple regression)。,x,y,a,0,. . . . . .,. . . .,. .,. . .,. .,2020/10/10,25,二、直线回归方程的求法 求直线回归方程 ,关键在于计算a,b两个系数,根据数学上的最小二乘法原理,即保证各实测点
11、至回归直线的纵向距离的平方和最小。可得出a,b的计算公式为,2020/10/10,26,例14.1 例13.1 资料,问体重与双肾体积之间有无直线回归关系? 建立回归方程的具体步骤: 1.绘制两变量之间的散点图。见图13.1,观察到两变量呈直线趋势。 2.求,本例x893,y3991.56,x255719,y21082440.577,xy243931.91。,2020/10/10,27,3. 计算回归系数b及截距a。,4.列出回归方程,5. 绘制回归直线 在自变量X的实测值范围,任意指定相距较远且易读的两个数值,代入直线回归方程,求出相应的y的估计值,确定两点,用直线连接即得回归直线。,202
12、0/10/10,28,本例:x1取40, =219.96,x2取80, =316.56。连接点 (40,219.56)和 (80,316.56)即得回归直线。,图13.1 15名正常成年人体重和双肾体积的散点图,2020/10/10,29,三、回归系数的假设检验 前面所述直线回归方程中,回归系数b为样本回归系数,假设在总体回归系数=0的总体中抽样,得出样本的b不一定为0,因此需作总体回归系数是否为0的假设检验,常用方差分析或t检验。 (一)方差分析 其基本原理可以用图14.1直观表达,任意点p(x,y)离开过 的水平线的距离 可分成两段,即,2020/10/10,30,P .,y,x,0,图1
13、4.1 因变量的离均差平方和分解示意图,2020/10/10,31,是P点与回归直线的纵向距离,称为残差(residual),反映了x对y的线性影响之外的因素对y的变异作用。 是估计值 与均数 之差。它的大小与回归系数b有关,|b|越大, 也越大;反之亦然。 经数学推导可得下式:,用符号表示为: SS总=SS回+SS残,2020/10/10,32,SS总为y的总离均差平方和,即不考虑y与x的回归关系时y的总变异。 SS回称为回归平方和,反映了y的总变异中由于x与y的直线关系而使y的总变异减少的部分,即在y的总变异中可以用x解释的部分, SS回越大,说明回归效果越好。 SS残称为残差平方和,反映
14、了x对y的线性影响之外的因素对y的变异作用。 SS残= SS总- SS回。 上述三项自由度为:总=n-1, 回=1, 残=n-2, 总= 回+ 残,2020/10/10,33,利用方差分析的原理,计算检验统计量F值:,MS回越大,MS残越小,F值越大,即越有理由拒绝=0的无效假设,反之亦然。 实际计算时:,2020/10/10,34,例14.2 试用方差分析对例13.1资料的样本回归方程作假设检验。 (1)建立检验假设,确定检验水准 H0:0 ,体重和双肾体积之间无直线回归关系。 H1:0 ,体重和双肾体积之间有直线回归关系。 =0.05。 (2)计算检验统计量,2020/10/10,35,(
15、3)确定P值,作出推断结论 1=回=1,2=残=n-2=13,查附表4,F界值表, F0.01(1,13)=9.07,现F F0.01(1,13),即P0.01。在=0.05水准上,拒绝H0,接受H1,回归方程有统计学意义,可以认为正常成年人体重和双肾体积之间有直线回归关系。,2020/10/10,36,表14.2 直线回归的方差分析表,(二)t检验,,=n-2,式中,Sb为b的标准误;Sy.x为剩余标准差,是指扣除x对y的影响后,y对于回归直线的离散程度。,2020/10/10,37,例14.3 试用t检验对例13.1资料的样本回归方程作假设检验。 (1)建立检验假设,确定检验水准 H0:0
16、 ,体重和双肾体积之间无直线回归关系。 H1:0 ,体重和双肾体积之间有直线回归关系。 =0.05。 (2)计算tb值,2020/10/10,38,(3)确定P值,作出推断结论 =n-2=15-2=13,查附表3,t界值表,得P0.001。在=0.05水准上,拒绝H0,接受H1,回归方程有统计学意义,可以认为正常成年人体重和双肾体积之间有直线回归关系。 方差分析和t检验的关系为: ,如本例6.530= 。所以对同一资料,方差分析和t检验假设检验的结论是一致的。,2020/10/10,39,四、总体回归系数的置信区间 样本回归系数b是总体回归系数点估计值, 双侧(1-)的置信区间可由下式计算,例
17、14.4 计算例13.1资料的总体回归系数的95%置信区间。 b=2.465,Sb=0.3775,t0.05/2,13=2.160, (2.465-2.1600.3775 , 2.465+2.1600.3775)=(1.650,3.280) 该区间不包括0,说明和回归系数假设检验的结论是一致的。,2020/10/10,40,五、决定系数,R2取值在0到1之间,且无单位。它反映了回归贡献的相对程度,即在因变量y的总变异中回归关系所能解释的比例。 例如在例13.1资料,SS回= 15534.927,SS总=20270.495,,说明成年男性体重信息可以解释双肾体积变异的76.64%,还有剩余的23
18、.36%的信息则通过体重以外的因素来解释。,2020/10/10,41,六、直线回归分析的应用 (一) 总体均数的置信区间 在直线回归方程的计算中,给定的xi算出的 只是总体均数 点估计值。由于抽样误差的存在, 是有波动的。其抽样误差的标准误计算公式为:,的双侧(1-)置信区间为:,2020/10/10,42,本书例14.1成年男性腰围与腹腔内脂肪面积的研究中,回归方程为,已算出Sy.x=13.03535,lxx=950.778, =90.990,x1=81.3,代入上式计算,2020/10/10,43,当=0.05时,t0.05/2,18=2.101, 则 的95%置信区间为 75.1939
19、72.1015.0276=(64.63,85.76) 用同样的方式计算出每个xi对应的 置信区间,以x为横坐标,y为纵坐标,将置信区间的上下限分别连接起来形成两条弧形线间的区域称为回归直线的置信带(confidence band)。 由上述因变量总体均数标准误计算公式看出,当xi= 时,标准误达到最小值 ,其对应的置信带最窄,越远离该均数点,置信带宽度越大。,2020/10/10,44,图14.3 总体均数 置信区间和个体y值的预测区间,2020/10/10,45,(二) 因变量个体y值的预测区间 利用回归方程进行预测是回归方程的重要应用。也就是将已知自变量x代入直线回归方程,可得到应变量y的
20、估计值 。 对于给定的xi,计算得 只是y的均值,y的预测值也存在波动范围,其标准差为Sy|xi,按下式计算:,x=xi时个体y值的双侧(1-)预测区间为,2020/10/10,46,仍以例14.1资料x1=81.3 为例,其预测值y的标准差为,y1 值的95%预测区间为,用同样的方式计算出每个xi对应的yi值 95%预测区间,以x为横坐标,y为纵坐标,将预测区间的上下限分别连接起来形成两条弧形线间的区域称为y值的预测带(prediction interval)。,2020/10/10,47,(三)利用回归方程进行统计控制 统计控制(statistical control)是利用回归方程进行逆
21、估计,即要求应变量y值在一定范围内波动,进一步来得到自变量x的取值,然后通过x取值来控制y的变化。 例 在硝酸钠的溶解实验中,测得在不同温度()x下,溶解于100份水中的硝酸钠份数y的数据见下表。若要求溶解于100份水中的硝酸钠份数在80份以上,温度如何控制?(设=0.05),2020/10/10,48,表 不同温度下溶解于100份水中的硝酸钠份数,由原始数据计算可知:,=0.05,=9-2=7,单侧t0.05,7=1.895。本例要求溶解于100份水中的硝酸钠份数y在80份以上,对应于个体y值的95%预测区间单侧下限值为:,2020/10/10,49,当 =80时,通过上式解得xi=16.56(),即把温度控制在16.56以上,就有95%的可能是溶解于100份水中的硝酸钠分数控制在80份以上。 第四节 进行直线相关与回归分析时应注意的问题 (一)作相关回归分析要有实际意义。不要把毫无联系的两种现象作相关回归分析。,2020/10/10,50,(二)相关关系不一定是因果关系,也可能是伴随关系。当事物间的内在联系尚未被认识时,相关分析可为理论研究提供依据。 (三)在进行直线相关与回归分析之前,应先绘制散点图。当
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《隧道的结构荷载》课件
- 如何招聘人才课件
- 《库存管理案例》课件
- 2025至2031年中国学生笔记本电脑行业投资前景及策略咨询研究报告
- 2025至2031年中国卧式干湿多用蒸箱行业投资前景及策略咨询研究报告
- 1.1 公有制为主体 多种所有制经济共同发展 【知识精研】高中政治统编版必修二经济与社会
- 《虞美人》《鹊桥仙》课件 【知识精研】统编版高一语文必修上册
- 《沟通与交流的礼仪》课件
- 《财务报表编制教学》课件
- 《copd的评估及治疗》课件
- (高清版)TDT 1048-2016 耕作层土壤剥离利用技术规范
- 市场调研与咨询行业的市场调研方法创新培训
- 2024年人工智能助力社会治理现代化
- 29.4常见肿瘤标志物讲解
- 华为企业大学培训体系
- 学生奖励兑换券模板
- 手术室医院感染控制规范
- 铸牢中华民族共同体意识主题班会教案
- 运营与管理行业培训资料
- 48贵州省贵阳市2023-2024学年五年级上学期期末数学试卷
- 骑手食品安全培训
评论
0/150
提交评论