版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 简单回归分析简单回归分析 郝元涛郝元涛2008.11.04第十二章第十二章引言引言:n身高与体重存在相关(相关关系)身高与体重存在相关(相关关系)n可否通过身高预测体重的平均水平?可否通过身高预测体重的平均水平?n新生儿的体重与体表面积存在相关新生儿的体重与体表面积存在相关n可否通过体重预测体表面积?(依存关系)可否通过体重预测体表面积?(依存关系)n线性回归(线性回归(linear regression),又称简单回归),又称简单回归(simple regression),),n非线性回归(非线性回归(nonlinear regression) 第一节第一节 线性回归线性回归1、线性回归的
2、概念及其统计描述线性回归的概念及其统计描述 在上一章中,对在上一章中,对14名名4060岁的健康妇女的体岁的健康妇女的体重(重(X)与基础代谢()与基础代谢(Y)数据计算了相关系)数据计算了相关系数数 ,定量地描述了变量,定量地描述了变量X与与Y间的线性间的线性关联性。现在试用回归分析的方法,从预测的角关联性。现在试用回归分析的方法,从预测的角度来描述基础代谢(度来描述基础代谢(Y)如何依存体重()如何依存体重(X)的变)的变化而变化的规律性。化而变化的规律性。 964. 0r引例:引例:线性回归模型(线性回归模型(linear regression model):):XXY| :截距(:截距
3、(intercept) :斜率(:斜率(slope),又称回归系数),又称回归系数 (regression coefficient) 样本线性回归方程样本线性回归方程(regression equation) :bXaY图图12-1 14例中老年健康妇女的基础代谢与体重的回归直线例中老年健康妇女的基础代谢与体重的回归直线 II型回归型回归123454.05.56.27.78.5IgG浓度(IU/ml) X沉淀环直径(mm) Y表12-1 不同IgG浓度下的沉淀环直径数据I型回归型回归 图图12-2 IgG浓度与沉淀环直径数据的散点图浓度与沉淀环直径数据的散点图 二、线性回归模型的适用条件二、线
4、性回归模型的适用条件(1) 线性线性(Linear)(2) 独立性独立性(Independent)(3) 正态性正态性(Normal distribution) (4) 方差齐性方差齐性(Equal variance) LINE图图12-3 线性回归模型的适用条件示意图线性回归模型的适用条件示意图三、回归参数的估计三、回归参数的估计(一一) 回归参数估计的最小二乘原则回归参数估计的最小二乘原则 0.250.200.150.100.050.00 2.001.751.501.251.000.75NO浓度图图12-4 基础代谢与体重的回归直线的最小二乘原则的直观表达基础代谢与体重的回归直线的最小二乘
5、原则的直观表达由于考虑到所有点的由于考虑到所有点的( )有正有负,通常变成考察所有点有正有负,通常变成考察所有点的的( )平方和最小,这就是平方和最小,这就是最小二乘原则(最小二乘原则(least squares method)。)。iiYYiiYY22minminbXaYYY( (二二) ) 回归参数的估计方法回归参数的估计方法 niiniiiXXYYXXb121)()(),.,2 , 1(ni XbYa 例例12-1 计算例11-1的基础代谢(Y)关于体重(X)的线性回归方程。4229.61)()(121niiniiiXXYYXXb7864.1106142 .7774229.61149 .
6、63232XbYaXY42.6179.1106 为了直观分析或实际需要,可按求出的回归方程作回归直线图。在X的实测全距范围内,任取相距较远且易读数的两个X值,代入方程得到两个 值,以直线连接两点即得回归直线。本例可取X1=37.1,得 ;取X2=67.3,得 。连接点即得本资料的回归直线。Y47.33851Y36.52402Y注意:注意:回归直线的适用范围一般以自变量的取值回归直线的适用范围一般以自变量的取值范围为限,若无充分理由证明超过自变量的取值范围为限,若无充分理由证明超过自变量的取值范围还是直线,应该避免外延(即范围还是直线,应该避免外延(即不要超过不要超过自变自变量取值范围计算量取值
7、范围计算 值)。值)。Y四、总体回归系数四、总体回归系数的统计推断的统计推断 H0: = 0 即基础代谢与体重之间无线性回归关系H1: 0 即基础代谢与体重之间有线性回归关系= 0.05 ( (一一) ) 方差分析方差分析图图12-5 回归前后因变量回归前后因变量Y残差的示意图残差的示意图222)()()(YYYYYY残回总SSSSSS1 n总1回2 n残残回总H0:= 0,H1:0残回MSMSF 回回回SSMS残残残SSMS例例12-212-2 试对例11-1资料的样本回归方程作假设检验(用方差分析) H0: = 0 即基础代谢与体重之间无线性回归关系H1: 0 即基础代谢与体重之间有线性回
8、归关系 = 0.05 0121.4645447)(2YYSS总2962.327219)(2YYSS残7159.43182272962.3272190121.4645447残总回SSSSSS361.1582747.272687159.4318227残回MSMSF已知1=回= 1,2=残= n2=12,查F界值表(附表3.1)得 =4.75,今求得F = 158.3614.75,则P0.05,按=0.05水准拒绝H0,差异有统计学意义。可认为体重与基础代谢之间有线性回归关系。)12, 1(05. 0),(21FF变异来源P回归4318227.7214318227.72158.360.05残差327
9、219.301227268.27总变异4645447.0113F表12-2 线性回归的方差分析表SSdfMS(二二) t 检验检验bbSbt02 nXXXYblSS2)(XXlXX2nSSSXY残例例12-312-3 试对例11-1资料的样本回归方程作假设检验(用t 检验)。 1311.1652142962.3272192nSSSXY残8810. 45771.11441311.165XXXYblSS584.12881. 44229.61bbSbt179. 212, 2/05. 0t注意:注意:对同一资料作总体回归系数对同一资料作总体回归系数是否为是否为零的假设检验,方差分析和零的假设检验,方差
10、分析和t t检验是等价的,检验是等价的,并且有并且有 的关系。的关系。 Ftb 上一章对总体相关系数 的假设检验计算出的 等于这里的 ,这并不是巧合。当 Y与X两者都是随机变量时,我们既可以计算Y与X的相关系数,又可以做Y关于X的回归(II型回归); 对同一资料作总体相关系数 的假设检验和作总体回归系数的假设检验分别得到 和 ,可以证明,二者相等二者相等。rtbtrtbt( (三三) ) 总体回归系数总体回归系数的置信区间的置信区间bnStb2,2/( (四四) ) 决定系数决定系数总回SSSSR 2取值在0到1之间,且无单位。它反映了回归贡献的相对程度,即在因变量Y的总变异中回归关系所能解释
11、的比例。 在实际应用中,通过用决定系数来反映回归的实际效果。如例12-1, =0.930,说明4060岁健康妇女的体重信息大约可以解释自身基础代谢信息量的93%,还有剩余的7%的信息则通过体重以外的其它因素来解释。说明用体重来预测基础代谢量的实际效果较佳。 2R第二节第二节 线性回归的应用线性回归的应用n统计预测;n统计控制。 统计预测:统计预测: n均数的置信区间均数的置信区间: 当X为某定值和在给定置信度的情况下,欲知Y的总体均数的分布如何?我们可以估计总体中当X为某定值 时,Y的总体均数 的 置信区间 。 iXXY|1 的(1- )置信区间为 pXY|pYnpStY2, 2/XXpXYY
12、lXXnSSp2)(1(12-15) (12-16) 5771.1144)5143.557 .50(1411311.165)(12211XXXYYlXXnSS49.9991 当X1=50.7时,Y 的总体均数的95%置信区间为 4220.7842.17949.9991(4111.84,4329.73) 784.42207 .5042.6179.1106ppbXaY280033003800430048005300580030354045505560657075体重 (kg)基础代谢 (KJ/day)图图12-6 基础代谢依体重的回归直线的基础代谢依体重的回归直线的95%置信带与置信带与Y个体值的
13、个体值的95%预测带预测带统计预测(续):n个体的容许区间:个体的容许区间: 预测是回归分析的重要应用之一,医学上常用在给定X值(预报因子)时,计算个体Y值的容许区间。所谓个体Y值的容许区间是指总体中X为某定值时,个体Y值的波动范围。 XXpXYXYlXXnSSp2.|)(11pXYnpStY|2, 2/ (12-17) (12-18) 仍然以第一观测点数据(X1=50.7)为例,利用上例计算结果,该点预测Y值的标准差为 5771.1144)5143.557 .50(14111311.165)(11221|1XXXYXYlXXnSS172.5346 代入(12-18)式,得第一数据点Y值的95
14、%的预测区间为:4220.7842.179172.5346(3844.83,4596.737)统计控制统计控制n例例12-6 在硝酸钠的溶解试验中,测得在不同温度( )X下,溶解于100份水中的硝酸钠份数Y的数据见表12-3。若要求溶解于100份水中的硝酸钠份数在80份以上,温度应如何控制?设置信度为95%。温度(C)X0410152129365168溶解的硝酸钠份数Y66.77176.380.685.792.999.4113.6 125.1表12-3 不同温度下溶解于100份水中的硝酸钠份数 由原始数据计算可知 , , , , =0.05, ,查t界值表得单侧 。 XY871. 0508.6
15、726X4060XXl959. 0XYS729895. 17,05. 0t 本例要求溶解于100份水中的硝酸钠份数Y在80份以上,对应于个体Y值的95%预测区间单侧下限值: XXpXYpXYplXXnStXStYYp2,05. 0|,05. 0)(11871. 0508.67下限 当 时,通过上式解得Xp=16.56( ),即把温度控制在16.56以上,就有95%的可能使溶解于100份水中的硝酸钠份数在80份以上。80下限Y第三节第三节 残差分析残差分析 iiiYYe残差分析残差分析(residual analysis)旨在通过残差分布深入了解实际资料是否符合回归模型假设(如正态性、等方差),
16、尤其在识别离群点(outlier)方面,有着重要作用。标准化残差(standardized residual)。 残差分析常通过标准化残差图(standardized residual plot)来进行。若以因变量取值Y为横坐标,以标准化残差为纵坐标,构成的散点图即是标准化残差图,见图12-7。类似地,也可以自变量取值X为横坐标, 以标准化残差为纵坐标作标准化残差图。 图图12-7 基础代谢依体重数据回归的标准化残差图基础代谢依体重数据回归的标准化残差图 当标准化残差图中散点的分布,绝大部分在2倍标准差之间,在以0参考线的上下随机且均匀地散布时,可以认为模型与数据拟合得较好。一般认为在3标准差
17、以外区域出现的点所对应的原始数据为离群点,在2标准差以外、3标准差以内区域出现的点所对应的原始数据可能为离群点。 abcd不满足方差齐性不满足方差齐性非线性关系非线性关系可能漏掉了另外的自变量可能漏掉了另外的自变量图图12-8 不同类型的残差图不同类型的残差图 ef模型恰当模型恰当第四节第四节 非线性回归非线性回归图图12-9 1995年中国年中国022岁居民身高均数随年龄的变化情况岁居民身高均数随年龄的变化情况 在医学科研实践中,两个连续型变量间并非都呈现在医学科研实践中,两个连续型变量间并非都呈现线性关系。线性关系。 例如:考虑人出生后的整个生命期,身高(例如:考虑人出生后的整个生命期,身
18、高(Y)与年)与年龄(龄(X)之间是明显的非线性关系,在生命的早期,生)之间是明显的非线性关系,在生命的早期,生长很快,而成年期却几乎恒定(见图长很快,而成年期却几乎恒定(见图12-9)。)。 因此,要想建立非线性关系的回归模型,需要借助因此,要想建立非线性关系的回归模型,需要借助非线性回归非线性回归(non-linear regression)或称或称曲线拟合曲线拟合(curve fitting)来实现。来实现。 本节主要讨论非线性回归分析的基本策略和介绍简单本节主要讨论非线性回归分析的基本策略和介绍简单的处理方法。的处理方法。一、非线性回归分析的基本策略一、非线性回归分析的基本策略 首先绘
19、制两个变量的散点图,观察点的分布趋势,根据首先绘制两个变量的散点图,观察点的分布趋势,根据分布趋势的形状,可选择如下不同的分析过程:分布趋势的形状,可选择如下不同的分析过程: 1. 曲线直线化(曲线直线化(linearization) 当散点分布的形状接近某些常当散点分布的形状接近某些常见的函数曲线时,我们可以尝试采取变量变换的方法,使变换见的函数曲线时,我们可以尝试采取变量变换的方法,使变换后的两个变量之间呈直线关系(通过散点图判断)。求出直线后的两个变量之间呈直线关系(通过散点图判断)。求出直线回归方程后,再将方程中的变量还原,便得到曲线回归方程。回归方程后,再将方程中的变量还原,便得到曲
20、线回归方程。2. 非线性回归非线性回归 当不能通过变量变换的方法使曲线直线化或直接当不能通过变量变换的方法使曲线直线化或直接进行曲线拟合时,需利用非线性最小二乘估计的原则,采用迭进行曲线拟合时,需利用非线性最小二乘估计的原则,采用迭代计算方法获得非线性回归方程。代计算方法获得非线性回归方程。 yyyx(a)0(b)(c)00 xx(d)01yx幂函数幂函数Y=aXb 对数函数对数函数Y=abln(X) 指数函数指数函数Y=aebX Logistic函数函数 二、曲线直线化二、曲线直线化 1. 绘制原始数据绘制原始数据Y与与X的散点图,观察散点分布形态类似于何的散点图,观察散点分布形态类似于何种
21、常用函数类型;种常用函数类型;2. 按照所选定的函数进行适宜的变量变换,得到按照所选定的函数进行适宜的变量变换,得到X与与Y;3. 绘制变换后数据绘制变换后数据Y与与 X的散点图,观察散点分布形态是否的散点图,观察散点分布形态是否呈直线趋势,从而确定曲线类型,否则重复呈直线趋势,从而确定曲线类型,否则重复1、2步直至满步直至满足散点分布呈直线趋势;足散点分布呈直线趋势;4. 作作Y关于关于X的线性回归方程并进行假设检验;的线性回归方程并进行假设检验;5. 根据第根据第2步的变量变换式进行反变换,得到原始数据步的变量变换式进行反变换,得到原始数据Y与与X的曲线方程。的曲线方程。 当原始数据当原始
22、数据X与与Y的散点分布形态较难判断的散点分布形态较难判断是直线趋势还是曲线趋势时,一般拟合多个相近是直线趋势还是曲线趋势时,一般拟合多个相近的模型,然后通过对各个模型的拟合优度(常用的模型,然后通过对各个模型的拟合优度(常用决定系数决定系数)评价挑选较为合适的模型。)评价挑选较为合适的模型。例例12-7 某研究者测得某女童某研究者测得某女童19月的身高数据,如表月的身高数据,如表12-4所示。试用所示。试用合适的回归模型描述该月龄段女童的身高随时间变化的规律。合适的回归模型描述该月龄段女童的身高随时间变化的规律。 时间(月)123456789身高(cm)545761636466676869表1
23、2-4 某女童19月的身高数据 (1)以身高为)以身高为Y,时间为,时间为X,绘制散点图,如图,绘制散点图,如图12-10所示,呈现所示,呈现非线性趋势,形似对数函数曲线。非线性趋势,形似对数函数曲线。 (2)利用对数函数曲线变换式()利用对数函数曲线变换式( ),令),令X =ln X,计,计算算X 数值。计算结果见表数值。计算结果见表12-5。XbaYln(3)以)以Y和和X 绘制散点图,如图绘制散点图,如图12-11所示,二者呈直线趋势。所示,二者呈直线趋势。 4045505560657075012345678910时间(月)身高(cm)404550556065707500.20.40.60.811.21.41.61.822.22.4ln时间(月)身高(cm)1540.000002570.69315回归统计3611
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版KTV会员积分兑换与消费激励合同3篇
- 二零二五版无形资产抵押融资合同3篇
- 物业开发商2025年度交付合同3篇
- 二零二五年度绿色建筑节能材料研发合同gf02094篇
- 2025年度不锈钢水箱及配件批发采购合同模板2篇
- 二零二五年度股权代持合同:涉公司清算与资产分配协议3篇
- 2024网络红人与品牌代言合同
- 2025版新能源汽车销售服务合同范本4篇
- 2025年度高端酒店食材采购及质量控制合同3篇
- 全日制学术学位
- 2024版塑料购销合同范本买卖
- 【高一上】【期末话收获 家校话未来】期末家长会
- JJF 2184-2025电子计价秤型式评价大纲(试行)
- GB/T 44890-2024行政许可工作规范
- 有毒有害气体岗位操作规程(3篇)
- 儿童常见呼吸系统疾病免疫调节剂合理使用专家共识2024(全文)
- 2025届山东省德州市物理高三第一学期期末调研模拟试题含解析
- 《华润集团全面预算管理案例研究》
- 2024-2025高考英语全国卷分类汇编之完型填空(含答案及解析)
- 二年级下册加减混合竖式练习360题附答案
- 苏教版五年级数学下册解方程五种类型50题
评论
0/150
提交评论