第九章、简单回归分析_第1页
第九章、简单回归分析_第2页
第九章、简单回归分析_第3页
第九章、简单回归分析_第4页
第九章、简单回归分析_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医学统计学 福医卫生统计系 林征 2013.11 第九章. 线性回归 Chapter X. Linear Regression,1,Francis Galton,Sir Francis Galton (1822-1911) “the size (heights) of descendants of large peas (tall ancestors ) tend to regress down towards a normal average”,一、直线回归(linear regression),直线回归,它们呈直线关系,但所有的点并非都在直线上;它们间的关系并非下列严格的函数关系 根据散点

2、图所反映出的两变量线性趋势,我们可以假定,相对x各个取值相应的y的总体均数 位于一条直线上, 与x间在数量上的依存关系就称为直线回归 (linear regression),用以下公式表示y的条件总体均数依赖于x的数值变化,直线回归,一般情况下回归方程只能从样本得到,称为样本回归方程或经验回归方程 如果以 表示 的一个样本估计值,即x确定时y的样本均数,则样本回归方程可以表达如下: 上式中的 读作“y hat”,直线回归(linear regression),y 因变量,响应变量:尿肌酐含量(mmol/24h) (dependent variable, response variable) x

3、 自变量,解释变量:体重(kg) (independent variable, explanatory variable) b 回归系数,斜率(mmol/24h*kg) (regression coefficient, slope) a 截距(mmol/24h) (intercept),直线回归假定了一条回归直线,该直线表达了自变量X与对应的因变量Y的总体均数间的数量关系 : my|x= a+b x Y的实际观察值 y并不总在该回归线上,而是与其所对应的总体均数间(my|x )存在差别 ,这部分的差别称为残差 e,表示y的随机抽样误差: y = my|x + = a+b x + ,X,Y,my

4、|x=a + x,回归直线,直线回归,0,简单线性回归,由于涉及的自变量只有一个,所以这种线性回归又称为简单线性回归模型(simple linear regression model),LINE 假定,二、回归模型的前提假设,线性(linear) :因变量均数 y|x与自变量x间呈直线关系y|x= + x 独立(independent):任意观察值之间彼此独立 正态(normal):对于任何给定的 x, y 服从正态分布,均数为 y|x,标准差为 y|x 方差齐性(equal variance):对于任何x值,随机变量y的方差 y|x2相等,N(my|x, sy|x2),三、回归参数的估计,根

5、据一个给定的包含n对X和Y观测数据的样本,可以建立样本回归直线 但是并非所有实际测量值y都在该回归线上,即实测值与直线估计值间存在误差残差 求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线,使估计值尽可能接近观测值,使得残差尽量小 最小二乘法(least sum of squares)原则:各实测点至直线的纵向距离(残差)的平方和最小,最小二乘估计,回归参数的估计方法,依据最小二乘法的估计原则,利用微积分中求极值的方法可以求得直线的斜率(回归系数)与截距,回归参数的估计方法,散点图提示x,y间呈现直线关系 任意不同个体间两个指标均独立 根据医学常识,同龄人的尿肌酐含量满足

6、正态分布 不同年龄人群的尿肌酐含量离散程度接近?,回归参数的估计方法,代入上述公式得(计算器可直接得到a与b): 故回归方程为:,回归直线的特征,回归直线通过样本均值: 估计值的均值=实测值的均值: 残差之和为0:,四、总体回归系数b的统计推断,求得a、b建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述 研究者还须回答它所来自的总体的直线回归关系是否确实存在(b也有抽样误差),即是否对总体有b=0?,总体回归系数b的统计推断,我们所见的 Y值的变异Sy2 (不考虑x的作用),沿着回归线看去, Y的变异情况Sy.x2(扣除回归作用后还剩余的),估计误差(error of estim

7、ate)与估计误差的标准误(standard error of estimate),如上图中所表示,将各实际值y与由回归方程计算的估计值y hat之间的差值称为估计误差(即残差) 如何评价这种估计误差的大小? 类似于之前介绍的反映数据变异程度的指标标准差,将残差的标准差Sy.x (standard error of estimate)作为估计误差大小的反映 由于y hat决定于均数与回归系数,所以自由度为n-2,公式如下: 它反映了散点围绕回归直线的分散程度,体现了回归直线估计误差的大小;如果回归模型越好则估计值的标准误也越小,样本回归系数b的标准误,对于某一总体资料,可以从中作抽样研究,分别

8、计算各样本的回归系数b,则样本回归系数不一定等于总体回归系数b;而且不同的样本回归系数间也不一定相同 类似于前面的样本均数的标准误,我们将样本回归系数的标准差称为回归系数的标准误;用公式表示如下:,样本回归系数b的标准误,如果直接计算Sy.x是较为麻烦的,可以考虑使用如下公式,计算较为方便,样本回归系数b的标准误,以课文9-1数据为例,计算过程如下:,总体回归系数b的假设检验-t检验,在回归条件满足的情况下(LINE假定),使用最小二乘法计算的样本回归系数b满足正态分布,记为: 满足正态分布,就可以作u转换;但是由于通常只作一次抽样,回归系数的总体标准误未知,在样本含量n较小的情况下,只能求得

9、回归系数标准误的估计值Sb,对其作t转换如下:,总体回归系数b的假设检验,H0:总体回归系数为0(b=0) H1:总体回归系数不为0(b0) a=0.05(双侧) 将b与Sb代入上述公式得: 故在a=0.05的水准上,拒绝H0,认为总体回归系数不为0 注意tb=tr,总体回归系数b的置信区间,类似与总体均数与总体率的可信区间,总体回归系数的可信区间同样可以用t分布的曲线下面积规律导出: 上述例题中,回归系数的95%的可信区间为:,总体回归系数b的假设检验-方差分析*,SS总,SS残,SS回,V总=n-1,V回=1,V残=n-2,总体回归系数b的假设检验-方差分析*,可见不考虑回归时,Y的总变异

10、SS总,归结于随机误差;而考虑回归后,由于回归的贡献使得随机误差减小为SS残 如果两个变量间的回归关系的确存在,则变异度减少将十分之“显著”,即SS回归大于SS残,大到何种程度才认为具有统计学意义? 计算以下统计量: 对于简单线性回归,有tb2=F,总体回归系数b的假设检验-方差分析*,决定系数(Coefficient of determination),R2=SS回/SS总 取值介于01,表示回归解释了因变量变异的比例;其值越大表示回归预测效果越好 在实际应用中,通常需要用决定系数反映回归的实际效果 对于简单线性回归,有r2=决定系数,五、总体回归线的95%置信带*,通过样本资料得到的回归直

11、线为: 其中y hat为相应的总体条件均数my|x的估计值,会随样本而异;为了考虑抽样误差的影响,在估计总体参数my|x时采用区间估计 y hat 满足正态分布: 但是由于通常只有一次抽样无法得到y hat的总体方差,故只能通过t统计量计算其可信区间:,Xp,总体回归线的95%置信带*,yp hat的变异不仅决定于y的均数( ),同时也取决于回归系数的作用( ) 根据方差的特性:,总体回归线的95%置信带,所以对于给定xp时,yp的总体均数myp|xp相应的可信区间为: 可以看出,当xp=x的均数时,y hat 的标准误是最小的,相应的可信区间是最窄的 而当xp偏离其均数时, myp|xp的可

12、信区间将变得越来越宽,总体回归线的95%置信带,将样本中的每个xp代入上述公式就可求得相应的y的条件均数(my|x)的可信区间(confidence interval of conditional mean of y) 由于上述可信区间的特点,当所有可信区间的上下限相连接后就会形成一个弧形的区带,称为my|x的置信带(confidence band),总体回归线的95%置信带,例如年龄为12时,其所对应的尿肌酐均值为3.332(y hat);总体均值 (my|x)的95%可信区间为3.0803.584 mmol/24h 总体回归线置信带的意义:在满足LINE假定的情况下,利用最小二乘原则估计的

13、总体回归线被两条弧线所组成的置信带所包含,其可信度为(1-a),六、y预测值的区间估计*,在回归分析中,假设x取某一数值时,变量y的取值围绕a+bx波动,呈正态分布,其均数为my|x ,标准差为sy|x;(Sy.x是的sy|x估计值) 因而如果能够求得a与b,就可以利用正态分布的原理估计个体值y的预测值范围 在抽样研究中,我们得到的是总体回归线的估计线: yhat=a+bx,因此可估计约有95%的观察值在yhat1.96Sy.x内;但是yhat又是总体均数my|x的估计值,会随样本而改变,其变异程度如前所述用Sy hat表示 因此,我们要预测某次实验中x取一定值时,y的相应取值范围,就要同时考

14、虑这两种误差,Xp,Xp,y预测值的区间估计*,如上所述,个体值y的变异程度因该表达为: 由前述公式得到其具体计算式如下:,y预测值的区间估计,所以根据正态分布的理论,在xp时以下范围内包含了95%的yp值:,y预测值的区间估计,与预测值的标准误S y hat类似的是,个体值的变异度Sy也取决于xp和x均值间的距离;如果这个距离越大,则个体值的变异程度也相应越大 如果样本含量很大,则公式根号中的1/n将趋近于0;同时根号中的第三项由于lxx的增大也将趋近于0,此时个体值的变异程度就近似用Sy.x表达;而在样本含量很大的情况下, Sy.xsy|x 也就是说,如果n很大,则个体值的变异度就是接近S

15、y.x;此时t0.05/2,n-2也约等于u0.05/2;以上公式近似为:,y预测值的区间估计,将样本中的每个xp代入上述公式就可求得相应的y的预测值区间(predicted interval for individual y) 由于上述预测值区间的特点,当所有预测范围的上下限相连接后就会形成一个弧形的区带,称为y预测带(prediction band),根据前述公式,该预测带包含置信带,y预测值的区间估计,例如年龄为12岁时,尿肌酐含量的95预测值范围为:2.7883.876 mmol/24h 个体值y的预测带的意义:如果两个变量间回归关系没有改变的话,在两条弧线所组成的预测带中包含了1-a

16、的y值,七、残差分析,残差分析,残差分析具有深入了解数据是否满足LINE假定,资料中是否存在异常点等功效 在上图中,横坐标为因变量Y,纵坐标为经过标准化后的残差: 可见几乎所有数据的标准化残差均分布在2以内,残差并未随自变量的而改变(残差并未随着自变量的增大而逐渐增大或减小);因此该资料满足线性回归的条件,残差分析,八、线性回归的注意事项,作回归分析要有实际意义,不能把毫无关联的两种现象,随意进行回归分析;如对儿童身高与小树的生长数据进行回归分析既无道理也无用途; 另外,即使两个变量间存在回归关系时,也不一定是因果关系(兄弟间的身高关系),必须结合专业知识作出合理解释和结论,线性回归的注意事项

17、,进行回归分析时,应先绘制散点图(scatter plot);若提示有直线趋势存在时,可作直线回归分析 一般说,不满足线性条件的情形,最好采用非线性回归方程的方法进行分析,线性回归的注意事项,绘制散点图后,若出现一些特大特小的离群值(异常点),则应及时复核检查,对由于测定、记录或计算机录入的错误数据,应予以修正;否则,异常点的存在会对回归方程中的系数a、b的估计产生较大影响,线性回归的注意事项,直线回归分析的资料,一般要求应变量Y是来自正态总体的随机变量,自变量X可以是正态随机变量(II型回归),也可以是精确测量和严密控制的值(I型回归);若Y仅有稍许偏离正态时,一般对回归方程中参数的估计影响

18、不大,但可能影响到标准差的估计,也会影响假设检验时P值的真实性,线性回归的注意事项,直线回归的适用范围一般以自变量取值范围为限,在此范围内求出的估计值称为内插(interpolation);超过自变量取值范围所计算的称为外延(extrapolation);若无充足理由证明,超出自变量取值范围后直线回归关系仍成立时,应该避免随意外延 以免预测错误,九、相关与回归的联系与区别,二者的联系: 变量间关系的方向一致:对同一资料,其r与b的正负号一致 假设检验等价:对同一样本,tr=tb,由于tb计算较复杂,实际中常以r的假设检验代替对b的检验 r与b值可相互换算:,相关与回归的联系与区别,二者的区别: 资料要求不同:相关要求两个变量是双变量正态分布;回归要求应变量Y服从正态分布,而自变量X则并不要求一定满足正态 统计意义不同:相关反映两变量间的伴随关系这种关系是相互

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论