《医学统计学教学课件》10简单回归分析_第1页
《医学统计学教学课件》10简单回归分析_第2页
《医学统计学教学课件》10简单回归分析_第3页
《医学统计学教学课件》10简单回归分析_第4页
《医学统计学教学课件》10简单回归分析_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

10简单线性回归Simplelinearregression青岛大学医学院公共卫生学院流行病与卫生统计学教研室姜秀波本章内容概述简单线性回归模型线性回归的应用及注意的问题

英国人类学家F.Galton首次在?自然遗传?一书中,提出并说明了“相关〞和“相关系数〞两个概念,为相关论奠定了根底。其后他和英国统计学家KarlPearson对上千个家庭的身高、臂长、拃长〔伸开大拇指与中指两端的最大长度〕做了测量,发现:历史背景:儿子身高〔Y,英寸〕与父亲身高〔X,英寸〕存在线性关系:

即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归〞。Regression

释义“回归〞已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程〞、“回归系数〞等统计学概念。如:研究糖尿病病人血糖与其胰岛素水平的关系,研究儿童年龄与身高、体重的关系等。两个变量X与Y之间数量变化的关系:1.函数关系,X与Y之间一一对应。例如园周长与半径:y=2πr,直线y=a+bx。2.回归关系。两个变量之间有数量依存关系,但非一一对应的函数关系。如儿童年龄与身高、年龄与体重的关系等。一、直线回归的概念研究两个连续性变量X和Y之间线性依存变化数量关系的方法。X为自变量〔independentvariable)Y为依赖于X的变量称作因变量〔dependentvariable〕,或反响变量〔responsevariable〕两个变量之间有数量依存关系,但非一一对应的函数关系,被称作回归关系。二、直线回归分析的任务找出最适合的直线回归方程,以确定一条最接近于各实测点的直线,来描述两个变量之间的回归关系。X值和Y的关系,是一种线性回归关系,不同于一般数学上的X和Y的函数关系绘制直线由图可见,根底代谢随体重的增加而增加,且呈直线趋势,但并非所有点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为直线回归〔linearregression〕,其方程叫直线回归方程,以区别严格意义的直线方程。直线回归是回归分析中最根本、最简单的一种,故又称简单回归。三、线性回归模型的适应条件线性、独立性、正态性、等方差性。因变量Y、自变量X呈线性〔linear〕关系。每个个体观察值之间相互独立(independent)。在一定范围内,任意给定X值,对应的随机变量Y都服从正态分布(normaldistribution)。在一定范围内,不同的X值所对应的随机变量Y的方差相等(equalvariance)。=“LINE〞LINE假定xy

y|X=α+x回归模型的前提假设---LINE适应条件四、直线回归方程一般形式及其符号的意义由样本估计的线性回归方程

为与X相对应的Y的估计值。简单线性回归模型的一般形式:

1.a

为回归直线在Y轴上的截距a

>0,表示直线与纵轴的交点在原点的上方a

<0,交点在原点的下方a

=0,回归直线通过原点2.b为回归系数,即直线的斜率b>0,直线从左下走向右上,X增大Y增大b<0,直线从左上走向右下,X增大Y减小b=0,直线X轴平行,X与Y无直线关系b的统计学意义:X每增加〔或减少〕一个单位,Y平均改变b个单位。直线回归方程的建立:求解a、b。实际上就是“合理地〞找到一条能最好地代表数据点分布趋势的直线。五、回归参数的估计1.回归参数估计的最小二乘法原那么(leastsumofsquares)即保证各实测点至回归直线的纵向距离的平方和为最小。回归分析图残差(residual)或剩余值:即实测值Y与假定回归线上的估计值的纵向距离

2.回归参数的估计方法a、b的计算式中lXY为X与Y的离均差乘积的和:步骤1.由原始数据及散点图观察两变量间是否有直线趋势.2.计算根本数据。3、计算有关指标的值4、计算回归系数和截距公式5、列出样本回归方程六、总体回归系数β的统计推断回归方程的假设检验总体回归系数

的置信区间回归分解t检验〔一〕回归方程的假设检验

b≠0原因:

①抽样误差引起,总体回归系数β=0②存在回归关系,总体回归系数β≠0检验方法:1.方差分析

2.t检验

3.以相关系数r的检验代替检验例11-1数据得到的直线回归方程是否成立?

1.方差分析

理解回归中方差分析的根本思想,需要对应变量Y的离均差平方和lYY作分解。Y的离均差,总变异残差回归变异标准误计算最小二乘法数理统计可证明:上式用符号表示为

上述三个平方和,其自由度有如下的关系:

总=

回+

残,

总=n-1,

回=1,

残=n-2如果两变量间总体回归关系确实存在,回归的奉献就要大于随机误差,计算统计量F:方差分析步骤H0:=0,即根底代谢与体重间无线性回归关系H1:≠0,即根底代谢与体重间有线性回归关系=0.05表11-2方差分析表

以1=1,2=12,查F界值表,得F0.01〔1,2〕=9.07,P<0.01。按=0.05水准,拒绝H0,接受H1。可以认为体重与根底代谢之间存在直线回归关系。对

=0这一假设是否成立还可进行t检验2、t检验标准误计算以

查t界值表样本回归系数b的标准误:

回归分解t检验SY.X为的标准误,它反响散点围绕回归直线的离散程度。Sy.x为各观察值Y距回归线纵向〔〕距离的标准差,反映X的影响被扣除后Y的变异,称为标准估计误差〔standarderrorofestimate〕。在直线回归中,各实测值Y与由回归方程计算出的估计值之间是有一定误差的,称为残差或估计误差,即。该误差的离散程度,可用类似求标准差的式子进行计算,即标准估计误差。由于决定于均数及回归系数,所以自由度为n-2。t检验n=14,=12,查t界值表,得P<0.001。按=0.05水准,拒绝H0,接受H1。可以认为健康的中年女性体重与根底代谢之间存在直线回归关系。注意:

,即直线回归中对回归系数的t检验与F检验等价,类似于两样本均数比较既可以作t检验亦可作单因素方差分析。

此直线必然通过点(,),且与纵坐标轴相交于截距a。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易于读数的值代入回归方程得到一个点〔或二个点〕的坐标,连接此点与点(,)也可绘出回归直线。散点图绘制回归直线〔二〕总体回归系数的置信区间利用上述对回归系数的t检验,可以得到β的〔1-α〕双侧置信区间为本例b=61.4229,自由度=12,t0.05/2,12=2.179,Sb=4.881,代入公式,得:总体回归系数β的95%置信区间为:61.4229-2.179×4.881,61.4229-2.179×4.881=〔50.787,72.059〕注意:此区间不包括0,按=0.05水准同样可以得到总体回归系数不为0的结论,即用区间估计法答复取相同时的假设检验问题。决定系数(coefficientofdetermination)

R2为回归平方和与总平方和之比。R2取值在0~1之间,且无单位,其数值大小反映了回归奉献的相对程度,也就是在Y的总变异中由于X与Y之间的回归关系所能解释的Y变异的百分比。如例相关系数r=0.964,得到R2=0.930,表示中年健康女性的体重X可解释其根底代谢Y变异性的93%,另外约7%的Y变异需要通过体重X以外的其它因素来解释。当SS总固定不变时,回归平方和的大小决定了相关系数r绝对值的大小。回归平方和越接近总平方和,那么r绝对值越接近1,说明相关的实际效果越好。六、直线回归应用的本卷须知1.进行回归分析前应绘制散点图①散点图可考察两变量是否有直线趋势;②可发现异常点〔outlier〕。散点图对异常点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据,并检查其产生过程,认定是过失误差或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。2.根据分析目的选择变量及统计方法直线回归用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体外表积。两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归分析。3.资料的要求

直线回归要求至少对于每个X相应的Y要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量;

对于双变量正态分布资料,根据研究目的可选择由X估计Y或者由Y估计X,一般情况下两个回归方程不相同,但无论哪个变量做X或Y,其相关系数是相同的。反响两变量数量上影响大小的统计量应该是回归系数的绝对值,而不是假设检验的P值。P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或X对Y的影响越“显著〞。直线回归用于预测时,其适用范围一般不应超出给定样本中自变量的取值范围。4.结果解释及正确应用

当实际资料不能满足直线回归模型的要求而无法用最小二乘法估计回归方程时,可使用秩回归。5、对同一组资料,b与r正负号相同,且tb=tr。故可用查表法进行r的假设检验来代替b的假设检验。假设x、Y服从双变量正态分布,一般是先作直线相关分析,需要时,再作直线回归分析。七、直线回归方程的应用1.描述因变量Y依赖自变量x变化而变化的数量关系。例如:儿童体重依赖年龄变化而变化的数量关系。2.根据容易测定的变量估计难以测定的变量值。例如:以人的体重估计人的体外表积。3.由变量〔预报因子x〕预测将来未知变量〔预报量Y〕。例如:由父母的身高预测子女将来的身高。4.利用直线回归方程进行统计控制,即利用回归方程进行逆估计。例如:把汽车流量〔x〕与汽车排出的某种毒物〔Y〕建立直线回归方程,假设要求Y在一定的波动范围内〔卫生标准以下〕,可通过控制x的取值来实现。5.进行统计预测。八、直线相关与回归的区别和联系1.区别:1〕分析目的:相关分析研究两变量相关方向及密切程度;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论