直线回归分析严啸_第1页
直线回归分析严啸_第2页
直线回归分析严啸_第3页
直线回归分析严啸_第4页
直线回归分析严啸_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

直线相关分析变量之间的关系第1页/共44页第一页,共45页。直线回归分析“回归”一词的由来及其生物学意义

“回归”一词最早由Golton(戈尔顿)在一项有关父亲与儿子身高的关系的研究中提出。儿子身高(Y)与父亲身高(X)自然是相关的,他发现身材高大的父亲所生儿子的身高有不少要比父亲矮,而身材矮小的父亲所生儿子的身高有不少要比父亲高。进一步研究表明:虽然高个子的父亲常生高个子的儿子,但儿子身高超过父亲的概率要小于比父亲矮的概率;同样,虽然矮个子的父亲常生矮个子的儿子,但儿子身高比父亲更矮的概率要小于比父亲高的概率。也就是说不可能无限制的一代比一代高,或一代比一代矮。后代的高度有向人群中个体的平均高度“回归”的趋势;离开均值越远,所受到回归的压力也越大。第2页/共44页第二页,共45页。直线回归分析

无论是身材高还是身材矮的父亲所生儿子的身高都有向人群的平均身高“回归”的趋势,这就是回归的生物学含义。后来人们借用“回归”这个词来描述通过自变量(independentvariable)的数值预测因变量(dependentvariable)的平均水平。即通过可测或易测的变量对未知或难测或不可测变量的状态进行估计叫做回归分析(regressionanalysis)。

F.Galton“回归”一词的由来及其生物学意义第3页/共44页第三页,共45页。直线回归分析

这项研究由

F·Galton(1822——1911年)和他的学生、现代统计学的奠基者之一K·Pearson(1856——1936年)在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇中父亲的身高作为解释变量X,而取他们的一个成年儿子的身高作为被解释变量Y(应变量),将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。计算出的回归直线方程为:

F.GaltonK.Pearson“回归”一词的由来及其生物学意义Galton数据散点图(英寸)第4页/共44页第四页,共45页。指根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法直线回归分析第5页/共44页第五页,共45页。回归分析的种类一元回归(简单回归)多元回归(复回归)线性回归非线性回归一元线性回归SimpleLinearregression按自变量的个数分⒈按回归曲线的形态分⒉第6页/共44页第六页,共45页。直线回归分析的基本概念直线回归分析第7页/共44页第七页,共45页。对于经判断具有线性关系的两个变量y与x,构造一元线性回归模型为:假定E()=0,有总体一元线性回归方程:一元线性回归模型(直线回归模型)直线回归分析第8页/共44页第八页,共45页。

Y应变量,响应变量

(dependentvariable,responsevariable)X自变量,解释变量

(independentvariable,explanatoryvariable)b回归系数

(regressioncoefficient,slope)a截距

(intercept,constant)样本线性回归模型的几个概念直线回归分析第9页/共44页第九页,共45页。总体样本“Yhat”表示估计值,给定x时y的条件均数的估计值。直线回归分析总体与样本一元线性回归模型第10页/共44页第十页,共45页。总体一元线性回归方程:样本一元线性回归方程:以样本统计量估计总体参数斜率(回归系数)截距截距a表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b表明自变量x每变动一个单位,因变量y平均变动b个单位。(要估计的回归方程)(实际计算的回归方程)总体与样本一元线性回归模型直线回归分析第11页/共44页第十一页,共45页。随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。直线回归分析第12页/共44页第十二页,共45页。几何意义a>0:回归线与纵轴交点在原点上方。a<0:回归线与纵轴交点在原点下方。a=0:回归线通过原点。统计学意义a表示自变量X取值为0时相应Y条件均数的估计值。a的单位与Y值相同当X可能取0时,a才有实际意义。线性回归模型中参数的几何意义截距a:直线相关分析第13页/共44页第十三页,共45页。XY回归系数:线性回归模型中参数的几何意义直线回归分析b表示自变量X变化一个单位时应变量Y的平均改变量。|b|越大,表示Y随X变化越快,直线越陡峭第14页/共44页第十四页,共45页。线性LINEARITY:

反应变量均数与X间呈直线关系Y|X=α+X

给定X时,Y正态分布(normal):对于任何给定的X,Y服从正态分布,均数为Y|X,标准差为Y|X,该条件实际隐含着误差项服从正态分布(随机误差,即残差服从均值为零,方差为2的正态分布)。

线性回归模型的建模假设直线回归分析第15页/共44页第十五页,共45页。直线回归分析

等方差(equalvariance)或标准差相等:对于任何X值,随机变量Y的标准差Y|X相等;隐含着不论x取何值,y都具有相同的方差(对于所有的自变量x,残差的条件方差为2,且为常数)。独立INDEPENDENCE

每一观察值之间彼此独立(在给定自变量x的条件下,残差的条件期望值为零,本假设又称零均值假设);该条件实际上隐含着:各随机误差项互不相关;随机误差项与相应的自变量x不相关。

第16页/共44页第十六页,共45页。例题:某医生研究儿童体重与心脏横径的关系,测得13名8岁正常男童的体重与心脏横径,数据见下表。试作回归分析。

编号体重(kg,X)心脏横径(cm,Y)125.59.2219.57.8324.09.4420.58.6525.09.0622.08.8721.59.0823.59.4926.59.71023.58.81122.08.51220.08.21328.09.9第17页/共44页第十七页,共45页。直线回归分析的步骤直线回归分析1绘制散点图:在直角坐标系内绘制散点图。①若散点图呈直线趋势时,建立直线回归方程;②若散点图呈曲线趋势,进行曲线拟合;③若散点图显示无任何趋势,则不必进行分析。本例,散点图呈直线趋势时,可建立直线回归方程。第18页/共44页第十八页,共45页。直线回归分析的步骤直线回归分析2建立直线回归方程实际上是求出回归方程中的回归系数b和截距a:求回归系数b和截距a的方法有最小二乘法、高斯牛顿法、麦夸特法、牛顿法、梯度法、正割法等等。这里重点给大家介绍最小二乘法。第19页/共44页第十九页,共45页。从上图得知,要使能够最好地代表y和x在数量上的互变关系,必须使yx0xiyi(yi-)实际观察值与估计值之差直线回归分析直线回归分析的步骤2建立直线回归方程最小二乘法的基本原理:第20页/共44页第二十页,共45页。直线回归分析的步骤直线回归分析2建立直线回归方程回归方程为

故第21页/共44页第二十一页,共45页。直线回归分析的步骤直线回归分析3绘制回归线

如右图第22页/共44页第二十二页,共45页。直线回归分析直线回归分析的步骤4回归系数的假设检验

根据抽样分布原理,即使从Y与X的总体回归系数为0的总体中随机取样,由于抽样误差的存在,其样本回归系数也不一定为0。因此,由样本资料所求得的回归方程是否成立,即Y与X间的直线关系是否存在,是直线回归分析中要考虑的重要问题。统计学中通过对回归方程进行假设检验来回答这一问题。检验方法有方差分析和t检验两种。第23页/共44页第二十三页,共45页。总体β=0总体β≠0样本b≠0两变量有直线关系两变量无直线关系??直线回归分析直线回归分析的步骤4回归系数的假设检验

第24页/共44页第二十四页,共45页。直线回归分析直线回归分析的步骤4回归系数的假设检验——方差分析法

Y总变异的分解(1)建立假设,确定H0:=0,即两变量无直线关系H1:0,即两变量有直线关系=0.05(2)求统计量F第25页/共44页第二十五页,共45页。直线回归分析直线回归分析的步骤4回归系数的假设检验——方差分析法

(2)求统计量F第26页/共44页第二十六页,共45页。直线回归分析直线回归分析的步骤4回归系数的假设检验——方差分析法

(2)求统计量F三个平方和的意义:第27页/共44页第二十七页,共45页。直线回归分析直线回归分析的步骤4回归系数的假设检验——方差分析法

(2)求统计量F,

第28页/共44页第二十八页,共45页。直线回归分析变异来源SSMSFP总4.192312回归3.344413.344443.39<0.01剩余0.8479110.0771直线回归分析的步骤4回归系数的假设检验——方差分析法(3).确定P值,做出统计推断查方差分析用的F界值表,得P<0.01,按=0.05水准拒绝H0,接受H1,认为8岁健康男童心脏横径与体重之间存在直线关系。

第29页/共44页第二十九页,共45页。直线回归分析直线回归分析的步骤4回归系数的假设检验——t检验法

(2)求统计量t(3)确定P值,做出结论查t界值表,得到P<0.05两种方法的等价性:,第30页/共44页第三十页,共45页。直线回归分析直线回归分析的步骤5直线回归方程拟合效果评价第31页/共44页第三十一页,共45页。直线回归分析直线回归分析的步骤6直线回归方程的区间估计第32页/共44页第三十二页,共45页。直线回归分析直线回归分析的步骤6直线回归方程的区间估计(1)总体回归系数和总体截距的可信区间估计本例:总体回归系数的95%的可信区间为(0.1276,0.3440)本例:总体截距的95%的可信区间为(-15.2341,1.2735)第33页/共44页第三十三页,共45页。直线回归分析直线回归分析的步骤6直线回归方程的区间估计(2)总体均数的可信区间估计

第34页/共44页第三十四页,共45页。直线回归分析直线回归分析的步骤6直线回归方程的区间估计(2)总体均数的可信区间估计

第35页/共44页第三十五页,共45页。直线回归分析直线回归分析的步骤6直线回归方程的区间估计(3)个体Y值的预测区间

第36页/共44页第三十六页,共45页。直线回归分析直线回归分析的步骤6直线回归方程的区间估计(3)个体Y值的预测区间

第37页/共44页第三十七页,共45页。直线回归分析直线回归分析的步骤6直线回归方程的区间估计总体均数的可信区间与个体Y值的预测区间的比较

第38页/共44页第三十八页,共45页。直线回归分析直线回归分析的注意事项1.作回归分析要有实际意义,不能把毫无关联的两种现象,随意进行回归分析,忽视事物现象间的内在联系和规律;如对儿童身高与小树的生长数据进行回归分析既无道理也无用途。另外,即使两个变量间存在回归关系时,也不一定是因果关系,必须结合专业知识作出合理解释和结论。2.直线回归分析的资料,一般要求应变量Y是来自正态总体的随机变量,自变量X可以是正态随机变量,也可以是精确测量和严密控制的值。若稍偏离要求时,一般对回归方程中参数的估计影响不大,但可能影响到标准差的估计,也会影响假设检验时P值的真实性。3.进行回归分析时,应先绘制散点图(scatterplot)。若提示有直线趋势存在时,可作直线回归分析;若提示无明显线性趋势,则应根据散点分布类型,选择合适的曲线模型(curvilinearmodal),经数据变换后,化为线性回归来解决。一般说,不满足线性条件的情形下去计算回归方程会毫无意义,最好采用非线性回归方程的方法进行分析。第39页/共44页第三十九页,共45页。直线回归分析4.绘制散点图后,若出现一些特大特小的离群值(异常点),则应及时复核检查,对由于测定、记录或计算机录入的错误数据,应予以修正和剔除。否则,异常点的存在会对回归方程中的系数a、b的估计产生较大影响。5.回归直线不要外延。直线回归的适用范围一般以自变量取值范围为限,在此范围内求出的估计值称为内插(interpolation);超过自变量取值范围所计算的称为外延(extrapolation)。若无充足理由证明,超出自变量取值范围后直线回归关系仍成立时,应该避免随意外延。

直线回归分析的注意事项第40页/共44页第四十页,共45页。直线回归分析直线回归分析的应用(一)定量描述两变量之间的依存关系对回归系数b进行假设检验时,若,可认为两变量间存在直线回归关系,则直线回归方程即为两个变量间依存关系的定量表达式。(二)利用回归方程进行预测

把预报因子(即自变量x)代入回归方程对预报量(即因变量Y)进行估计,即可得到个体Y值的容许区间。例10.4的结果即体重为25.0kg的8岁健康男童,估计其心脏横径有95%的可能性在(8.6692,9.9610)cm的范围内。(三)利用回归方程进行统计控制规定Y值的变化,通过控制X的范围来实现统计控制的目标,所以统计控制是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论