直线回归分析严啸PK.ppt_第1页
直线回归分析严啸PK.ppt_第2页
直线回归分析严啸PK.ppt_第3页
直线回归分析严啸PK.ppt_第4页
直线回归分析严啸PK.ppt_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、,04级卫生检验 张高辉 叶思明 严啸 杨磊 于光平,直线回归原理及应用,直线相关分析, 变量之间的关系,直线回归分析, “回归”一词的由来及其生物学意义,“回归”一词最早由Golton(戈尔顿)在一项有关父亲与儿子身高的关系的研究中提出。儿子身高(Y)与父亲身高(X)自然是相关的,他发现身材高大的父亲所生儿子的身高有不少要比父亲矮,而身材矮小的父亲所生儿子的身高有不少要比父亲高。进一步研究表明:虽然高个子的父亲常生高个子的儿子,但儿子身高超过父亲的概率要小于比父亲矮的概率;同样,虽然矮个子的父亲常生矮个子的儿子,但儿子身高比父亲更矮的概率要小于比父亲高的概率。也就是说不可能无限制的一代比一代

2、高,或一代比一代矮。后代的高度有向人群中个体的平均高度“回归”的趋势;离开均值越远,所受到回归的压力也越大。,直线回归分析,无论是身材高还是身材矮的父亲所生儿子的身高都有向人群的平均身高“回归”的趋势,这就是回归的生物学含义。后来人们借用“回归”这个词来描述通过自变量(independent variable)的数值预测因变量(dependent variable)的平均水平。即通过可测或易测的变量对未知或难测或不可测变量的状态进行估计叫做回归分析(regression analysis)。,F. Galton, “回归”一词的由来及其生物学意义,直线回归分析,这项研究由 FGalton(18

3、221911 年)和他的学生、现代统计学的奠基者之一KPearson(18561936 年)在研究父母身高与其子女身高的遗传问题时,观察了1078 对夫妇,以每对夫妇中父亲的身高作为解释变量X,而取他们的一个成年儿子的身高作为被解释变量Y(应变量),将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。计算出的回归直线方程为 :,F. Galton K.Pearson, “回归”一词的由来及其生物学意义,Galton数据散点图(英寸),指根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法,直线回归分析,回归分析的种类,S

4、imple Linear regression, 直线回归分析的基本概念,直线回归分析,对于经判断具有线性关系的两个变量y与x,构造一元线性回归模型为:,假定E()=0,有总体一元线性回归方程:, 一元线性回归模型(直线回归模型),直线回归分析,Y 应变量,响应变量 (dependent variable, response variable) X 自变量,解释变量 (independent variable, explanatory variable) b 回归系数 (regression coefficient, slope) a 截距 (intercept,constant), 样本线性

5、回归模型的几个概念,直线回归分析,总体 样本 “Y hat”表示估计值,给定x时y的条件均数的估计值。,直线回归分析, 总体与样本一元线性回归模型,总体一元线性回归方程:,样本一元线性回归方程:,以样本统计量估计总体参数,截距a 表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b 表明自变量x每变动一个单位,因变量y平均变动b个单位。, 总体与样本一元线性回归模型,直线回归分析,直线回归分析,几何意义 a 0: 回归线与纵轴交点在原点上方。 a 0: 回归线与纵轴交点在原点下方。 a =0: 回归线通过原点。 统计学意义 a 表示自变量X取值为0时相应Y条件均数的估计值。

6、 a的单位与Y值相同 当X可能取0时,a才有实际意义。, 线性回归模型中参数的几何意义,截距a:,直线相关分析,回归系数:, 线性回归模型中参数的几何意义,直线回归分析,b表示自变量X变化一个单位时应变量Y的平均改变量。,b越大,表示Y随X变化越快,直线越陡峭,线性 LINEARITY: 反应变量均数 与X间呈直线关系 Y|X= + X,给定X时,Y正态分布(normal): 对于任何给定的 X, Y 服从正态分布,均数为 Y|X,标准差为 Y|X,该条件实际隐含着误差项服从正态分布(随机误差,即残差服从均值为零,方差为的正态分布)。, 线性回归模型的建模假设,直线回归分析,直线回归分析,等方

7、差(equal variance)或标准差相等:对于任何X值,随机变量Y的标准差 Y|X相等;隐含着不论x取何值,y都具有相同的方差(对于所有的自变量x,残差 的条件方差为 ,且为常数)。 独立 INDEPENDENCE 每一观察值之间彼此独立(在给定自变量x的条件下,残差的条件期望值为零,本假设又称零均值假设);该条件实际上隐含着:各随机误差项互不相关;随机误差项与相应的自变量x不相关。,例题:某医生研究儿童体重与心脏横径的关系,测得13名8岁正常男童的体重与心脏横径,数据见下表。试作回归分析。, 直线回归分析的步骤,直线回归分析,1 绘制散点图:在直角坐标系内绘制散点图。 若散点图呈直线趋

8、势时,建立直线回归方程; 若散点图呈曲线趋势,进行曲线拟合; 若散点图显示无任何趋势,则不必进行分析。,本例,散点图呈直线趋势时,可建立直线回归方程。, 直线回归分析的步骤,直线回归分析,2 建立直线回归方程,实际上是求出回归方程中的回归系数b和截距a:,求回归系数b和截距a的方法有最小二乘法、高斯牛顿法、麦夸特法、牛顿法、梯度法、正割法等等。这里重点给大家介绍最小二乘法。,从上图得知,要使 能够最好地代表y和x在数量上的互变关系,必须使,y,x,0,xi,直线回归分析, 直线回归分析的步骤,2 建立直线回归方程,最小二乘法的基本原理:, 直线回归分析的步骤,直线回归分析,2 建立直线回归方程

9、,回归方程为,故, 直线回归分析的步骤,直线回归分析,3 绘制回归线,如右图,直线回归分析, 直线回归分析的步骤,4 回归系数的假设检验,根据抽样分布原理,即使从Y与X的总体回归系数为0的总体中随机取样,由于抽样误差的存在,其样本回归系数也不一定为0。因此,由样本资料所求得的回归方程是否成立,即Y与X间的直线关系是否存在,是直线回归分析中要考虑的重要问题。统计学中通过对回归方程进行假设检验来回答这一问题。检验方法有方差分析和t检验两种。,总体 0,总体 0,样本 b0,两变量有 直线关系,两变量无 直线关系,?,?,直线回归分析, 直线回归分析的步骤,4 回归系数的假设检验,直线回归分析, 直

10、线回归分析的步骤,4 回归系数的假设检验方差分析法,Y总变异的分解,(1)建立假设,确定 H0:=0,即两变量无直线关系 H1:0,即两变量有直线关系 =0.05,(2)求统计量F,直线回归分析, 直线回归分析的步骤,4 回归系数的假设检验方差分析法,(2)求统计量F,直线回归分析, 直线回归分析的步骤,4 回归系数的假设检验方差分析法,(2)求统计量F,三个平方和的意义:,直线回归分析, 直线回归分析的步骤,4 回归系数的假设检验方差分析法,(2)求统计量F,,,直线回归分析, 直线回归分析的步骤,4 回归系数的假设检验方差分析法,(3).确定P值,做出统计推断,查方差分析用的F界值表,得P

11、0.01,按=0.05水准拒绝H0,接受H1,认为8岁健康男童心脏横径与体重之间存在直线关系。,直线回归分析, 直线回归分析的步骤,4 回归系数的假设检验t 检验法,(2)求统计量t,(3)确定P值,做出结论,查t界值表,得到P0.05,两种方法的等价性:,直线回归分析, 直线回归分析的步骤,5 直线回归方程拟合效果评价,直线回归分析, 直线回归分析的步骤,6 直线回归方程的区间估计,直线回归分析, 直线回归分析的步骤,6 直线回归方程的区间估计,(1) 总体回归系数和总体截距的可信区间估计,本例:,总体回归系数的95%的可信区间为(0.1276, 0.3440),本例:,总体截距的95%的可

12、信区间为(-15.2341, 1.2735),直线回归分析, 直线回归分析的步骤,6 直线回归方程的区间估计,(2) 总体均数 的可信区间估计,直线回归分析, 直线回归分析的步骤,6 直线回归方程的区间估计,(2) 总体均数 的可信区间估计,直线回归分析, 直线回归分析的步骤,6 直线回归方程的区间估计,(3) 个体Y值的预测区间,直线回归分析, 直线回归分析的步骤,6 直线回归方程的区间估计,(3) 个体Y值的预测区间,直线回归分析, 直线回归分析的步骤,6 直线回归方程的区间估计,总体均数 的可信 区间与个体Y值的预测 区间的比较,直线回归分析, 直线回归分析的注意事项,1.作回归分析要有

13、实际意义,不能把毫无关联的两种现象,随意进行回归分析,忽视事物现象间的内在联系和规律;如对儿童身高与小树的生长数据进行回归分析既无道理也无用途。另外,即使两个变量间存在回归关系时,也不一定是因果关系,必须结合专业知识作出合理解释和结论。 2直线回归分析的资料,一般要求应变量Y是来自正态总体的随机变量,自变量X可以是正态随机变量,也可以是精确测量和严密控制的值。若稍偏离要求时,一般对回归方程中参数的估计影响不大,但可能影响到标准差的估计,也会影响假设检验时P值的真实性。 3进行回归分析时,应先绘制散点图(scatter plot)。若提示有直线趋势存在时,可作直线回归分析;若提示无明显线性趋势,

14、则应根据散点分布类型,选择合适的曲线模型(curvilinear modal),经数据变换后,化为线性回归来解决。一般说,不满足线性条件的情形下去计算回归方程会毫无意义,最好采用非线性回归方程的方法进行分析。,直线回归分析,4绘制散点图后,若出现一些特大特小的离群值(异常点),则应及时复核检查,对由于测定、记录或计算机录入的错误数据,应予以修正和剔除。否则,异常点的存在会对回归方程中的系数a、b的估计产生较大影响。 5回归直线不要外延。直线回归的适用范围一般以自变量取值范围为限,在此范围内求出的估计值称为内插(interpolation);超过自变量取值范围所计算的称为外延(extrapola

15、tion)。若无充足理由证明,超出自变量取值范围后直线回归关系仍成立时,应该避免随意外延。, 直线回归分析的注意事项,直线回归分析, 直线回归分析的应用,(一)定量描述两变量之间的依存关系 对回归系数b进行假设检验时,若, 可认为两变量间存在直线回归关系,则直线回归方程即为两个变量间依存关系的定量表达式。 (二)利用回归方程进行预测 把预报因子(即自变量x)代入回归方程对预报量(即因变量Y)进行估计,即可得到个体Y值的容许区间。例10.4的结果即体重为25.0kg的8岁健康男童,估计其心脏横径有95%的可能性在(8.6692,9.9610)cm的范围内。 (三)利用回归方程进行统计控制 规定Y值的变化,通过控制X的范围来实现统计控制的目标,所以统计控制是利用回归方程进行的逆估计。,直线回归分析,例 某市环境监测站在某交通点连续测定30天,每天定时采样3次,发现大气中NO2浓度Y(mg/m3)与当时的汽车流量X(辆/小时)呈直线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论