《直线回归》 (2)ppt课件_第1页
《直线回归》 (2)ppt课件_第2页
《直线回归》 (2)ppt课件_第3页
《直线回归》 (2)ppt课件_第4页
《直线回归》 (2)ppt课件_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、回归分析:回归分析: 研讨一个变量对另一个变量的单向研讨一个变量对另一个变量的单向依存关系,即研讨一个变量随另一个变依存关系,即研讨一个变量随另一个变量变化而变化的规律。量变化而变化的规律。 后一个变量叫自变量,前一个变量叫后一个变量叫自变量,前一个变量叫依变量或应变量。依变量或应变量。回归的景象:回归的景象: 生物的各性状之间以及性状与环境条件生物的各性状之间以及性状与环境条件之间都有着一定的相互关系。改动某一性状,之间都有着一定的相互关系。改动某一性状,就会引起另一性状也发生变异。就会引起另一性状也发生变异。例如:奶牛的产奶量越高,乳脂率反而减少。例如:奶牛的产奶量越高,乳脂率反而减少。

2、猪、鸡的生长速度越快,肉质和风味猪、鸡的生长速度越快,肉质和风味下降。下降。 母猪的体重越大,仔猪出生重越大。母猪的体重越大,仔猪出生重越大。一元线性回归的含义要点:一元线性回归的含义要点:1 1 研讨两个变量之间的回归关系。研讨两个变量之间的回归关系。2 2 当一个变量数值增大时,另一个变量当一个变量数值增大时,另一个变量 数值也随着增大或减少。这种增大数值也随着增大或减少。这种增大或或 减少以坐标的方式来表示,散点图减少以坐标的方式来表示,散点图形形 呈直线的趋势。呈直线的趋势。自变量自变量x因因变变量量y代表散点代表散点 两变量的回归分析,假设两变量关系呈两变量的回归分析,假设两变量关系

3、呈直线趋势,那么需求找出一条直线,建立回直线趋势,那么需求找出一条直线,建立回归方程来代表他们的线性关系,从而能从一归方程来代表他们的线性关系,从而能从一个变量的变化来估测另一个变量的详细变化。个变量的变化来估测另一个变量的详细变化。直线直线回归回归配合回配合回归方程归方程 yabx=+由由x的变化估的变化估测测 y的变化的变化一一 一元线性回归的数学模型一元线性回归的数学模型 假设变量假设变量X和变量和变量Y之间存在线性函数关系,可之间存在线性函数关系,可用如下方程表示:用如下方程表示:()iiYabXXYXY=+,对于 的每一个取值, 都有一个确定的值与之对应。( )E YXab=+个单位

4、。变化变化一个单位,可期望含义:当的回归系数。对:斜率,称为YXXY 在线性回归关系中,对于在线性回归关系中,对于X的每一个取值,的每一个取值,Y的取值是不确定的取值是不确定的。但是,我们假定有一个的。但是,我们假定有一个Y的期望值与之对应,或者说的期望值与之对应,或者说Y的期望的期望值与值与X之间存在线性函数关系:之间存在线性函数关系:截截距距YX:下标的第一个为依变量;第二个为自变量:下标的第一个为依变量;第二个为自变量回归参数回归参数2( )(0,)iiiiiiYE YeXeeNabs=+=+自变量自变量x因因变变量量y 当两个变量间存在直线回归关系时,其数据当两个变量间存在直线回归关系

5、时,其数据的散点在坐标图上趋近于一条直线。回归直线那的散点在坐标图上趋近于一条直线。回归直线那么是在一切直线中最接近一切散点的直线。么是在一切直线中最接近一切散点的直线。 二二 一元线性回归方程的建立一元线性回归方程的建立 或者说,这条直线来代表两个变量的关系,或者说,这条直线来代表两个变量的关系,与实践数据的误差比任何其他直线都要小,即它与实践数据的误差比任何其他直线都要小,即它是一条对各散点配合的最好直线。是一条对各散点配合的最好直线。 为了找到这样一条直线,配合的最好方法是为了找到这样一条直线,配合的最好方法是“最小二乘法最小二乘法自变量自变量x因因变变量量y1 1 “最小二乘法配合的回

6、归直线,要求最小二乘法配合的回归直线,要求符合下述一些条件:符合下述一些条件:()0iiYY-= 即要求所配合的直线上即要求所配合的直线上方各点与直线的间隔和,同方各点与直线的间隔和,同直线下方各点与直线的间隔直线下方各点与直线的间隔和相等。和相等。 间隔:指实践间隔:指实践y与由直线方与由直线方程所估测的程所估测的 之间的间隔之间的间隔,称为估计误差称为估计误差.Yy y y y iiYabX=+P1P3P2P4代表实践代表实践Yi值值1代表代表y的估计值的估计值iiYabX=+1 1 “最小二乘法配合的回归直线,要求最小二乘法配合的回归直线,要求符合下述一些条件:符合下述一些条件:()0i

7、iYY-= 最好的直线是使总最好的直线是使总的估计误差到达最小的的估计误差到达最小的直线直线, ,由于估计误差有由于估计误差有正负正负, ,我们不能用估计我们不能用估计误差之和作为度量目的误差之和作为度量目的. .y y y y iiYabX=+P1P3P2P4代表实践代表实践Yi值值1代表代表y的估计值的估计值iiYabX=+22()QYY=-最小 即要求各点实践即要求各点实践y值与回归直线所估测的值与回归直线所估测的 值之间离差的平方和最小,或者说从值之间离差的平方和最小,或者说从 估估计计Y值的误差平方和最小,值的误差平方和最小, 这种使估计误差平方和达最小的参数估这种使估计误差平方和达

8、最小的参数估计方法称为最小二乘法。计方法称为最小二乘法。Y3直线能代表普通情况直线能代表普通情况 即直线要经过即直线要经过 两直线的交点两直线的交点 。X Y、Y()X Y、如何求如何求a和和b? 任何一条直线都能用任何一条直线都能用 表示,因表示,因此只需确定了此只需确定了a和和b,就可决议直线的位置。,就可决议直线的位置。iYabX=+那么如何求那么如何求a和和b呢呢?利用利用2()iiQYY=-最小222()()()QYYYabXYabX=-=-+=-邋所以称为所以称为“最小二乘最小二乘方法方法根据数学中求极值的原理,要使上面的式子根据数学中求极值的原理,要使上面的式子为最小,必需使为最

9、小,必需使a、b的微分方程都等于零。的微分方程都等于零。依次求依次求Q关于关于 a和和b的一阶偏导数,并令偏导的一阶偏导数,并令偏导数等于数等于0,得如下方程:,得如下方程:2()(1)0iiQYbXaa=- -=2()0iiiQYbXaXb=-=()iinaXbY+=邋2()()iiiiX aXbX Y+=邋正正规规方方程程组组解上述方程组得:解上述方程组得:2()()()iiXYXiXXYYSPbSSXX-=-aYbX=-iiYabX=+得直线回归方程:得直线回归方程:由由X估测估测Y样本回归系数样本回归系数(1) a为截距为截距constant),即,即X=0 时的时的Y 值。值。(2)

10、 b为斜率,在统计学中称为样本回归系数为斜率,在统计学中称为样本回归系数(regression coefficient)。(3) b为正值,那么为正值,那么X增大,增大,Y也随之增大;也随之增大;(4) b为负值,那么为负值,那么X增大,增大,Y却随之减少。却随之减少。(5) b=0,X与与Y不存在线性关系。不存在线性关系。 ,XXYYX Y=,回归直线通过()点iiYabX=+2 回归系数的计算公式:回归系数的计算公式:2()()()iiXYYXXiXXYYSPbSSXX-=-byx留意下脚标留意下脚标下脚标:前面字母代表依变量下脚标:前面字母代表依变量 后面字母代表自变量后面字母代表自变量

11、回归系数的性质回归系数的性质1x与与y各察看值加或减一常数,回归系各察看值加或减一常数,回归系数不变。数不变。2x与与y各察看值乘或除一常数,回归系各察看值乘或除一常数,回归系数应数应 校正。校正。 x=x/k y=y/c byx =byx*c/k例:根据例:根据10只绵羊的胸围只绵羊的胸围cm和体和体重重kg的资料,配合由胸围估计体的资料,配合由胸围估计体重的回归方程。重的回归方程。22()220 (20)1020101231632.5469(/)64104iiiXYiinyxXinX YSPxybSSxXkg cm -邋-=-=-2070721020706810682.546972115.

12、3769XYaYbX=+=-=+=-=-= -得回归方程:得回归方程:115.37682.5469YabXX=+= -+ 回归系数是有单位的,是依变量单位与自变回归系数是有单位的,是依变量单位与自变量单位的比值。量单位的比值。 上例中表示由胸围估计体重时,胸围每添加上例中表示由胸围估计体重时,胸围每添加或减少或减少1cm,那么体重在,那么体重在-115.3768的根底上平均的根底上平均添加或减少添加或减少2.5469kg。 回归方程是有一定范围的,限在自变量的回归方程是有一定范围的,限在自变量的最小值和最大值之间。最小值和最大值之间。 不能恣意的扩展自变量的范围或者把回归曲不能恣意的扩展自变量

13、的范围或者把回归曲线向两端恣意延伸。线向两端恣意延伸。 由于一旦超出这个范围,两变量之间的关系由于一旦超出这个范围,两变量之间的关系就不一定是线性的了。就不一定是线性的了。三三 回归关系的显著性检验回归关系的显著性检验 回归方程在一定程度上提示了两个相关变量之回归方程在一定程度上提示了两个相关变量之间的内在规律。间的内在规律。 由样本察看值配合的回归方程,必需经过假设检由样本察看值配合的回归方程,必需经过假设检验,来确定它的效果如何,方程所提示的规律性能验,来确定它的效果如何,方程所提示的规律性能否强,估测的准确性如何;或者说否强,估测的准确性如何;或者说Y能否对能否对X确实确实有线性回归关系

14、。有线性回归关系。 由样本推断总体由样本推断总体 全部察看值的总变异:全部察看值的总变异:1 1 对回归方程的对回归方程的 F F 检验检验2()YiSSYY=- 总变异由两部分组成总变异由两部分组成: 一种是由自变量的不同引起的一种是由自变量的不同引起的; 另一种是由随机误差引起的。另一种是由随机误差引起的。 所以,对总变异进展剖分。所以,对总变异进展剖分。 任一点任一点 PXi ,Yi在回归直线的估在回归直线的估计值的离均差都可以分解为:计值的离均差都可以分解为:()()()iiiiiiYYYYYY-=-+-y y y yYabX=+Px,yY()YY-()YY-ABC()()()iiii

15、iiYYYYYY-=-+- 对上面的式子两端平方,然后对一切对上面的式子两端平方,然后对一切n点求和,得。点求和,得。2222()()()()()2()()YYYYYYYYYYYY YY-=-+-=-+-+-邋邋=0222()()()YYYYYY-=-+-邋TERSSSSSS=+2()YY-回归平方和,记作回归平方和,记作SSR SSR是估计值与依变量总均数之差的平方和;是估计值与依变量总均数之差的平方和; 可以看作总变异中由于自变量可以看作总变异中由于自变量x的取值变化而的取值变化而引起依变量引起依变量y变化的部分;变化的部分; 反映了反映了Y总变异中由于总变异中由于X与与Y的线性关系,而引

16、的线性关系,而引起的起的Y变化部分。变化部分。 这部分变异可以经过控制这部分变异可以经过控制X值而防止。值而防止。222()()()YYYYYY-=-+-邋2()YY-离回归平方和或误差平离回归平方和或误差平方和,记作方和,记作SSE它是它是y y各察看值与估计值之差的平方和;各察看值与估计值之差的平方和;它与自变量它与自变量x x的大小无关,是根据回归方程的大小无关,是根据回归方程进展估计时,存在估计误差呵斥的;进展估计时,存在估计误差呵斥的;它是除了它是除了 X X对对Y Y的线性影响之外的一切要素的线性影响之外的一切要素包括包括X X对对Y Y的非线性影响以及观测误差的非线性影响以及观测

17、误差对对Y Y变异的作用。变异的作用。平方和的计算公式:平方和的计算公式:2222222222()2()()()()()()()()()RXYxynxXnabXYYbXbXYbXXbXX YYXX YYSSYYbSxyXXPSxb S=+-=-+-=-=-邋-=-=-=邋邋22()2()YYnSSYYY=-=-邋EYRSSSSSS=- 回归方程效果的好坏取决于回归方程效果的好坏取决于SSR和和SSE,或者,或者说取决于说取决于SSR在总平方和中所占的比例,这个比在总平方和中所占的比例,这个比例越大,回归的效果越好。由例越大,回归的效果越好。由 X估计估计Y的准确性的准确性越高。越高。Y Y变量

18、的总自在度:变量的总自在度: dfT=n-1dfT=n-1回归自在度对应于自变量的个回归自在度对应于自变量的个数,由于受一个自变量的影响,数,由于受一个自变量的影响,所以:所以:dfR=1dfR=1误差自在度:误差自在度:dfE=n-2dfE=n-2列方差分析表:列方差分析表:例:以上题为例例:以上题为例根据根据10只绵羊的胸围只绵羊的胸围cm和体重和体重kg的资料,做回归方程的显著的资料,做回归方程的显著性检验。性检验。1 H0:b=0,或者绵羊的胸围与体重,或者绵羊的胸围与体重之间不存之间不存 在线性回归关系。在线性回归关系。 HA:b0,或者绵羊的胸围与体,或者绵羊的胸围与体重之间存在重

19、之间存在 线性回归关系。线性回归关系。2()222()(1)( 20)61857810YYynSSyySnY=-=-=-=-=邋2 求平方和和自在度求平方和和自在度222()220( 20) 2210212020()123163415.140()664104xynxnRXYXxySSYYbSxPb SS-邋-=-=-=-578415.1406162.8594EyRSSSSSS=-=-=110 19121028TREdfndfdfn=- =- =-=-=0.050.01415.140620.357420.3926*(1,8)5.32(1,8)11.259RRREEERESSMSdfSSMSdfM

20、SFMSFF=列回归关系方差分析表:列回归关系方差分析表:结论:结论: 绵羊体重对胸围的回归关系显著,阐明两者绵羊体重对胸围的回归关系显著,阐明两者有线性关系存在。有线性关系存在。回想相关关系检验结果回想相关关系检验结果统计推断:统计推断: 接受备择假设,以为接受备择假设,以为r是高度显著的,是高度显著的,即阐明绵羊的胸围与体重的相关非常显著。即阐明绵羊的胸围与体重的相关非常显著。2 2 对回归系数和截距的对回归系数和截距的t t检验检验目的:目的: 确定样本回归系数是来自无回归关系的双变确定样本回归系数是来自无回归关系的双变量总体,还是来自有回归关系的双变量总体。量总体,还是来自有回归关系的

21、双变量总体。 确定回归直线能否经过原点。确定回归直线能否经过原点。0?bba=;0:0,0;:0,0;2;2AbbaaHHbbtdfnSSaatdfnSSbaabba=构-=-=-例:以上题为例例:以上题为例 根据根据10只绵羊的胸围只绵羊的胸围cm和和体重体重kg的资料,做回归系数和的资料,做回归系数和截距的显著性检验。截距的显著性检验。1 假设:假设: H0:=0,绵羊的胸围与体重之,绵羊的胸围与体重之间不间不 存在线性回归关系。存在线性回归关系。 =0,回归直线经过原点。,回归直线经过原点。 HA:0,绵羊的胸围与体重之,绵羊的胸围与体重之间存间存 在线性回归关系。在线性回归关系。 0,

22、回归直线不经过原点。,回归直线不经过原点。2、确定显著性程度、确定显著性程度=0.05和和=0.013、确定检验统计量、确定检验统计量-t检验检验 2()22.5469644.5159*20.357421028XYYbnbSSbtSdfn-=-=-=0.050.01(8)2.306(8)3.355tt=统计推断:接受备择假设,以为统计推断:接受备择假设,以为b是高度显著的,是高度显著的,回归方程的效果显著。回归方程的效果显著。2221()()1220.3574 ()1.81881064aEXSMSnXX= +-=+=115.376863.441.818821028aatSdfn=-=-=0.0

23、50.01(8)2.306(8)3.355tt=统计推断:接受备择假设,以为统计推断:接受备择假设,以为a是高度显著的,是高度显著的,回归方程不经过原点。回归方程不经过原点。四回归方程的拟合度四回归方程的拟合度-决议系数决议系数R2 配合回归方程的过程也称为拟合,原理是最小二乘原配合回归方程的过程也称为拟合,原理是最小二乘原理。所以对于每一个特定的资料来说,可以满足误差平方理。所以对于每一个特定的资料来说,可以满足误差平方和最小的要求。和最小的要求。 但是对于不同的资料,回归方程的拟合程度不同。但是对于不同的资料,回归方程的拟合程度不同。 假设资料中各个观测值的散点非常严密,阐明两个变量之假设资料中各个观测值的散点非常严密,阐明两个变量之间的相关程度较高,那么得到的回归方程就好。反之就差。间的相关程度较高,那么得到的回归方程就好。反之就差。 决议系数:度量回归方程拟合程度的好坏。决议系数:度量回归方程拟合程度的好坏。22:()RXYXYYYXYSSbSPSPrSSSSSS SS=决定系数 决议系数为依变量的总变异中由自变量所呵斥决议系数为依变量的总变异中由自变量所呵斥的变异所占的比例,等于相关系数的平方。的变异所占的比例,等于相关系数的平方。 决议系数越大,阐明自变量对依变量的影响也越决议系数越大,阐明自变量对依变量的影响

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论