线性回归各种检验PPT课件_第1页
线性回归各种检验PPT课件_第2页
线性回归各种检验PPT课件_第3页
线性回归各种检验PPT课件_第4页
线性回归各种检验PPT课件_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 如人的身高与体重的关系,作物种植密度与产量的关系,食品价格与需求量的关系等等,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。统计学中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。 下一张 主 页 退 出 上一张 第1页/共73页 一种是因果关系,即一个变量的变化受另一个或几个变量的影响。如小麦的生长速度受遗传特性、营养水平、管理条件等因素的影响。 另一种是平行关系,它们互为因果或共同受到另外因素的影响。如人的身高和胸围之间的关系属于平行关系。下一张 主 页 退 出 上一张 第2页/共73页 研究“一因一果”,即一个自变量与一个依变量

2、的回归分析称为一元回归分析; 研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。 一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。 下一张 主 页 退 出 上一张 第3页/共73页第4页/共73页 对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。下一张 主 页 退 出 上一张 第5页/共73页 函数关系 有精确的数学表达式 (确定性的关系) 直线回归分析 一元回归分析 变量间的关系 因果关系 曲线回归分析 (回归分析) 多

3、元线性回归分析 多元回归分析 相关关系 多 元 非 线 性 回 归 分 析 (非确定性的关系) 简单相关分析 直线相关分析 平行关系 复相关分析 (相关分析) 多元相关分析 偏相关分析 第6页/共73页2 直线回归 2.1 直线回归方程的建立 下一张 主 页 退 出 上一张 第7页/共73页第8页/共73页 下一张 主 页 退 出 上一张 第9页/共73页iiixy2第10页/共73页总体线性回归模型的图示YXiiixy ixyx 观察值观察值第11页/共73页总体线性回归模型iiixy yx第12页/共73页下一张 主 页 退 出 上一张 bxay最小二乘估计法a第13页/共73页建立 样本

4、线性回归方程的方法最小二乘法xy e1e2e3e4yyiiiniine1221第14页/共73页 、b应使回归估计值 与实际观测值y的偏差平方和最小,即:总的离回归平方和,即剩余平方和 y 22)() (bxayyyQ最小a020211niiiiniiixbxaybQbxayaQ第15页/共73页 经整理,得关于a、b的正规方程组: 下一张 主 页 退 出 上一张 xxySSSPxxyyxxnxxnyxxyb222)()(/)(/ ) )( (xbyaniiiniiniiniiniiyxbxxayxbna112111第16页/共73页 在6-7式中,分子为自变量x的离均差与依变量y的离均差的乘

5、积和 ,简称乘积和,记作 ,分母是自变量x的离均差平方和 ,记作SSX。 )(yyxxxySP2)(xxxxySSSPxxyyxxb2)()(xbya第17页/共73页为回归估计值,是当x在其研究范围内取某一个值时,y值平均数 的估计值。y xay)()( xEyEy第18页/共73页下一张 主 页 退 出 上一张 最小剩余平方和2) ( yyQ0) (yy),(yxxbya)(xxbyy第19页/共73页【例6-1】食品感官评定时,测得食品甜度与蔗糖浓度的关系如表6-2所示,试建立y与x的直线回归方程。2.1.3 计算示例第20页/共73页(1)作散点图 以蔗糖质量分数(x)为横坐标,甜度(

6、y)为纵坐标作散点图,如图6-2所示。食品甜度与蔗糖浓度的关系0510152025300246810蔗糖质量分数 x %甜度 y第21页/共73页4286. 57/0 .38/nxx7714.207/4 .145/nyy2143.537/0 .385 .259/222nxxSSx7857.6677 .145381 .856)(nyxxySPxy0343.847/4 .14520.3104/222nyySSy下一张 主 页 退 出 上一张 第22页/共73页 2550. 12123.537857.66xxySSSPb9585.134286. 52550. 17714.20 xbyaxy2550.

7、 19585.13第23页/共73页第24页/共73页第25页/共73页 根据直线回归方程可作出回归直线,见图。从图看出,并不是所有的散点都恰好落在回归直线上,这说明用 去估计y是有偏差的。y 下一张 主 页 退 出 上一张 第26页/共73页 附:直线回归的偏离度估计 偏差平方和 的大小表示了实测点与回归直线偏离的程度,因而此偏差平方和又称为离回归平方和。统计学证明:在直线回归分析中离回归平方和的自由度为n-2。那么,离回归均方为: 离回归均方是模型(6-1)中2的估计值。 离回归均方的平方根叫离回归标准误,记为 ,2) ( yy)2/() (2nyyyxS第27页/共73页 离回归标准误S

8、yx的大小表示了回归直线与实测点偏差的程度,即回归估测值 与实 际观测值y偏离(差)的程度,所以,用离回归标准误Syx来表示回归方程的偏离度。 )2/() (2nyySyxy 下一张 主 页 退 出 上一张 第28页/共73页xxyySSSPSSyy/) (222) ( yy2160. 0 2143.53/7857.660343.84 /) (222xxyySSSPSSyy2078. 0) 27/(2160. 0) 2/() (2nyySyx第29页/共73页 如果x和y变量间并不存在直线关系, 但由n对观测值(xi,yi)也可以根据上面介绍的方法求得一个回归方程 =a+bx。 显然,这样的回

9、归方程所反应的两个变量间的直线关系是不真实的。 如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量x与y间是否存在直线关系。从y的变异着手来分析。y 下一张 主 页 退 出 上一张 第30页/共73页)(yy第31页/共73页 ) ()()(yyyyyy2)(yy2)()( yyyy) )(2) ()(22yyyyyyyy)()(xxbyyxxb下一张 主 页 退 出 上一张 )(xxbybxay)(xxbyy) )() )(yyxxbyyyy第32页/共73页 所以有 (6-9) 反映了y的总变异程度,称为y的总偏差平方和,记为SSy; 反映了由于y与x间存在直线关系所

10、引起的y的变异程度,称为回归平方和,记为SSR; )()()(xxbxxbyyxxbxxySSbSPb202xxxyxyxxySSSSSPSPSSSP2)(yy22) ()(yyyy2)( yy2)(yy第33页/共73页 反映了除y与x存在直线关系以外的一切因素(包括x对y的非线性影响及其他一切未加控制的随机因素)所引起的y的变异程度,称为离回归平方和或剩余平方和,记为SSr或SSe。 所以,y的总变异平方和可分解为:rRySSSSSS下一张 主 页 退 出 上一张 rRydfdfdf2) (yy第34页/共73页 在直线回归分析中,回归自由度等于自变量的个数, 即 ;y的 总 自 由度 ;

11、离回归自由度 。于是: 离回归均方 , 回 归 均 方 。 1Rdf1 ndfy2 ndfrrrrdfSSMS/RRRdfSSMS/第35页/共73页 x与y两个变量间是否存在直线关系,可用F检验法进行检验。 无效假设HO: =0,备择假设HA: 0。 在无效假设成立的条件下,回归均方与离回归均方的比值服从 和 的F分布,所以,可以用下式来检验回归方程的显著性。11df22 ndf)2/(/nSSSSdfSSdfSSMSMSFrRrrRRrR下一张 主 页 退 出 上一张 第36页/共73页回归平方和的计算:22)()(xxbyySSRxyxbSPSSbxxb222)(xxyxyxxySSSP

12、SPSSSP2下一张 主 页 退 出 上一张 xxyyRyrSSSPSSSSSSSS2第37页/共73页,0343.84ySS,7857.66xySP2143.53xSS8161.832143.537857.6622xxyxyRSSSPbSPSS2182. 08161.830343.84RyrSSSSSS527, 1, 6171rRydfdfndf第38页/共73页下一张 主 页 退 出 上一张 变异来源变异来源偏差平方和偏差平方和SS自由度自由度df均方均方MSF值值显著性显著性回归回归83.8161183.81611922.39*剩余剩余0.218250.0436总变异总变异84.0343

13、6xy2550. 19585.1301. 0,26.1639.1922)5 , 1(01. 0PFF第39页/共73页 采用回归系数的显著性检验t检验也可检验x与y之间是否存在直线关系。 t检验时,无效假设HO: =0,备择假设HA: 0。 第40页/共73页2,ndfSbtbxyxbSSSSrrryxMSdfSSSy 第41页/共73页 对于 【例8.1】 资 料 ,已计算得 故有2182. 0,2143.53rxSSSS 0286. 02143.53/52182. 0/xrrxyxbSSdfSSSSSS84.430286. 02550. 1bSbt下一张 主 页 退 出 上一张 第42页/

14、共73页 当 ,查t值表,得 因 , , 否定HO:0,接受HA:0,即直线回归系数b=1.2550是极显著的,表明蔗糖浓度与甜度大小存在极显著的直线关系,可用所建立的直线回归方程来进行 预测和控制。 5272 ndf015. 2)10(05. 0t365. 3)10(01. 0t)5(01. 084.43tt01. 0P第43页/共73页 特别要指出的是:利用直线回归方程进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。利用直线回归

15、方程进行预测或控制 , 一 般只能内插,不要轻易外延。第44页/共73页3 直线相关 进行直线相关分析的基本任务在于根据x、y的实际观测值,计算表示两个相关变量x、y间线性相关程度和性质的统计量相关系数r,并进行显著性检验。下一张 主 页 退 出 上一张 第45页/共73页3.1 决定系数和相关系数 直线回归分析中: 由这个等式不难看到,y与x直线回归效果的好坏取决于回归平方和 与离回归平方和 的大小,或者说取决于回归平方和在y的总平方和 中所占的比例的大小。这个比例越大,y与x的直线回归效果就越好,反之则差。 我们把比值 叫 做 x 对 y 的决定系数( determination coef

16、ficient ),记为 r2,即 2)(yy22) ()(yyyy2)( yy2) (yy2)( yy/)(2 yy2)( yy下一张 主 页 退 出 上一张 第46页/共73页 决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低,或者表示x对y的变异影响大小。显然有0r21。如r20.81,表明SSR占SSy的81,也就是说,x决定了y变异的81,决定作用强。222)()(yyyyrxyyxyxyxxyyxxybbSSSPSSSPSSSSSPyyyyr2222)() (第47页/共73页 SPxy/SSx是以x为自变量、y为依变量时的回归系数byx。 若把y作

17、为自变量、x作为依变量 ,则回归系数 bxy =SPxy/SSy ,所以决定系数r2等于y对x的回归系数与 x对y的回归系数的乘积。这就是说,决定系数反应了x为自变量、y为依变量和y为自变量、x为依变量时两个相关变量x与y直线相关的信息 ,即决定系数表示了 两个互为因果关系的相关变量间直线相关的程度。但决定系数介于0和1之间,不能反应直线关系的性质是同向增减或是异向增减。 下一张 主 页 退 出 上一张 第48页/共73页 相关系数可表示y与x的直线相关的密切程度,也可表示直线相关的性质,记为r,即yxxySSSSSPr nyynxxnyxxy2222)()()(第49页/共73页下一张 主

18、页 退 出 上一张 第50页/共73页 8517. 06583.2928048.2376967.224yxxySSSSSPr下一张 主 页 退 出 上一张 8048.237/)(22nxxSSx6583.292/)(22nyySSy6967.224/)(nyxxySPxy第51页/共73页 根据实际观测值计算得来的相关系数r是样本相关系数, 它是双变量正态总体中的总体相关系数的估计值。样本相关系数r是否来自0的总体,还须对样本相关系数r 进行显著性检验。 此 时无 效 假 设、备择假设为HO:=0,HA:0。与直线回归关系显著性检验一样,可采用t检验法与F检验法对相关系数r的显著性进行检验。

19、第52页/共73页 F检验: F= , df1=1,df2=n-2 (6-22) t 检验: t= , df=n-2 (6-23) rSr) 2()1 (2nrSr)2()1 (22nrr下一张 主 页 退 出 上一张 第53页/共73页 统计学家已根据相关系数r显著性t检验法计算出了临界r值并列出了表格。 所以可以直接采用查表法对相关系数r进行显著性检验。 具体作法是: 先根据 自由度 n-2 查临界 r 值 ( 附 表 8 ),得 , 。 若|r| ,P0.05,则相关系数r不显著,在r的右上方标记“ns”;若 |r| ,0.01P0.05,则相关系数 r 显著,在r的右上方标记“*”;若

20、|r| , P 0.01, 则相 关 系 数 r 极显著,在 r 的右上方标记“*”。 )2(01. 0nr)2(05. 0nr)2(05. 0nr)2(01. 0nr)2(01. 0nr)2(05. 0nr第54页/共73页 而|r| = | -0.8517| ,P0.01,表明该品种大豆子粒内脂肪含量与蛋白质含量呈极显著负相关。 304. 0)40(05. 0r393.0)40(01.0r)40(01. 0r下一张 主 页 退 出 上一张 第55页/共73页相关系数对样本相关关系的计量r值相关程度1绝对相关0.81高度相关0.50.8中度相关0.30.5低度相关00.3无相关0绝对无相关第

21、56页/共73页xyyxbbr第57页/共73页根据散点图,确定回归方程形式:xbay计算得到:5078.678706.0308440608.35341.900.26abSSSyxyyxxxyxy8706.05078.67第58页/共73页99896.0yyxxxySSSr8982.0)7(7977.0)7(001.001.0rr第59页/共73页 直线回归分析与相关分析在生物科学研究领域中已得到了广泛的应用,但在实际工作中却很容易被误用或作出错误的解释。为了正确地应用直线回归分析和相关分析这一工具,必须注意以下几点:第60页/共73页 (1)变量间是否存在相关)变量间是否存在相关 直线回归分

22、析和相关分析毕竟是处理变量间关系的数学方法,在将这些方法应用于生物科学研究时要考虑到生物本身的客观实际情况,譬如变量间是否存在直线相关以及在什么条件下会发生直线相关,求出的直线回归方程是否有意义,某性状作为自变量或依变量的确定等等,都必须由生物科学相应的专业知识来决定,并且还要用到生物科学实践中去检验。如果不以一定的生物科学依据为前提,把风马牛不相及的资料随意凑到一块作直线回归分析或相关分析,那将是根本性的错误。 下一张 主 页 退 出 上一张 第61页/共73页 (2)其余变量尽量保持一致)其余变量尽量保持一致 由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其它变量的

23、影响,因此,在研究两个变量间关系时,要求其余变量应尽量保持在同一水平,否则,回归分析和相关分析可能会导致完全虚假的结果。例如研究人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸围越小,但当体重在变化时,其结果也就会变化。 下一张 主 页 退 出 上一张 第62页/共73页 (3)观测值要尽可能的多)观测值要尽可能的多 在进行直线回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的精确性,一般至少有5对以上的观测值。同时变量x的取值范围要尽可能大一些,这样才容易发现两个变量间的变化关系。 (4)结论外推要谨慎)结论外推要谨慎 直线回归与相关分析一般是在一定取值区间内对两个变量间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论