数理统计-回归_第1页
数理统计-回归_第2页
数理统计-回归_第3页
数理统计-回归_第4页
数理统计-回归_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1“回归回归”来源来源 统计史上归功于英国生物学家统计史上归功于英国生物学家F.Galton(18221911) 如人的身高具有一定的遗传性如人的身高具有一定的遗传性,当父代指标当父代指标(X)增增加加(减少减少)时时,子代指标子代指标(Y)的平均值会增加的平均值会增加(减少减少),但未看到指标两极分化但未看到指标两极分化 存在一种力量把指标值存在一种力量把指标值“拉向中心拉向中心”,子代指标子代指标有有“向中心回归向中心回归”的现象的现象 Galton引进引进“回归回归”这个名词来描述这个名词来描述X与与Y的关的关系系. 统计中也沿用回归来描述变量之间的关系统计中也沿用回归来描述变量之间的关

2、系2第七章第七章回归分析回归分析(analysis of regression)7.1 7.1 一元线性回归一元线性回归有一类变量间有关系有一类变量间有关系,但不能用函数形式来表示。但不能用函数形式来表示。例如人的体重例如人的体重 y 与身高与身高 x 有关,又如居民的储有关,又如居民的储蓄存款额蓄存款额 y 与的收入与的收入 x 有关,但同样的收入的有关,但同样的收入的人储蓄存款额也不会相同。这样的变量间的关系人储蓄存款额也不会相同。这样的变量间的关系在统计上称为在统计上称为相关关系相关关系。X自变量(一般变量,非随机变量)自变量(一般变量,非随机变量)Y随机变量随机变量一、模型一、模型收集

3、数据收集数据niyxii, 2 , 1),(3例例71 我们知道营业税收总额与社会零售总额有关。我们知道营业税收总额与社会零售总额有关。为了能从社会商品零售总额去预测税收总额,需要了为了能从社会商品零售总额去预测税收总额,需要了解两者的关系,现收集了如下几组数据(表解两者的关系,现收集了如下几组数据(表7.1.1) 表表7.1.1社会商品零售总额与税收总额社会商品零售总额与税收总额 单位:亿元单位:亿元序号序号社会商品零售总额社会商品零售总额 x营业税税收总额营业税税收总额 y 1 14208 393 2 17730 596 3 20468 785 4 24288 982 5 31624 12

4、50 6 34199 1555 7 33269 1579 8 38929 1639 9 45340 18454画散点图画散点图5观测散点图观测散点图如果如果n 个点在某直线附近波动个点在某直线附近波动,但不完全在一直线但不完全在一直线上上,认为认为 y由两部分构成由两部分构成,.).(,10vrxyxxy变动的其它部分随随机因素及变动的趋势随),(iiyx), 0(. ., 2 , 1,210Ndi inixyiiii各各 之间独立,可得一元线性回归的数学模型之间独立,可得一元线性回归的数学模型:6回归函数:回归函数: 反映反映 y y 与与 x x 的相关关的相关关系系 xyE10)(的估计

5、为的估计为 ,回归方程为,回归方程为 10,10,xy10考虑如何根据考虑如何根据 去估计去估计 ;对回归方程的可信度作检验;对回归方程的可信度作检验;回归方程的作用:预测,控制。回归方程的作用:预测,控制。niyxii, 2 , 1),(10,7二、参数的最小二乘法估计二、参数的最小二乘法估计(least square estimate)(LSE)(一)(一) LSE的求法的求法1.1.准则:准则: 其中,其中,201011(,)()niiiQyx),(),(10),(10min10QQ220111()()nniiiiiiyyyx82.2.求法:求法: ,又又 是是 的可微函数,有极值的可微

6、函数,有极值0),(10QQ10,正规方程组:正规方程组: 00110010QQiiiiiiiiiiiiiiiiiiyxxxyxnxxyxy2101010100)(20)(29从而从而 代入得代入得xyyx101012222,()()(),()iiiixyiiiixxiixyiixxiiix ynx yxxylxnxxxllxxyylxx得到的得到的LSE为为 10,xyllxxxy10110回归方程有两种形式:回归方程有两种形式: )(110 xxyxy回归直线过回归直线过 两点。两点。),(), 0(0yx11(二(二) 估计量的分布及有关性质估计量的分布及有关性质102111(,)xxN

7、l、221002(,)niixxxNnl、3 ,当,当 时,时, 与与 独独立立210),cov(xxlx0 x01定理定理7.1.1在一元线性回归模型中,在一元线性回归模型中,与与是最小二乘估计量是最小二乘估计量124 仍服从正态分布,仍服从正态分布,xy10 xyE10) (222222210120)(1)(21)1(),cov(2)()() (xxxxxxxxlxxnlxxlxlxnxDxDyD)(1 ,(2210 xxlxxnxNy13定理定理7.1.2 在一元线性回归模型中在一元线性回归模型中(1)(2) 与与 和和 相互独立相互独立(3) 是是 无偏估计无偏估计22(2)ESn21

8、nEiiiSyy残差平方和残差平方和22ESn2ES0114回归统计Multiple R0.981081525R Square0.962520959Adjusted R Square0.95716681标准误差1.063712271观测值9方差分析dfSSMSFSignificance F回归分析1203.408203.408 179.77113.01039E-06残差7 7.920387 1.131484总计8 211.3284Coefficients 标准误差t StatP-valueLower 95%Upper 95% 下限 95.0% 上限 95.0%Intercept-2.26098

9、7456 1.107344 -2.04181 0.080497-4.879438476 0.357464 -4.87944 0.357464 x0.048677736 0.003631 13.40787 3.01E-060.040092894 0.057263 0.040093 0.057263RESIDUAL OUTPUTPROBABILITY OUTPUT观测值预测 y残差标准残差百分比排位 y14.655145316 -0.72515 -0.728785.5555555563.9326.369575188 -0.40958 -0.4116316.666666675.9637.702371

10、608 0.147628 0.14836827.777777787.8549.561861134 0.258139 0.25943338.888888899.82513.13285987 -0.63286 -0.636035012.5614.38631158 1.163688 1.16952261.1111111115.55713.93360863 1.856391 1.86569872.2222222215.79816.6887685 -0.29877 -0.3002783.3333333316.39919.80949818-1.3595 -1.3663194.4444444418.4515

11、Normal Probability Plot01020020406080100Sample Percentile y16 x Line Fit Plot01020300200400600 x y y预测 y17 x Residual Plot-20240100200300400500 x残差187.2回归方程的显著性检验回归方程的显著性检验721F检验检验主要检测什么叫在直线主要检测什么叫在直线“附近附近”,用眼睛看会因人,用眼睛看会因人而异,为此需要有个检验准则。为作检验,首先要建而异,为此需要有个检验准则。为作检验,首先要建立假设。立假设。 我们要反映我们要反映 y 随随 x 变化的统计

12、规律,变化的统计规律, 如果如果 , 不管不管 x 如何变化,如何变化,Ey不会随之改变,不会随之改变,从而求出的回归方程是无意义的,所以检验回归方程从而求出的回归方程是无意义的,所以检验回归方程是否有意义的问题转化为检验下列假设是否为真:是否有意义的问题转化为检验下列假设是否为真: 010:10H 此此方法类似于方差分析的思想,从观察方法类似于方差分析的思想,从观察值的偏差平方和分解入手。值的偏差平方和分解入手。有下列三种常用的方法,使用时可选择其中之一。有下列三种常用的方法,使用时可选择其中之一。19总的偏差平方和总的偏差平方和) 1(,)(2nfyySTiiT造成造成 差异的原因有两差异

13、的原因有两个:个: nyyy,210HxxiiiiRlxxyyS21212)()((1)平方和分解平方和分解一是一是不真,不真,Ey会随会随x改变,用回归平方和来表示改变,用回归平方和来表示xxxxxxxxxxRllllEDlESE21221221121)()()()()(20,其自由度为其自由度为 iiiEyyS2)(2 nfE从而有从而有 RETSSS利用正规方程组可得利用正规方程组可得 还有还有0)(0)(iiiiiiixyyyyiiiiyyy0)(二、是其它一切随机因素引起的差异,它可用残二、是其它一切随机因素引起的差异,它可用残差平方和(剩余平方和)表示差平方和(剩余平方和)表示21

14、在在 为真时为真时, 与与 都是都是 的无的无偏估计偏估计,而在而在 时时,采用检验统计量采用检验统计量 ,取拒绝域为取拒绝域为对给定的显著性水平对给定的显著性水平 ,当当 为真时为真时, 应满足应满足01RS)2( nSE201)2()(2221nSElSEExxR)2( nSSFERcF 01c )(cFP (2) 检验统计量与拒绝域检验统计量与拒绝域2201 221(1)RS(3)临界值的确定临界值的确定在一元线性模型中,当在一元线性模型中,当时,有时,有 E2SRS 与相互独立 223(1,2 )2RESFnSn拒绝域为拒绝域为(1,2 )FFn23表表7.2.1 方差分析表方差分析表

15、RS1RfRRRfSV ERVVF ES2 nfEEEEfSVTS1 nfT来来 源源平方和平方和自由度自由度 均方和均方和 F比比回回 归归残残 差差 总总 计计 24722t检验检验我们知我们知在在 时时,有有 但其中但其中 未知,用未知,用 去代替,由独立性知在去代替,由独立性知在 时,时, ),(211xxlN01) 1 , 0(1Nlxx2(2)ESn01)2()2(211ntnSlltExxxx25对给定的显著性水平对给定的显著性水平 ,拒绝域为,拒绝域为实质上实质上 检验与检验与 检验是等价的,这里。检验是等价的,这里。)2(2ntttFFt226723相关系数检验相关系数检验(

16、correlation coefficient )二维样本二维样本 的相关系数定义为的相关系数定义为niyxii, 2 , 1),(yyxxxyiiiiiiilllyyxxyyxxr22)()()(这是一个统计量,可用这是一个统计量,可用 来检验假设来检验假设有有r0:10Hyyxxyyxxxxxyyyxxxylllllllllr127011rr0Hcr )(crPFnnSnSSSSSSlllrRERERTRyyxxxy211)2()2(11122检验的拒绝域为检验的拒绝域为 )2(2nrr从上面可以看出从上面可以看出, ,检验检验 的三种方法的三种方法, ,彼此彼此是等价的是等价的, ,使用

17、时看哪一种方法计算量最少使用时看哪一种方法计算量最少, ,就用哪一就用哪一个。个。0:10H从直观上看从直观上看, ,当当 为真时为真时, , 应较小,应较小,从而从而 应较小,当应较小,当 较大时,应拒绝较大时,应拒绝 ,因而可得下面的拒绝域:因而可得下面的拒绝域:在给定的显著性水平下在给定的显著性水平下 ,应满足,应满足287.3预测与控制预测与控制(predict and control)一、含义一、含义 所谓预测是指当所谓预测是指当 时对相应的时对相应的 y 的取值所作的的取值所作的推断。推断。由于由于 是一个随机变量,要预测随是一个随机变量,要预测随机变量的取值是不可能的,只能预测其

18、期望值机变量的取值是不可能的,只能预测其期望值 。这种推断有两类:这种推断有两类:一是给出一是给出 的估计值,也称预测值;的估计值,也称预测值;另一类是给出另一类是给出 的一个预测区间。的一个预测区间。0 xx 0y00100 xy)(0yE0y29二、预测值与预测区间二、预测值与预测区间1在在 处的回归值是处的回归值是 ,就是预测值。,就是预测值。0 xx 0100 xy2 的概率为的概率为 的预测区间为:的预测区间为:0y1,00yy 22000()11(0,1);xxxxyyNnl(3)构造一个变量构造一个变量由由 222(2)ESn)2()(112000ntlxxnyyxx1)(11)

19、(11()(20200000 xxxxlxxnlxxnyyPyyP30查表可得查表可得 从而从而)2()(11220ntlxxnxx202()1(2)1xxxxtnnl显然预测区间的长度显然预测区间的长度 与样本量与样本量 有关。有关。当当 较大,较大, 较大(较大( 各各 较为分较为分散),散), 较小,较小, 也较小也较小2xxlxnxx0,nxxlnxxx,21xx 0317.4多元线性回归多元线性回归(multivariate linear regression)在实际问题中,和某一变量在实际问题中,和某一变量 y 有关系的变量不只一有关系的变量不只一个,而是多个。比如研究个,而是多个。比如研究 y 与与 之间之间的定量关系的问题称为多元回归问题。的定量关系的问题称为多元回归问题。多元回归问题中我们讨论最简单而又一般的多元线多元回归问题中我们讨论最简单而又一般的多元线性回归问题,因为许多多元非线性回归问题可化为性回归问题,因为许多多元非线性回归问题可化为多元线性回归问题。多元线性回归问题。txxx,2132一、数学模型一、数学模型(model)假设假设 y 与与 之间的内在联系是线性的,之间的内在联系是线性的,它的第它的第 次试验数据是次试验数据是 则这一组数据有如下的结构:则这一组数据有如下的结构: tx

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论