高级管理统计章回归分析_第1页
高级管理统计章回归分析_第2页
高级管理统计章回归分析_第3页
高级管理统计章回归分析_第4页
高级管理统计章回归分析_第5页
已阅读5页,还剩105页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024/1/19高级管理统计1第5章回归分析5.1一元线性回归模型5.2多元线性回归模型5.3多元逐步回归分析5.4多重线性回归分析2024/1/19高级管理统计2第六章回归分析5.1一元线性回归模型

背景从定量的角度来看,变量之间的关系可以分为两类:一类变量之间的关系是完全确定的,可以用函数的形式表达另一类变量之间有关系,但不能用函数形式表达,例如人的体重与身高有关,一般而言,较高的人体重也重,但同样身高的人体重却不完全相同,这样的变量间关系在统计上称为相关关系。回归分析是研究变量之间相关关系的一种统计方法。2024/1/19高级管理统计3模型的基本形式设是的未知线性函数:。今对在点上进行试验,测得函数的试验值为

由于受随机误差因素的影响,试验结果为此处为未知参数。2024/1/19高级管理统计4

随机误差项满足条件(1)独立性:相互独立,因而也相互独立。(2)无偏性:,因而2024/1/19高级管理统计5

(3)等方差性:,因而(4)正态性:,因而上述四个条件可简化为:独立同分布2024/1/19高级管理统计6回归直线的确定

参数与的估计应使残差平方和达到最小,即令2024/1/19高级管理统计72024/1/19高级管理统计8

此为正规方程组2024/1/19高级管理统计9

参数的最小二乘估计其中2024/1/19高级管理统计10

为简单起见,令2024/1/19高级管理统计11

于是

因此,回归直线

2024/1/19高级管理统计12回归方程的统计性质

定理在一元线性回归模型假设下,回归系数具有以下性质

(1)(2)(3)2024/1/19高级管理统计13

证明根据线性模型的假定,为相互独立的正态变量,且

另一方面,均是的线性函数,即故均为正态变量。2024/1/19高级管理统计14

求的数学期望2024/1/19高级管理统计152024/1/19高级管理统计16求的方差2024/1/19高级管理统计172024/1/19高级管理统计18

求与的相关矩2024/1/19高级管理统计19结论

2024/1/19高级管理统计20

定理在线性模型的假定条件下,(1);(2)相互独立。其中2024/1/19高级管理统计21证明2024/1/19高级管理统计222024/1/19高级管理统计23对作如下线性变换2024/1/19高级管理统计24此处满足条件显然2024/1/19高级管理统计25

从而

由于相互独立,都服从正态分布,所以均服从正态分布,且2024/1/19高级管理统计26

以上表明相互独立同分布,从而

所以并且根据的独立性,知三者相互独立。2024/1/19高级管理统计27

回归方程的显著性检验在实际工作中,我们不能断定因变量与自变量间确有线性关系,线性模型只是一种假设,尽管这种假设不是没有根据的,但还是需要对这种线性回归方程同实际观察或试验数据拟合的效果进行检验。2024/1/19高级管理统计28T检验检验问题检验统计量

其中2024/1/19高级管理统计29因为相互独立,并且所以2024/1/19高级管理统计30也就是说,所以拒绝域根据分布与分布之间的关系,有因而拒绝域也可以写为。2024/1/19高级管理统计31相关系数检验二维样本的相关系数定义为2024/1/19高级管理统计32

当成立时,应该比较小,从而值较小;因此,当较大时,应拒绝。拒绝域其中满足条件2024/1/19高级管理统计33

利用回归方程作预测当线性系数经过检验确认不等于零,即回归直线效果是显著的,此时,便可以利用所得的回归直线,给定自变量的值来预报因变量的值:给定和置信水平,预报随机变量的取值范围。2024/1/19高级管理统计34当时,的估计值2024/1/19高级管理统计352024/1/19高级管理统计36而所以,的置信水平为的置信区间为2024/1/19高级管理统计37

国家

国民经济增长率x(%)

失业率y(%)

美国3.25.8

日本5.62.1

法国3.56.1

西德4.53.0

意大利4.93.9

英国1.45.7

以下是六个工业发达国家在1979年的失业率与国民经济增长率的数据2024/1/19高级管理统计38

(1)研究与之间的关系;

(2)建立关于的一元线性回归方程;

(3)对所求得的回归方程作显著性检验,在作检验时做了什么假定?(取)(4)若一个工业发达国家的国民经济增长率为,求其失业率的预测值。2024/1/19高级管理统计392024/1/19高级管理统计402024/1/19高级管理统计41R计算程序与计算结果x=c(3.2,5.6,3.5,4.5,4.9,1.4)y=c(5.8,2.1,6.1,3.0,3.9,5.7)fit=lm(y~1+x)summary(fit)yhat=predict(fit)yhatplot(y,type="l",lwd=1,xlab="x",ylab="y");text(3.6,5.8,expression(观察值))lines(yhat,lwd=2.5,col="blue");text(5.3,6,expression(估计值))2024/1/19高级管理统计42R计算程序与计算结果Call:lm(formula=y~1+x)Residuals:1234560.7742-0.73811.3476-0.84080.4238-0.9666Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)7.94281.33805.9360.00404**x-0.91150.3276-2.7820.04971*---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:1.093on4degreesoffreedomMultipleR-squared:0.6593,AdjustedR-squared:0.5741F-statistic:7.74on1and4DF,p-value:0.049712024/1/19高级管理统计432024/1/19高级管理统计442024/1/19高级管理统计452024/1/19高级管理统计46

可化为一元线性回归的曲线回归(1)双曲线令,则。(2)幂函数令,则。2024/1/19高级管理统计47(3)指数函数若,则令,于是若,则令,同样有2024/1/19高级管理统计48(4)对数函数令,则有。(5)S曲线令,则有。2024/1/19高级管理统计493.2多元线性回归模型

multivariateregression●多元的含义:多个解释变量?多个因变量(被解释变量)?例如,血压与年龄、体重之间的关系消费支出与收入、价格之间的关系其他………?●线性的含义:变量的线性组合

2024/1/19高级管理统计50●

建模目的①分析变量之间的结构关系②预测分析:给定自变量的取值,预测因变量Y将来取值的大小2024/1/19高级管理统计51●模型结构分析

设是个变量的线性函数现对多元变量

在个点上进行试验,结果如下2024/1/19高级管理统计52

此处为随机误差项,它满足条件(1)独立性:相互独立,因而也相互独立。(2)无偏性:,因而2024/1/19高级管理统计53(3)等方差性:,因而(4)正态性:,因而

上述四个条件等价于:2024/1/19高级管理统计54●

模型参数估计

模型系数估计:设所求回归方程为其中为参数的估计,称为回归系数,它使残差平方和取最小值2024/1/19高级管理统计55

根据多元函数求极值的必要条件,应满足下列线性方程组

2024/1/19高级管理统计562024/1/19高级管理统计57写成矩阵形式2024/1/19高级管理统计58记2024/1/19高级管理统计59则2024/1/19高级管理统计602024/1/19高级管理统计61因此,正规方程组从而,未知参数向量的最小二乘估计量

2024/1/19高级管理统计62●方差的无偏估计量

并且此处2024/1/19高级管理统计63其中,残差序列为2024/1/19高级管理统计64●回归方程优劣的评价模型的拟合程度:

回归系数是否显著不等于零2024/1/19高级管理统计65●回归方程的显著性检验检验问题检验统计量2024/1/19高级管理统计66

●模型系数的显著性检验若考虑变量是否对因变量有显著影响,则检验问题

检验统计量

2024/1/19高级管理统计67

拒绝域判断:对于给定的显著水平,若,则拒绝原假设,即认为;若则接受,认为2024/1/19高级管理统计68

例题考虑我国31个省市自治区的城镇居民人均食品消费支出与其人均收入,粮食价格的依赖关系回归模型:

人均消费支出(Y)=β0+β1粮食价格(X1)+β2人均收入2024/1/19高级管理统计69多元回归分析的建模数据2024/1/19高级管理统计70变量之间的相关系数分析食品支出与粮价相关系数=0.730

食品支出与收入相关系数=0.9212024/1/19高级管理统计71参数估计β0=-87.386,β1=213.423,β2=0.3522024/1/19高级管理统计72回归方程的表达式:2024/1/19高级管理统计73

常数项的经济涵义不清晰,原因:可能有重要的解释变量未引入方程中;因此,需再寻找其他解释变量

2024/1/19高级管理统计74●

解释变量确定的方法:逐步回归基本思路:先列出所有可能的解释变量,然后逐一增加或删除变量,将其引入方程或者将其从方程中剔出2024/1/19高级管理统计75

模型拟合检验:F检验,分析数据的拟合程度,它是对模型的整体检验F值=106.1642024/1/19高级管理统计76残差分布图2024/1/19高级管理统计77F检验的解释在回归分析中,观测数据的总波动,用每个观测值与总平均的差异平方和表示,即2024/1/19高级管理统计78

是观测值与回归值的离差平方和,反映了误差的大小,称为误差平方和;其取值越小越好;它的自由度=31-3=28

是回归值与总平均离差平方和,它表示x与y的线性关系引起y的变化;称为回归平方和,它的自由度=3-1=22024/1/19高级管理统计79模型的经济涵义

①在保持收入水平不变的条件下,粮价上涨1元,则人均食品消费支出将增加213.423元②在粮价保持不变的情况下,收入每增加1元,将有其中的0.352元用于食品消费支出2024/1/19高级管理统计80

例题根据经验,在人的身高相等的情况下,血压的收缩压Y与体重X1(kg)、年龄X2(岁数)有关。现在收集了13个男子的数据,试建立Y关于X1,X2的回归方程2024/1/19高级管理统计81序号X1X2Y176.050120291.520141385.520124482.530126579.030117680.550125774.560123879.050125985.0401321076.5551231182.0401321295.0401551392.5201472024/1/19高级管理统计82R软件运行程序blood<-data.frame(X1=c(76.0,91.5,85.5,82.5,79.0,80.5,74.5,79.0,85.0,76.5,82.0,95.0,92.5),X2=c(50,20,20,30,30,50,60,50,40,55,40,40,20),Y=c(120,141,124,126,117,125,123,125,132,123,132,155,147))lm.sol<-lm(Y~X1+X2,data=blood)summary(lm.sol)2024/1/19高级管理统计83结果Call:lm(formula=Y~X1+X2,data=blood)Residuals:Min1QMedian3QMax-4.0404-1.01830.46400.69084.3274Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)-62.9633616.99976-3.7040.004083**X12.136560.1753412.1852.53e-07***X20.400220.083214.8100.000713***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:2.854on10degreesoffreedomF-statistic:87.84on2and10DF,p-value:4.531e-072024/1/19高级管理统计84模型表达式

Y=-62.96+2.136X1+0.4002X2

(-3.704)(12.185)(4.810)2024/1/19高级管理统计852024/1/19高级管理统计86参数的区间估计source(".R")(lm.sol)EstimateLeftRight(Intercept)-62.9633591-100.8411862-25.0855320X12.13655811.74587092.5272454X20.40021620.21480770.58562462024/1/19高级管理统计873.3多元逐步回归

在实际问题中,人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量,应用多元回归分析的方法建立“最优”回归方程,以便对因变量进行预报或控制2024/1/19高级管理统计88●所谓“最优”回归方程,主要是指在回归方程中包含所有对因变量影响显著的自变量而不包含对影响不显著的自变量的回归方程●逐步回归分析的主要思路是在所考虑的全部自变量中按其对的作用大小,显著程度大小,或者说贡献大小,由大到小地逐个引入回归方程,而对那些对作用不显著的变量可能始终不被引人回归方程2024/1/19高级管理统计89●另外,己被引人回归方程的变量在引入新变量后也可能失去重要性,而需要从回归方程中剔除出去。引入一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步,每一步都要进行检验,以保证在引人新变量前回归方程中只含有对影响显著的变量,而不显著的变量已被剔除2024/1/19高级管理统计90

例题某种水泥在凝固时放出的热能Y与水泥的四种化学成分X1,X2,X3,X4有关,现测得13组数据,希望从中选出主要的变量,建立Y关于它们的线性回归方程2024/1/19高级管理统计91序号X1X2X3X4Y172666078.52129155274.331156820104.34113184787.6575263395.961155922109.27371176102.78131224472.59254182293.1102147426115.911140233483.8121166912113.3131068812109.42024/1/19高级管理统计92cement<-data.frame(X1=c(7,1,11,11,7,11,3,1,2,21,1,11,10),X2=c(26,29,56,31,52,55,71,31,54,47,40,66,68),X3=c(6,15,8,8,6,9,17,22,18,4,23,9,8),X4=c(60,52,20,47,33,22,6,44,22,26,34,12,12),Y=c(78.5,74.3,104.3,87.6,95.9,109.2,102.7,72.5,93.1,115.9,83.8,113.3,109.4))lm.sol<-lm(Y~X1+X2+X3+X4,data=cement)summary(lm.sol)2024/1/19高级管理统计93主要结果Call:lm(formula=Y~X1+X2+X3+X4,data=cement)Residuals:Min1QMedian3QMax-3.1750-1.67090.25081.37833.9254Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)62.405470.07100.8910.3991X11.55110.74482.0830.0708.X20.51020.72380.7050.5009X30.10190.75470.1350.8959X4-0.14410.7091-0.2030.8441---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:2.446on8degreesoffreedomF-statistic:111.5on4and8DF,p-value:4.756e-07

2024/1/19高级管理统计94从上述计算中可以看出,如果选择全部变量作回归方程,效果不好,因为回归方程的系数没有一项通过检验,下面用函数step()作逐步回归2024/1/19高级管理统计95lm.step<-step(lm.sol)Start:AIC=26.94Y~X1+X2+X3+X4DfSumofSqRSSAIC-X310.10947.97324.974-X410.24748.11125.011-X212.97250.83625.728<none>47.86426.944-X1125.95173.81530.576Step:AIC=24.974Y~X1+X2+X4DfSumofSqRSSAIC<none>47.9724.97-X419.9357.9025.42-X2126.7974.7628.74-X11820.91868.8860.632024/1/19高级管理统计96名词解释●

AIC准则:赤池信息量准则(Akaikeinformationcriterion,简称AIC)是衡量统计模型拟合优良性的一种标准,是由日本统计学家赤池弘次创立和发展的;赤池信息量准则建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性

AIC=2k-log(L)其中:k是参数的数量,L是似然函数2024/1/19高级管理统计97●从程序运行结果来看,用全部变量作回归方程时,AIC的值为26.94,接下来的数据表明:如果去掉X3,得到回归方程AIC的值为24.974,如果去掉X4,AIC的值为25.011,依次类推;由于去掉X3可以使AIC达到最小,因此去掉X3进入下一轮计算。●在下一轮计算中,无论去掉那一个变量,AIC的值均会升高,因此中止逐步回归,进入回归建模。2024/1/19高级管理统计98summary(lm.step)Call:lm(formula=Y~X1+X2+X4,data=cement)Residuals:Min1QMedian3QMax-3.0919-1.80160.25621.28183.8982Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)71.648314.14245.0660.000675***X11.45190.117012.4105.78e-07***X20.41610.18562.2420.051687.X4-0.23650.1733-1.3650.205395---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:2.309on9degreesoffreedomF-statistic:166.8on3and9DF,p-value:3.323e-082024/1/19高级管理统计99

残差分布图

lm.sol<-lm(Y~X1+X2+X4,data=cement)

res<-residuals(lm.sol)

plot(res)2024/1/19高级管理统计1003.4多重线性回归分析

主要讨论多个因变量与多个自变量之间的线性函数关系,当然多个因变量之间具有相关性;否则,就是多个多元线性回归模型问题2024/1/19高级管理统计101多对多的问题①发电量、工业总产值与钢材产量、水泥产量和机械工业总产值之间的关系②麦当劳、肯德基消费与居民收入、价格等因素之间的关系③?????2024/1/19高级管理统计102模型结构因变量:y1,y2,…,ym解释变量:x1,x2,…,xk函数关系2024/1/19高级管理统计103矩阵形式2024/1/19高级管理统计104n组观察值其表达式为2024/1/19高级管理统计1052024/1/19高级管理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论