多元回归问题分析课件_第1页
多元回归问题分析课件_第2页
多元回归问题分析课件_第3页
多元回归问题分析课件_第4页
多元回归问题分析课件_第5页
已阅读5页,还剩117页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章多元回归分析在许多经济问题中,一元线性回归只不过是回归分析中的一种特例,它通常是对影响某种经济现象的许多因素进行了简化考虑的结果。若某公司管理人员要预测来年该公司的销售额y时,研究认为影响销售额的因素不只是广告宣传费x1,还有个人可支配收入x2,价格x3,研究与发展费用x4,各种投资x5,销售费用x6.因此我们需要进一步讨论多元回归问题。第二章多元回归分析在许多经济问题中,一元线性回归只不过1第一节多元线性回归第二节可化为多元线性回归的问题第三节曲线回归第四节逐步回归第五节岭回归推荐阅读第一节多元线性回归2第一节多元线性回归Yi=b0+b1x1i+b2x2i+…+bpxpi+ξiY1=b0+b1x11+b2x21+…+bpxp1+ξ1Y2=b0+b1x12+b2x22+…+bpxp2+

ξ2…Yn=b0+b1x1n+b2x2n+…+bpxpn+

ξn

第一节多元线性回归3令y11x11x21…xp1Y=y2x=1x12x22…xp2yn1x1nx2n…xpnb0ξ

1b1ξ

2B=…e=…bpξ

n则Y=XB+e令4一、多元线性回归模型的基本假定解释变量x1,x2,…,xp是确定性变量,不是随机变量,而且解释变量之间互不相关随机误差项具有零均值和同方差E(ξ

i)=0var(ξ

i)=E(ξ

i-E(ξ

i))2=E(ξ

i)2=σ2随机误差项在不同样本点之间是相互独立的,不存在序列相关cov(ξ

i,ξ

j)=0i≠ji,j=1,2,…ncov(ξ

i,ξ

j)=E((ξ

i-E(ξ

i)(ξ

j-E(ξj))=E(ξ

j)=E(ξ

i)E(ξ

j)=0

一、多元线性回归模型的基本假定5

随机误差项与解释变量之间不相关cov(xi,ξ

i)=0随机误差项服从零均值,同方差的正态分布

ξ

i~N(0,σ2)

6二、建立回归方程设令即二、建立回归方程7多元回归问题分析8三、多元线性回归模型的建模方法1.打开文件或新建文件2.Analyzeregressionliner3.建模方法(1)enter:强迫进入法(2)stepwise:逐步选择法(3)remove:强迫消除法(4)backward:向后剔除法(5)forward:向前引入法三、多元线性回归模型的建模方法9

回归统计量(1)estimates:显示回归系数及相关的指标(2)confidenceintervals:显示未标准化回归系数的置信区间(3)covariancematrix:未标准化回归系数的方差—协方差矩阵(4)modelfit:模型检验回归统计量10

回归统计量(5)Rsquaredchange(6)descriptive:显示变量的均值、标准差等(7)Partandpartialcorrelations:(8)collinearitydiagnostics:共线性诊断(9)Durbon_waston:D.w.检验统计量回归统计量11举例(一)根据我国某地区乡镇企业总产值、从业劳动者人数和固定资产原值的历年资料,求回归方程。(总产值-y,从业劳动者人数-x1,固定资产原值-x2)(数据见spssex/例子1)举例(一)12多元回归问题分析13多元回归问题分析14举例(二)卫生陶瓷是我国住宅建筑、饭店、宾馆、医疗卫生、体育、办公设施等建筑必不可少的卫生设备。合理地发展卫生陶瓷生产是国民经济的需要。卫生陶瓷产量y与城镇住宅建筑面积x1,医疗卫生机构建筑面积x2,办公室建筑面积x3有关。试根据历史资料建立回归方程。(数据见spssex/例子2)举例(二)卫生陶瓷是我国住宅建筑、饭店、宾馆、医疗卫生、体育15Y=0.488+0.576x1+4.769x2-2.145x3(4.245)(2.404)(-2.111)多元回归问题分析16举例(三)在研究国家财政收入时,我们把财政收入按收入形式分为各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y为因变量。自变量如下:x1工业总产值,x2农业总产值,x3建筑业总产值,x4人口数,x5社会商品零售总额,x6受灾面积(数据见spssex/例子3)举例(三)在研究国家财政收入时,我们把财政收入按收入形式分为17Y=-13534.1+0.209x1-0.06x2+0.763x3+0.141x4-0.855x5+0.227x6(3.292)(-0.416)(2.341)(2.703)(-2.932)(2.595)Y=-13534.1+0.209x1-0.06x2+018五、回归方程的效果的检验方程显著性检验参数显著性检验拟合优度检验(复相关系数、偏相关系数)对假设理论的检验链接五、回归方程的效果的检验19例2中,方差分析表为:yy201.方程显著性检验(F检验)F检验是以方差分析为基础,对回归总体线性关系是否显著的一种假设检验,是解释模型中被解释变量与所有解释变量之间的线性关系在总体上是否显著的方法利用F统计量进行总体线性显著性检验的步骤如下:(1)提出关于P个总体参数的假设H0:b0=b1=b2=…=bp=0(2)构造统计量(3)检验给定显著性水平α,查F分布表若F>Fα,拒绝H0,表明回归总体有显著性关系.若F<Fα,接受原假设,表明不存在线性关系1.方程显著性检验(F检验)212.参数显著性检验参数显著性检验,是对每个解释变量进行检验.如果解释变量对被解释变量的影响不显著,应从模型中删除,如果解释变量对被解释变量的影响显著,应保留在模型中.利用t统计量进行参数显著性检验的步骤如下:(1)对总体参数提出假设:H0:bi=0(2)构造统计量:(3)检验对给定α,若︱t︱>tα/2,说明拒绝原假设若︱t︱<tα/2,则接受原假设.2.参数显著性检验22如果一次t检验后,模型中存在多个不重要变量,一般是将t值最小的变量删除掉,再重新进行检验,每次只剔除1个变量.aii是(X`X)-1主对角线上第i+1个元素返回如果一次t检验后,模型中存在多个不重要变量,一般是将t值最小23六、复相关系数和偏相关系数复相关系数R是由ESS和TSS构造的统计量,用来表示回归方程对原有数据拟合程度的好坏,衡量作为一个整体的x1,x2,…,xp与y的线性关系的大小。六、复相关系数和偏相关系数24回归方程的拟合优度检验就是要检验样本数据点聚集在回归直线周围的密集程度,从而评价回归方程对样本数据的代表程度。由判定系数R2来实现。实际中,随着自变量个数的不断增加,必然会使得R2不断变化,于是出现的问题是,R2变化是由于数学习性决定的,还是确实是由于引入了好的变量进入方程而造成的。因此在作拟合优度检验的判定时,一般采用调整的R2,以消除自变量的个数以及样本量的大小对R2的影响。回归方程的拟合优度检验就是要检验样本数据点聚集在回归直线周围25其它变量被固定后,计算任意两个变量之间的相关系数,这种相关系数称为偏相关系数。其它变量被固定后,计算任意两个变量之间的相关系数,这种相关系26简单相关系数只是一种数量表面上的相关系数,而并非本质的东西。偏相关系数才真正反映两个变量的本质联系。Zero-order:零阶相关系数,计算所有自变量与因变量间的简单相关系数。Partcorrelation:部分相关,在排除了其他自变量对xi的影响后,当一个自变量进入模型后,复相关系数的平方增加量。返回简单相关系数只是一种数量表面上的相关系数,而并非本质的东西。27回归方程的残差分析残差序列的正态性分析残差序列的随机性分析残差序列的独立性分析奇异值诊断异方差诊断

返回回归方程的残差分析28残差序列的正态性分析:通过绘制标准化残差序列的带正态曲线的直方图或累计概率图来分析,确定残差是否接近正态Analyze->regression->linearPlot子对话框中选Histogram或p-p图返回残差序列的正态性分析:通过绘制标准化残差序列的带正态曲线的直29残差序列的随机性分析:可以绘制残差序列和对应的预测值序列的散点图。如果残差序列是随机的,那么残差序列应与预测值序列无关,残差序列点将随机地分布在经过零的一条直线上下。在线性回归Plots对话框中的源变量表中,选择SRESID(学生氏残差)做Y轴,选ZPRED(标准化预测值)做X轴返回残差序列的随机性分析:可以绘制残差序列和对应的预测值序列的散30残差序列的独立性分析:分析残差序列是否存在后期值与前期值相关的现象。D.W检验返回残差序列的独立性分析:31样本奇异值的诊断:样本奇异值是样本数据中那些远离均值的样本数据点。它们会对回归方程的拟合产生较大偏差影响。一般认为,如果某样本点对应的标准化残差的值超出了-3—+3的范围,就可以判定该样本数据为奇异值。Analyze->regression->statistics->casediagnostics返回样本奇异值的诊断:样本奇异值是样本数据中那些远离均值的样本数32异方差诊断:线性回归模型要求残差序列服从等方差的正态分布一般通过绘制SRESID与因变量预测值的散点图或计算SRESID和因变量预测值间的相关系数。如果残差序列和预测值的平方根成正比例变化,可以对因变量作开方处理;如果残差序列与预测值成比例变化,可以对因变量取对数;如果残差序列与预测值的平方成比例的变化,可以对因变量求倒数。还可以用WLS法消除异方差。返回异方差诊断:线性回归模型要求残差序列服从等方差的正态分布33七、预测和控制所谓预测就是给定解释变量x样本外的某一特征值x0=(1,x10,x20,…,xp0),对因变量的值y0以及E(y0)进行估计。1、y0的点预测:2、y0的(1-α)的预测区间:七、预测和控制34例5继例1,预测从业劳动者为3000万人,固定资产原值为400亿元时该地区的总产值,并给出α=0.05时的预测区间.例5继例1,预测从业劳动者为3000万人,固定资产原35返回例6中国民航客运量的回归模型.为了研究我国民航客运量的变化趋势及成因,我们以民航客运量作为因变量y,以国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民航客运量的主要因素。Y-民航客运量(万人),x1-国民收入(亿元),x2-消费额(亿元),x3-铁路客运量(万人),x4-民航航线里程(万公里),x5-来华旅游入境人数返回36第二节可化为多元线性回归的问题在自然科学中,y关于x的数量关系多数都不是简单的线性关系,而是各种各样的非线性关系,于是我们常会遇到非线性回归模型,在非线性回归模型中,一种类型是可以通过变量变换化为线性模型,然后按线性模型加以解决;另一种类型的非线性模型是用任何变量变换办法都不能或不方便直接化为线性模型求得参数的估计值。第二节可化为多元线性回归的问题在自然科学中,y关于x的37多项式函数Y=β0+β

1x+β

2x2+…+β

pxp设τi=xi则多项式化为:Y=β

0+β

1+β

2

+…+β

p多元幂函数y=αx1β1x2β2…xpβplny=lnα+β1lnx1+…+β

plnxp令z=lny,β

0=lnα,τi=lnxiz=β

0+β

1+β

2+…+β

p多项式函数38指数函数y=a∏eβixi㏑y=㏑a+β

1x1+β

2x2+…+β

pxp

z=㏑y,β

0=㏑a,则z=β

0+β

1x1+β

2x2+…+β

pxp多元对数函数y=a+β

1㏑x1+β

2㏑x2+…+β

p㏑xp设τi=㏑xi,则y=a+β

1+β

2+…+β

p指数函数39指数函数与幂函数的积y=aexp{∑β

ixi}∏xibi㏑y=㏑a+β

1x1+β

2x2+…+β

pxp

+b1㏑x1+b2㏑x2+…+bp㏑xp令z=㏑y,β

0=㏑a,τi=㏑xi

z=β

0+β

1x1+β

2x2+…+β

pxp+b1τ

1+b2τ

2+…+bpτ

p多元回归问题分析40例7某企业在15年中每年的年产量x和总成本y,试建立y对x,x2和x3的多项式回归方程.(数据见spssex/例子7)多元回归问题分析41如果自变量相邻数值之间大小间隔相等,而且相邻样本点对应的因变量y的二次差分大致相同,则该总体可配合二次多项式函数如果是三次差分大致相同,则可配合三次多项式函数多元回归问题分析42例8根据某地1985-1993年间农产品收购额,建立回归方程.(数据见spssex/例子8)MODEL:MOD_2.Independent:xDependentMthRsqd.f.FSigfb0b1b2yQUA1.0006202698.000178.0955.22383.8810例8根据某地1985-1993年间农产品收购额,建立回归43返回例9某制造厂表面处理车间试验将铬后污水同电解污泥混合,使之生成无毒溶液,效果很好.但实际排出污水的浓度不完全相同,而且一定浓度的定量铬后污水只有同定量的电解污泥混合后,才能反应完全.现通过试验,找出铬后污水用量与电解污泥用量之比对于铬后污水浓度之间的关系.(spssex/例子9)返回44第三节曲线回归Analyze->regression->curveestimationLinear:y=b0+b1xQuadratic:y=b0+b1x+b2x2Compound:y=b0b1xGrowth:y=e(b0+b1x)Logarithmic:y=b0+b1lnxCubic:y=b0+b1x+b2x2+b3x3第三节曲线回归Analyze->regression->45S:y=e(b0+b1/x)Exponential:y=b0eb1xInverse:y=b0+b1/xPower:y=b0xb1Logistic:y=1/(1/u+b0b1x))返回多元回归问题分析46第四节逐步回归在多元线性回归中,最难的是如何选择自变量的问题,如果自变量选的太少,则自变量对Y的决定系数太小,导致过大的偏差,如果把与Y有关的自变量都选入是不可能的,一般来讲,选的自变量愈多,ESS愈大,然而多个自变量中有相当一部分对Y影响不显著,反而会因自由度的减少而增大了误差。另外,多个自变量间的相关会给回归方程的实际解释上造成麻烦,即多重共线性的影响。因此我们提出最优方程的概念,要求进入回归方程的自变量都是显著的,未进入回归方程的自变量都是不显著的。第四节逐步回归在多元线性回归中,最难的是如何选择自变47一、“最优”回归方程的选择1.回归方程中包含尽量多的信息2.回归方程中包含尽量少的变量方法:逐步剔除的回归分析方法逐步引入的回归分析方法“有进有出”的回归分析方法(逐步回归分析方法)一、“最优”回归方程的选择48逐步剔除法(backward)1、用全部变量建立一个回归方程2、对每个变量进行检验,剔除偏回归平方和最小的变量。3、对剩余变量再作回归,再检验……直至方程中没有可剔除的变量为止。逐步剔除法(backward)1、用全部变量建立一个回归方程49逐步引入法(forward)1、将所有自变量分别与因变量建立一元线性回归方程,比较各自的回归平方和,将回归平方和最大的变量引入回归方程。2、再分别将剩余变量与因变量y、及已引入的变量建立二元线性回归方程,再比较回归平方和,选择回归平方和最大的变量引入方程。直至方程检验不显著为止。逐步引入法(forward)1、将所有自变量分别与因变量建立50“逐步剔除”法与“逐步引入”法都有明显的不足之处:(1)“逐步剔除”法计算量大,且一旦某个自变量被剔除,没有机会重新进入方程.(2)“逐步引入”法一旦引入某个变量,就不再改变.多元回归问题分析51逐步回归法(stepwise)1、将所有自变量分别与y建立一元线性回归方程,将偏回归平方和最大及通过显著性检验的变量引入方程。2、将剩余变量再分别与y、及已引入方程的变量建立二元回归方程,并检验方程,剔除不显著变量。……逐步回归法(stepwise)52二、偏回归平方和设s回是p个自变量x1,x2,…xp所引起的回归平方和,si回是p-1个变量x1,x2,…xi-1,xi+1,…xp所引起的回归平方和,那么它们的差Qi=s回-si回,Qi称为自变量xi的偏回归平方和二、偏回归平方和53在回归计算的某一步需要引进的变量应该是所有未进入回归方程的变量中最显著的一个,也就是偏回归平方和最大的一个。在回归计算的某一步需要引进的变量应该是所有未进入回归方程的变54三、逐步回归分析方法的应用如果要在回归方程中剔除不显著的变量,则首先应从已引入的变量中剔除对因变量贡献最小的,也就是偏回归平方和最小的一个变量。设模型中已引入L个自变量,xi的偏回归平方和为Qi(L),再假设偏回归平方和最小的变量为xk,作检验为:三、逐步回归分析方法的应用55举例

例10假定某地区某个历史时期对某种消费品的销售量为y,居民或支配收入为x1,该类消费品的价格指数x2,社会保有量x3,以及其它消费品平均价格指数x4.试研究该地区对这种消费品的需求函数。(数据见spssex/例子10)例11对例6用逐步回归法建模。(取F剔=F引=2)举例例10假定某地区某个历史时期对某种消费品的销56第五节岭回归第五节岭回归57一、岭回归的方法原理用x`x+kI代替x`x,人为降低均方误差二、一个简单选择K值的方法一、岭回归的方法原理58三、步骤1.进行最小二乘估计2.寻找正交矩阵U,使得U`(X`X)U=∧3.利用U,对最小二乘估计量进行变换4.产生方差2

5.令Kt=2/maxi2

6.最后利用最小二乘估计量,得到岭估计量.三、步骤59推荐阅读财经研究2002.4《我国加入WTO后上海浦东新区人才需求预测研究》摘要:本文分析了我国加入WTO对清东新区经济及其行业影响,以及浦东新区人才需求与新区经济增长的关系。按照人才需求总量与经济总量相适应,人才需求结构与经济结构相适应的要求,运用各种模型和推算方法,给出了2001-2005年浦东新区人才需求总量和三大产业的人才需求值,同时具体测算了新区各主要行业的人才需求值,并提出了相应的对策和措施。关键字:人才需求;逐步回归法;主成分分析法;组合预测法推荐阅读财经研究2002.460多元回归问题分析61第二章多元回归分析在许多经济问题中,一元线性回归只不过是回归分析中的一种特例,它通常是对影响某种经济现象的许多因素进行了简化考虑的结果。若某公司管理人员要预测来年该公司的销售额y时,研究认为影响销售额的因素不只是广告宣传费x1,还有个人可支配收入x2,价格x3,研究与发展费用x4,各种投资x5,销售费用x6.因此我们需要进一步讨论多元回归问题。第二章多元回归分析在许多经济问题中,一元线性回归只不过62第一节多元线性回归第二节可化为多元线性回归的问题第三节曲线回归第四节逐步回归第五节岭回归推荐阅读第一节多元线性回归63第一节多元线性回归Yi=b0+b1x1i+b2x2i+…+bpxpi+ξiY1=b0+b1x11+b2x21+…+bpxp1+ξ1Y2=b0+b1x12+b2x22+…+bpxp2+

ξ2…Yn=b0+b1x1n+b2x2n+…+bpxpn+

ξn

第一节多元线性回归64令y11x11x21…xp1Y=y2x=1x12x22…xp2yn1x1nx2n…xpnb0ξ

1b1ξ

2B=…e=…bpξ

n则Y=XB+e令65一、多元线性回归模型的基本假定解释变量x1,x2,…,xp是确定性变量,不是随机变量,而且解释变量之间互不相关随机误差项具有零均值和同方差E(ξ

i)=0var(ξ

i)=E(ξ

i-E(ξ

i))2=E(ξ

i)2=σ2随机误差项在不同样本点之间是相互独立的,不存在序列相关cov(ξ

i,ξ

j)=0i≠ji,j=1,2,…ncov(ξ

i,ξ

j)=E((ξ

i-E(ξ

i)(ξ

j-E(ξj))=E(ξ

j)=E(ξ

i)E(ξ

j)=0

一、多元线性回归模型的基本假定66

随机误差项与解释变量之间不相关cov(xi,ξ

i)=0随机误差项服从零均值,同方差的正态分布

ξ

i~N(0,σ2)

67二、建立回归方程设令即二、建立回归方程68多元回归问题分析69三、多元线性回归模型的建模方法1.打开文件或新建文件2.Analyzeregressionliner3.建模方法(1)enter:强迫进入法(2)stepwise:逐步选择法(3)remove:强迫消除法(4)backward:向后剔除法(5)forward:向前引入法三、多元线性回归模型的建模方法70

回归统计量(1)estimates:显示回归系数及相关的指标(2)confidenceintervals:显示未标准化回归系数的置信区间(3)covariancematrix:未标准化回归系数的方差—协方差矩阵(4)modelfit:模型检验回归统计量71

回归统计量(5)Rsquaredchange(6)descriptive:显示变量的均值、标准差等(7)Partandpartialcorrelations:(8)collinearitydiagnostics:共线性诊断(9)Durbon_waston:D.w.检验统计量回归统计量72举例(一)根据我国某地区乡镇企业总产值、从业劳动者人数和固定资产原值的历年资料,求回归方程。(总产值-y,从业劳动者人数-x1,固定资产原值-x2)(数据见spssex/例子1)举例(一)73多元回归问题分析74多元回归问题分析75举例(二)卫生陶瓷是我国住宅建筑、饭店、宾馆、医疗卫生、体育、办公设施等建筑必不可少的卫生设备。合理地发展卫生陶瓷生产是国民经济的需要。卫生陶瓷产量y与城镇住宅建筑面积x1,医疗卫生机构建筑面积x2,办公室建筑面积x3有关。试根据历史资料建立回归方程。(数据见spssex/例子2)举例(二)卫生陶瓷是我国住宅建筑、饭店、宾馆、医疗卫生、体育76Y=0.488+0.576x1+4.769x2-2.145x3(4.245)(2.404)(-2.111)多元回归问题分析77举例(三)在研究国家财政收入时,我们把财政收入按收入形式分为各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y为因变量。自变量如下:x1工业总产值,x2农业总产值,x3建筑业总产值,x4人口数,x5社会商品零售总额,x6受灾面积(数据见spssex/例子3)举例(三)在研究国家财政收入时,我们把财政收入按收入形式分为78Y=-13534.1+0.209x1-0.06x2+0.763x3+0.141x4-0.855x5+0.227x6(3.292)(-0.416)(2.341)(2.703)(-2.932)(2.595)Y=-13534.1+0.209x1-0.06x2+079五、回归方程的效果的检验方程显著性检验参数显著性检验拟合优度检验(复相关系数、偏相关系数)对假设理论的检验链接五、回归方程的效果的检验80例2中,方差分析表为:yy811.方程显著性检验(F检验)F检验是以方差分析为基础,对回归总体线性关系是否显著的一种假设检验,是解释模型中被解释变量与所有解释变量之间的线性关系在总体上是否显著的方法利用F统计量进行总体线性显著性检验的步骤如下:(1)提出关于P个总体参数的假设H0:b0=b1=b2=…=bp=0(2)构造统计量(3)检验给定显著性水平α,查F分布表若F>Fα,拒绝H0,表明回归总体有显著性关系.若F<Fα,接受原假设,表明不存在线性关系1.方程显著性检验(F检验)822.参数显著性检验参数显著性检验,是对每个解释变量进行检验.如果解释变量对被解释变量的影响不显著,应从模型中删除,如果解释变量对被解释变量的影响显著,应保留在模型中.利用t统计量进行参数显著性检验的步骤如下:(1)对总体参数提出假设:H0:bi=0(2)构造统计量:(3)检验对给定α,若︱t︱>tα/2,说明拒绝原假设若︱t︱<tα/2,则接受原假设.2.参数显著性检验83如果一次t检验后,模型中存在多个不重要变量,一般是将t值最小的变量删除掉,再重新进行检验,每次只剔除1个变量.aii是(X`X)-1主对角线上第i+1个元素返回如果一次t检验后,模型中存在多个不重要变量,一般是将t值最小84六、复相关系数和偏相关系数复相关系数R是由ESS和TSS构造的统计量,用来表示回归方程对原有数据拟合程度的好坏,衡量作为一个整体的x1,x2,…,xp与y的线性关系的大小。六、复相关系数和偏相关系数85回归方程的拟合优度检验就是要检验样本数据点聚集在回归直线周围的密集程度,从而评价回归方程对样本数据的代表程度。由判定系数R2来实现。实际中,随着自变量个数的不断增加,必然会使得R2不断变化,于是出现的问题是,R2变化是由于数学习性决定的,还是确实是由于引入了好的变量进入方程而造成的。因此在作拟合优度检验的判定时,一般采用调整的R2,以消除自变量的个数以及样本量的大小对R2的影响。回归方程的拟合优度检验就是要检验样本数据点聚集在回归直线周围86其它变量被固定后,计算任意两个变量之间的相关系数,这种相关系数称为偏相关系数。其它变量被固定后,计算任意两个变量之间的相关系数,这种相关系87简单相关系数只是一种数量表面上的相关系数,而并非本质的东西。偏相关系数才真正反映两个变量的本质联系。Zero-order:零阶相关系数,计算所有自变量与因变量间的简单相关系数。Partcorrelation:部分相关,在排除了其他自变量对xi的影响后,当一个自变量进入模型后,复相关系数的平方增加量。返回简单相关系数只是一种数量表面上的相关系数,而并非本质的东西。88回归方程的残差分析残差序列的正态性分析残差序列的随机性分析残差序列的独立性分析奇异值诊断异方差诊断

返回回归方程的残差分析89残差序列的正态性分析:通过绘制标准化残差序列的带正态曲线的直方图或累计概率图来分析,确定残差是否接近正态Analyze->regression->linearPlot子对话框中选Histogram或p-p图返回残差序列的正态性分析:通过绘制标准化残差序列的带正态曲线的直90残差序列的随机性分析:可以绘制残差序列和对应的预测值序列的散点图。如果残差序列是随机的,那么残差序列应与预测值序列无关,残差序列点将随机地分布在经过零的一条直线上下。在线性回归Plots对话框中的源变量表中,选择SRESID(学生氏残差)做Y轴,选ZPRED(标准化预测值)做X轴返回残差序列的随机性分析:可以绘制残差序列和对应的预测值序列的散91残差序列的独立性分析:分析残差序列是否存在后期值与前期值相关的现象。D.W检验返回残差序列的独立性分析:92样本奇异值的诊断:样本奇异值是样本数据中那些远离均值的样本数据点。它们会对回归方程的拟合产生较大偏差影响。一般认为,如果某样本点对应的标准化残差的值超出了-3—+3的范围,就可以判定该样本数据为奇异值。Analyze->regression->statistics->casediagnostics返回样本奇异值的诊断:样本奇异值是样本数据中那些远离均值的样本数93异方差诊断:线性回归模型要求残差序列服从等方差的正态分布一般通过绘制SRESID与因变量预测值的散点图或计算SRESID和因变量预测值间的相关系数。如果残差序列和预测值的平方根成正比例变化,可以对因变量作开方处理;如果残差序列与预测值成比例变化,可以对因变量取对数;如果残差序列与预测值的平方成比例的变化,可以对因变量求倒数。还可以用WLS法消除异方差。返回异方差诊断:线性回归模型要求残差序列服从等方差的正态分布94七、预测和控制所谓预测就是给定解释变量x样本外的某一特征值x0=(1,x10,x20,…,xp0),对因变量的值y0以及E(y0)进行估计。1、y0的点预测:2、y0的(1-α)的预测区间:七、预测和控制95例5继例1,预测从业劳动者为3000万人,固定资产原值为400亿元时该地区的总产值,并给出α=0.05时的预测区间.例5继例1,预测从业劳动者为3000万人,固定资产原96返回例6中国民航客运量的回归模型.为了研究我国民航客运量的变化趋势及成因,我们以民航客运量作为因变量y,以国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民航客运量的主要因素。Y-民航客运量(万人),x1-国民收入(亿元),x2-消费额(亿元),x3-铁路客运量(万人),x4-民航航线里程(万公里),x5-来华旅游入境人数返回97第二节可化为多元线性回归的问题在自然科学中,y关于x的数量关系多数都不是简单的线性关系,而是各种各样的非线性关系,于是我们常会遇到非线性回归模型,在非线性回归模型中,一种类型是可以通过变量变换化为线性模型,然后按线性模型加以解决;另一种类型的非线性模型是用任何变量变换办法都不能或不方便直接化为线性模型求得参数的估计值。第二节可化为多元线性回归的问题在自然科学中,y关于x的98多项式函数Y=β0+β

1x+β

2x2+…+β

pxp设τi=xi则多项式化为:Y=β

0+β

1+β

2

+…+β

p多元幂函数y=αx1β1x2β2…xpβplny=lnα+β1lnx1+…+β

plnxp令z=lny,β

0=lnα,τi=lnxiz=β

0+β

1+β

2+…+β

p多项式函数99指数函数y=a∏eβixi㏑y=㏑a+β

1x1+β

2x2+…+β

pxp

z=㏑y,β

0=㏑a,则z=β

0+β

1x1+β

2x2+…+β

pxp多元对数函数y=a+β

1㏑x1+β

2㏑x2+…+β

p㏑xp设τi=㏑xi,则y=a+β

1+β

2+…+β

p指数函数100指数函数与幂函数的积y=aexp{∑β

ixi}∏xibi㏑y=㏑a+β

1x1+β

2x2+…+β

pxp

+b1㏑x1+b2㏑x2+…+bp㏑xp令z=㏑y,β

0=㏑a,τi=㏑xi

z=β

0+β

1x1+β

2x2+…+β

pxp+b1τ

1+b2τ

2+…+bpτ

p多元回归问题分析101例7某企业在15年中每年的年产量x和总成本y,试建立y对x,x2和x3的多项式回归方程.(数据见spssex/例子7)多元回归问题分析102如果自变量相邻数值之间大小间隔相等,而且相邻样本点对应的因变量y的二次差分大致相同,则该总体可配合二次多项式函数如果是三次差分大致相同,则可配合三次多项式函数多元回归问题分析103例8根据某地1985-1993年间农产品收购额,建立回归方程.(数据见spssex/例子8)MODEL:MOD_2.Independent:xDependentMthRsqd.f.FSigfb0b1b2yQUA1.0006202698.000178.0955.22383.8810例8根据某地1985-1993年间农产品收购额,建立回归104返回例9某制造厂表面处理车间试验将铬后污水同电解污泥混合,使之生成无毒溶液,效果很好.但实际排出污水的浓度不完全相同,而且一定浓度的定量铬后污水只有同定量的电解污泥混合后,才能反应完全.现通过试验,找出铬后污水用量与电解污泥用量之比对于铬后污水浓度之间的关系.(spssex/例子9)返回105第三节曲线回归Analyze->regression->curveestimationLinear:y=b0+b1xQuadratic:y=b0+b1x+b2x2Compound:y=b0b1xGrowth:y=e(b0+b1x)Logarithmic:y=b0+b1lnxCubic:y=b0+b1x+b2x2+b3x3第三节曲线回归Analyze->regression->106S:y=e(b0+b1/x)Exponential:y=b0eb1xInverse:y=b0+b1/xPower:y=b0xb1Logistic:y=1/(1/u+b0b1x))返回多元回归问题分析107第四节逐步回归在多元线性回归中,最难的是如何选择自变量的问题,如果自变量选的太少,则自变量对Y的决定系数太小,导致过大的偏差,如果把与Y有关的自变量都选入是不可能的,一般来讲,选的自变量愈多,E

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论