《管理统计学》课件-11 第十一章 回归分析_第1页
《管理统计学》课件-11 第十一章 回归分析_第2页
《管理统计学》课件-11 第十一章 回归分析_第3页
《管理统计学》课件-11 第十一章 回归分析_第4页
《管理统计学》课件-11 第十一章 回归分析_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十一章

回归分析1案例导入2英国著名遗传学家弗朗西斯.高尔顿爵士(SirFrancisGalton,1822-1911)在子女与父母相像程度的遗传学研究方面,取得了重要进展。高尔顿和学生卡尔.皮尔逊(KarlPearson,1857-1936)在继续这一遗传学研究的过程中,他们观测了928对夫妇,以每对夫妇的平均身高作为自变量x,而取他们的一个成年儿子的身高作为因变量y。他们发现:虽然高个子的父代会有高个子的子代,但子代的身高并不与其父代身高趋同,而是趋向于比他们的父代更加平均,就是说如果父亲身材高大而大大高于平均值,则子代的身材要比父代矮小一些;如果父亲身材矮小而大大低于平均值,则子代的身材要比父代高大一些。换言之,子代的身高有向平均值靠拢的趋向,因此,他用回归一词来描述子代身高与父代身高的这种关系。学习目标3本章要掌握回归方程的估计方法,回归参数的检验方法和回归预测方法。重点掌握最小平估计方法和线性回归方程的估计和评价。第十一章

回归分析§11.1回归分析方法§11.2一元线性回归§11.3多元线性回归4§11.1回归分析方法相关关系5散点图

感光速率随保存时间的延长而下降感光率变动Y

-25

◎◎◎◎◎◎◎◎◎◎◎◎◎◎◎◎◎0保存月数X感光率变动Y

-25

◎◎◎◎◎◎◎◎◎◎◎◎◎◎◎◎◎0保存月数X6相关关系的表现居民收入与消费的关系散点图

◎◎◎◎◎◎◎◎相关关系的表现消费收入7相关的类型正相关负相关无相关相关的类型正相关负相关无相关8协方差对于变量X和Y来说,协方差是指这两个变量各点的离差之积的平均数,记为σXY,则有

σXY=∑(X-X)(Y-Y)/N=5509525/12=459127.1可以从图中来认识。

当σXY

>0时,为正相关(散点多在第一、三象限);

当σXY

<0时,为负相关(散点多在第二、四象限);当σXY=0时,为完全无相关(散点均匀分布在各象限);当σXY=最大值时,为完全相关(散点形成一条直线)。

9相关系数——能够反映变量之间密切程度

相关系数,记为r

可决系数越大,两种变量之间的密切程度越高。从数量关系看,可决系数的取值范围为-1≤r≤1。

一般地说,相关系数大于0.8或等于1就为高度相关;超过0.5为显著相关;在0.3为低度相关,为0是无相关。从本例中可知相关系数为0.97,表明家庭人均生活费收入水平的提高会引起人均食品支出的增加,两者之间的依存关系非常稳定。相关系数——能够反映变量之间密切程度

相关系数,记为r

可决系数越大,两种变量之间的密切程度越高。从数量关系看,可决系数的取值范围为-1≤r≤1。

一般地说,相关系数大于0.8或等于1就为高度相关;超过0.5为显著相关;在0.3为低度相关,为0是无相关。从本例中可知相关系数为0.97,表明家庭人均生活费收入水平的提高会引起人均食品支出的增加,两者之间的依存关系非常稳定。10居民家庭的人均食品支出(X)与家庭人均生活费收入(Y)相关计表

序号YX

(Y-Y)2(X-X)2(X-X)(Y-Y)

1820750-1145.8-652.51312934.0425756.3747656.22930850-1035.8-552.51072950.6305256.3572297.931050920-915.8-482.5838750.6232806.3441889.6413001050-665.8-352.5443334.0124256.3234706.2514401200-525.8-202.5276500.741006.3106481.2615001200-465.8-202.5217000.741006.394331.2717001400-265.8-2.570667.36.3664.6819001500-65.897.54334.09506.3-6418.7925001760534.2357.5285334.1127806.3190964.61029002000934.2597.5872667.4357006.3558164.611355020001584.2597.52509584.1357006.3946539.612400022002034.2797.54137834.2636006.31622247.9

合计23590168300012041891.72657425.05509525.0平均值1965.81402.5--1003491.0221452.1459127.111相关关系与协方差(1)一个变量的变化会依存另一个变量的变化而变化,就称这两种关系为相关关系。(2)如果人均收入与人均食品支出存在相关关系,则有协方差不等于0。(3)协方差是指这两个变量各点的离差之积的平均数,记为σXY,则有

σXY=∑(X-X)(Y-Y)/N=5509525/12=459127.1(4)相关系数与协方差的区别与联系。协方差的大小会受到计量单位和数据均值水平的影响,从而使不同相关总体之间相关程度缺乏可比性。为了使不同相关总体之间的相关程度具有广泛的可比性,需要计算相关系数。相关系数是指协方差与两个标准差之比,记为r,则有

r=σXY/(σXσY

=459127.1/471407.7=0.97412人均收入与人均食品支出的关系

r=σXY/(σXσY

=459127.1/471407.7=0.974=97.4%r=√R2=√0.9486

2=0.97413相关分析vs回归分析14§11.2一元线性回归一、回归模型二、最小二乘估计三、判定系数四、显著性检验五、利用估计回归函数进行估计和预测15一、回归模型据了解在大学附近的餐馆的季收入与学生人数有关。总人数x:2、3、6、6、8(百人)季收入y:1、2、5、6、9(万元)问:当人数为10百人时,估计餐馆季收入将达到多少?16设所求方程为y季度销售收入

◎◎◎◎◎

◎◎

◎◎

x学校人数=a

+bx17注意:实际值与估计值之间的离差越小越好

较好

◎◎◎◎◎◎较差

◎◎◎◎◎◎◎∑(y-)2=最小值◎实际值平均偏离估计值最小是最优估计线。18一元线性回归模型 yi=β0+β1xi+εi其中, yi:第i次试验的因变量观测值,是随机变量; xi:第i次试验的自变量取值,是已知常数; β0和β1:参数; εi:随机误差项,通常假定E(εi)=0,V(εi)=σ2,且

ε1,ε2,⋯,εn两两互不相关; i=1,2,⋯,n。19模型具有的特点(1)第i次试验中y的观测值是由两部分叠加而成的:一是常数项β0+β1xi,表明y随x的变化是一种线性趋势;另一是随机误差项εi,表明对这种线性趋势的随机偏离。(2) E(yi)=β0+β1xi

我们称E(y)=β0+β1x

为模型(6.1.1)的(线性)回归函数,参数β0和β1称为回归系数。β1是回归线的斜率,表示x每增加一个单位时y的期望(或平均)增量,β0是回归线在y轴上的截距。(3)y1,y2,⋯,yn具有相同的方差σ2,且互不相关,这是因为V(yi)=V(β0+β1xi+εi)=V(εi)=σ2,i=1,2,⋯,nCov(yi,yj)=Cov(β0+β1xi+εi,β0+β1xj+εj)=Cov(εi,εj)=0,1≤i≠j≤n20图6.1.2回归模型的假定21二、最小二乘估计1.最小二乘估计的概念2.最小二乘估计的性质221.最小二乘估计的概念最小二乘法(methodofleastsquares)的基本想法是寻找这样的β0和β1,使得所有观测值yi总体上尽可能少

地偏离其(预计的)期望值β0+β1xi,而

可用来描述n个观测值对其期望值的总偏离量。因此,可将满足

的b0和b1作为β0和β1的估计,并称其为最小二乘估计(可用LSE表示)。1.最小二乘估计的概念最小二乘法(methodofleastsquares)的基本想法是寻找这样的β0和β1,使得所有观测值yi总体上尽可能少

地偏离其(预计的)期望值β0+β1xi,而

可用来描述n个观测值对其期望值的总偏离量。因此,可将满足

的b0和b1作为β0和β1的估计,并称其为最小二乘估计(可用LSE表示)。23β0和β1的最小二乘估计为

其中回归函数E(y)=β0+β1x估计为

称之为估计回归函数。称

为第i个观测值的拟合值。易见,拟合值

是期望值E(yi)的一个估计。242.最小二乘估计的性质(1)b0和b1分别是β0和β1的无偏估计,即有E(b0)=β0,E(b1)=β1(2)b0和b1的方差为注

b0和b1的方差不仅取决于误差项方差σ2的大小,而且还取决于样本容量n和观测数据中自变量x的分散程度。除了σ2的因素外,观测数据越多,x的观测值越分散,估计量b1和b0的方差就越小,即其估计值就越稳定;反之,观测数据越少,越是在一个较小的自变量范围内取得的,b1和b0的方差就越大,从而估计回归线也就越不稳定。25三、判定系数1.残差2.平方和分解3.判定系数和相关系数261.残差把观测值yi与相应拟合值

之差称为第i个残差(residual),用ei表示。即有所有n个残差之和为残差平方和定义为SSE除以自由度n−2称为残差均方,记为MSE,即MSE是σ2的无偏估计。相应地,σ可估计为

。272.平方和分解当不考虑x时,预测y的不确定性(或者说,y的变差),可用观测值yi(i=1,2,⋯,n)与其平均值

的离差平方和来度量,称之为总平方和,记为SST,即

它具有自由度n−1。SST可作如下的平方和分解:SST=SSR+SSE

其中

称为回归平方和,它的自由度为1。SSR除以自由度称为回归均方,记为MSR,即283.判定系数和相关系数当使用自变量x进行回归时,预测y的不确定性程度将从SST降低到SSE,其减小的比例为

称r2为判定系数(coefficientofdetermination)。由于0≤SSE≤SST,故0≤r2≤1可以把r2解释为使用自变量x时y的总变差减少的比例(或总变差中可由x解释的比例)。r2越大,引进自变量x后所减少的y变差就越多,在散点图中估计回归线拟合散点的效果也就越佳。29对r2开平方根

并要求r的正负号与估计回归线的斜率b1的符号相同,由于

由(3.2.9)式知,r是x与y的样本相关系数。30四、显著性检验我们需要检验假设H0:β1=0,H1:β1≠0在本节下面的讨论中,为了能够进行假设检验以及求有关置信区间、预测区间,我们将模型(6.1.1)中的有关误差项条件加强为:ε1,ε2,⋯,εn独立同分布于N(0,σ2)。从而,y1,y2,⋯,yn亦相互独立,且有yi~N(β0+β1xi,σ2)1.t检验2.F检验311.t检验构造检验统计量

当H0为真时,t~t(n−2)。对给定的α,拒绝规则为:若|t|≥tα/2(n−2),则拒绝H0β1的1−α置信区间为1.t检验构造检验统计量

当H0为真时,t~t(n−2)。对给定的α,拒绝规则为:若|t|≥tα/2(n−2),则拒绝H0β1的1−α置信区间为322.F检验使用检验统计量

当H0为真时,F~F(1,n−2)。对给定的α,拒绝规则为:若F≥Fα(1,n−2),则拒绝H0来

源平方和自由度均方F回归SSR1残差SSEn−2总

计SSTn−133SSR与残差平方和SSE可用更简便的公式计算。34F检验和前面的t检验是彼此等价的。F检验和前面的t检验是彼此等价的。来

源平方和自由度均方F回归14010659.1114010659.1102.92残差1905820.3314136130.023总

计15916479.415表6.1.3 方差分析表35五、利用估计回归函数进行估计和预测新观测值y0被看作是新的独立试验的结果,满足y0=β0+β1x0+ε0

其中ε0~N(0,σ2)。

可作为E(y0)的点估计(是无偏的)和y0的点预测。1.新观测值y0均值的置信区间2.新观测值y0的预测区间361.新观测值y0均值的置信区间E(y0)的置信度为1−α的置信区间为

其中对x水平上不同的x0值,由上式得到的置信区间的大小一般是不同的。x0离均值

越远,即

越大,

也越大,因而就有越大的置信区间;反之,x0离

越近,就有越小的置信区间。当

时,

,置信区间达到最小。将x0取各个值的E(y0)的置信上限和置信下限都连起来,其形状如图6.1.4中的两根实线所示。37图6.1.4E(y0)的置信区间和y0的预测区间382.新观测值y0的预测区间

称随机区间

为新观测值y0的置信度是1−α的预测区间。x0离

越远,预测区间越大;当

时,

,预测区间达到最小。对各x0值将y0的预测上、下限都连起来,其形状如图6.1.4中的两根虚线所示。可见,y0的预测区间远比E(y0)的置信区间宽。39例题居民家庭的人均支出和人均收入的关系表中的Y和X分别是12个居民家庭的人均月食品支出和人均月收入水平的样本数数据。假定在商品价格不变的条件下,建立实际的食品支出与实际的收入水平之间的回归关系,并验证恩格尔定律。编号人均收入X人均食品支出Y182752938531059241301055144120615012071601308180145920015610270200113002001240022040解法如下:解:(1)设所求回归方程为

=b0+b1x

(2)根据最小平方法的要求,得出求参数a和b的标准方程式如下:

∑y=nb0+b1∑x∑xy=b0∑x+b1x2

41编号人均收入X人均食品支出YXYX2Y2182756150672456252938579058649722531059296601102584644130105136501690011025514412017280207361440061501201800022500144007160130208002560016900818014526100324002102592001563120040000243361027020054000729004000011300200600009000040000124002208800016000048400合计2214164835274550743425180042求a和b将表的合计数代入上式,可得:(3)得到样本回归方程为:43式中回归系数b=0.4921表示人均月收入每增加1元,人均月食品支出会增加0.4921元;截距a=46.55表示即使在人均月收入为0的情况下,人均月食品支出也需要46.55元。根据该式计算的食品支出在总收入中平均所占的比重为:

/Xt=46.55/Xt+0.4921。式中的/Xt即所谓的恩格尔系数。显而易见,恩格尔系数会随着Xt的增加而递减,它与恩格尔定律的结论是一致的。统计分析的要点44§11.3多元线性回归一、多元线性回归模型二、最小二乘估计三、复判定系数四、显著性检验五、利用估计回归函数进行估计和预测45一、多元线性回归模型p元线性回归模型:yi=β0+β1xi1+β2xi2+⋯+βpxip+εi

其中, yi:第i次试验的因变量观测值,是随机变量; xi1,xi2,⋯,xip:第i次试验的p个自变量的值,是已知常数; β0,β1,β2,⋯,βp:参数; εi:随机误差项,通常假定E(εi)=0,V(εi)=σ2,且ε1,ε2,⋯,εn两两互不相关; i=1,2,⋯,n。46在(6.2.1)式两边取数学期望得E(yi)=β0+β1xi1+β2xi2+⋯+βpxip

称E(y)=β0+β1x1+β2x2+⋯+βpxp

为模型(6.2.1)的(线性)回归函数,参数β1,β2,⋯,βp称为偏回归系数。当模型只包含两个自变量时,回归函数为E(y)=β0+β1x1+β2x2

它是三维空间上的一个平面,称为回归平面,见图6.2.1。β1表示当x2保持不变时x1每增加一个单位因变量y的期望(或平均)增量;类似地,β2表示当x1保持不变时x2每增加一个单位y的期望增量;β0是回归平面在y轴上的截距。当x1与x2的相关程度较高时,很难对回归系数β1和β2的意义作出解释。47图6.2.1含有两个自变量的回归函数图形48用矩阵表示线性回归模型令49

则有y=Xβ+ε

其中, y:因变量观测值向量; X:常数矩阵,一般要求X是列满秩的; β:参数向量; ε:随机误差项向量,E(ε)=0,V(ε)=σ2I。在上述模型中,y的数学期望和协方差矩阵分别为E(y)=E(Xβ+ε)=Xβ+E(ε)=Xβ

和V(y)=V(Xβ+ε)=V(ε)=σ2I50二、最小二乘估计根据最小二乘法原理,β=(β0,β1,⋯,βp)′的最小二乘估计b=(b0,b1,⋯,bp)′应满足要求β的最小二乘估计为b=(X′X)−1X′yb的数学期望为E(b)=(X′X)−1X′E(y)=(X′X)−1X′Xβ=β51

即b是β的无偏估计;b的协方差矩阵为 V(b)=(X′X)−1X′V(y)X(X′X)−1 =(X′X)−1X′(σ2I)X(X′X)−1=σ2(X′X)−1我们称

为估计回归函数,称

为第i个残差。可见,(6.2.8)式为残差平方和。52三、复判定系数总平方和:

自由度为n−1

回归平方和:

自由度为p

残差平方和:

自由度为n−p−1

回归均方:

残差均方:

是σ2的无偏估计53使用自变量x1,x2,⋯,xp之后,y变差从SST减少到SSE,减少的量为SSR,相应减少的比例为

称之为复判定系数(multiplecoefficientofdetermination)。复判定系数可理解为y的总变差中可由x1,x2,⋯,xp解释的比例,R2越大,表明回归函数的拟合效果越好。记R为R2的正平方根,则R正是y与x1,x2,⋯,xp的样本复相关系数,它度量了y与x1,x2,⋯,xp之间线性关系的强弱。模型中自变量个数p=1时,复判定系数R2就简化为(6.1.24)式的判定系数r2。与r2的取值范围一样,有0≤R2≤154四、显著性检验本节的余下部分,将在模型(6.2.1)的基础上进一步假定:ε1,ε2,⋯,εn独立同分布于N(0,σ2),即ε~Nn(0,σ2I)。于是y~Nn(Xβ,σ2I)b~Np+1(β,σ2(X′X)−1)1.F检验2.t检验551.F检验为了检验因变量y与一组自变量x1,x2,⋯,xp之间的线性关系,需要检验假设 H0:β1=β2=⋯=βp=0H1:至少有一个βi不等于零(i=1,2,⋯,p)使用检验统计量

当H0为真时,F~F(p,n−p−1)。对于给定的显著性水平α,拒绝规则为:若F≥Fα(p,n−p−1),则拒绝H056来

源平方和自由度均方F回归SSRp残差SSEn−p−1总

计SSTn−1572.t检验如果上述F检验显示回归函数是显著的,则还检验假设H0:βj=0,H1:βj≠0使用检验统计量其中

的估计,而cjj是 (X′X)−1对角线上的第j个元素。当H0为真时,t~t(n−p−1)。对于给定的显著性水平α,拒绝规则为:若|t|≥tα/2(n−p−1),则拒绝H0偏回归系数βj的1−α置信区间为bj±tα/2(n−p−1)s(bj) 58输出6.2.2方差分析表输出6.2.3参数估计值表输出6.2.4回归系数的0.95置信区间表59五、利用估计回归函数进行估计和预测在模型(6.2.1)下,进行一次独立的试验。p个自变量取值为x01,x02,⋯,x0p,得到的因变量值为y0,满足y0=β0+β1x01+⋯+βpx0p+ε0

其中ε0~N(0,σ2)。1.新观测值y0均值的置信区间2.新观测值y0的预测区间601.新观测值y0均值的置信区间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论