




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
应用回归分析[1-4章习题详解)
(21世纪统计学系列教材,第二(三)版,何晓群,刘文卿
编著中国人民大学出版社)
目录
1回归分析概述4
1.1变量间统计关系和函数关系的区别是什么?5
1.2回归分析与相关分析的区别与联系是什么?5
1.3回归模型中随机误差项£的意义是什么?5
1.4线性回归模型的根本假设是什么?5
1.5回归模型的设置理论根据是什么?在回归变量设置中应该注意哪些问题?6
1.6收集,整理数据包括哪些内容?6
1.7构造回归理论模型的根本根据是什么?7
1.8为什么要对回归模型进行检验?7
1.9回归模型有哪几个方面的应用?7
1.10为什么强调运用回归分析研究经济问题要定性分析和定量分析相结合?8
2一元线性回归8
2.1一元线性回归模型有哪些根本假定?8
2.2考虑过原点的线性回归模型y=,」%十&,,=1,2,/误差&,£2尸・£〃仍满足根本假定,
求的最小二乘估计。8
2.3证明为8=0,Zxe=0,9
J=lf=l
2.4回归方程氏y)二尸+尸]]的参数乃。,夕1的最小二乘估计与最大似然估计在什么条件下等
价?给出理由?9
2.5证明反是总的无偏估计。10
—2
2.6证明丫@「(£;)=(,+1-/_2)。"?成立。10
2.7证明平方和分解式SST=SSR+SSE.10
2.8验证三种检验的关系,即证:10
var(g)=(l」_(”X)右10
2.9验证式子:
n
XX
2.10用第9题证明:/2=七之(y_);)’是人的无偏估计。11
2p
2.11验证决定系数厂与F之间的关系式:/=---11
尸+〃一2
2.12如果把自变量观测值都乘以2,回归参数的最小二乘估计尸。和尸;会发生什么变化?如果把
自变量观测值都加上2,回归参数的最小二乘估计£;科16:会发生什么变化?11
2.13如果回归方程:(二,:+/;X相应的相关系数「很大,那么用它预测时预测误差一定较小,
这一结论能成立吗?对你的答复说明理由。12
2.14为了调查某广告对销售收入的影响,某商店记录了5个月的销售收入y(万元〕和广告费用x(万
元〕13
表2.613
1〕利用SPSS软件,散点图为:13
2]由图易知:x与y之间大致呈现线性关系。13
3〕最小二乘估计得到的回归方程为:13
4〕求回归标准误差14
5〕给出口;与夕।的置信度为95%的区间估计;14
6)x与y的决定系数;15
7)由SPSS软件可以得到回归方程作方差分析为:15
8)对回归系数Si显著性的检验15
9)做相关系数的显著性检验15
10〕对回归方程作残差图并作相应的分析;15
11)对当广告费用为4.2万元时,销售收入将到达多少,并给出置信度95$的置信区间。16
2.15一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一次现状,经过10周时间,
收集了每周加班工作时间的数据和签发的新保单数目,x为每周签发的新保单数目,Y为每周加班
工作时间〔小时〕,16
1〕画散点图;17
2)x与y之间是否大致呈线性关系?17
3)用最小二乘估计求出回归方程;17
A
4)求回归标准误差°;17
5)给出°。与O'的置信度为95%的区间估计;18
6)计算x与y的决定系数;18
7)对回归方程作方差分析;18
8)对回归系数)।显著性的检验;18
9)做相关系数的显著性检验;18
10)对回归方程作残差图并作相应的分析;19
11)该公司预计下一周签发新保单Xo=l°0°张,需要加班的时间是多少?19
12)给出丁。的置信水平为95与精确预测区间和近似预测区间;19
13)给出E〔丁。〕置信水平95%的区间估计。19
2.16,表2.8是1985年美国50个州和哥伦比业特区公立学校中教师的人均年工资y〔美元〕和学
生的人均经费收入x(美元〕。19
1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?20
2)建立y对x的线性回归;20
3)用线性回归的Plots功能绘制标准残差的直方图和正态概率图,检验误差项的正态性假设。
20
3多元线性回归20
3.1写出多元线性回归模型的矩阵表示形式,并给出多元线性回归模型的根本假设。20
3.2讨论样本容量n与自变量个数p的关系,它们对模型的参数估计有何影响?21
2
a=—!—SSE2
3.3证明〃一〃一1是误差项0的无偏估计。21
3.4一个回归方程的复相关系数R=0.99,样本决定系数=09801我们能判断这个回归方程就很
理想吗?21
3.5如何正确理解回归方程显著性检验拒绝”。,接受H。?21
3.6数据中心化和标准化在回归分析中的意义是什么?22
3.7验证〔3.5〕式夕访“22
丁_:12—八3—32
3.8利用〔3.60〕式证明〔3.61〕式成立,即在一乃3)(1一厂23)22
3.9证明y与自变量工,的偏决定系数与〔3.42〕偏F检验值是等价的。22
,F
2R=-------------------
3.10验证决定系数A与F值之间的关系式:F+m-/7-l).,/722
3.11研究货运总量y〔万吨〕与工业总产值22
1〕计算出y,x1,x2,x3的相关系数矩阵23
2〕求y关于x1,x2,x3的三元线性回归方程24
3]对所求的的方程作拟合优度检验24
4〕对回归方程做显著性检验25
5]对每个回归系数做显著性检验25
6〕将x3剔除后,进行回归分析得25
7〕有上述系数表可知,常量的95%置信区间为〔-82Z547,-97.700]26
8〕求标准化回归方程26
9〕求当”)1=75,XO2=42,XO3=3」时的给定置信水平为95%,用SPSS软件计算精
1.1变量间统计关系和函数关系的区别是什么?
答:变量间的统计关系指的是:在推断统计中,我们把变量间具有密切关联而又不能由一
个或某一些变量唯一确定另外一个变量的关系成为变量间的统计关系。而函数关系指的是
一个变量的变化能完全确定另一个变量的变化。
1.2回归分析与相关分析的区别与联系是什么?
答:区别:回归分析和相关分析相互结合,相互渗透但又有不同。他们之间的区别见下表:
设X,Y为变量,
回归分析相关分析
Y是因变量[被解释变量),X是自变X,Y地位平等
量(解释变量)
Y是随机变量,X可以是随机变量也可X,Y都是随机变量
以是普通变量
回归分析不仅可以揭示变量X对变量Y相关分析的研究主要是为刻画两类变
的影响大小,还可以由回归方程进行预量间线性相关的密切程度
测与控制。
联系:回归分析和相关分析都是相关关系1统计关系),即:两个变量间虽然有密切的联系
但他们的密切程度并没有到由一个可以完全确定另一个的程度。回归分析和相关分析都是
研究变量间关系的统计学课题。
1.3回归模型中随机误差项£的意义是什么?
答:回归模型的一般形式为:),=/(%,工2-戊〃)+£其中随机变量丫称为被解释变量(因
变量);R&,…%成为解释变量(自变量)。1八圻为一般变量月,无,…%确
实定性关系,£为随机误差c
回归模型中随机误差项£的意义是:正是因为随机误差项£的引入,才将变量之间的关系描
述为一个随机方程,使得我们可以借助随机数学方法研究y与/22,...与的关系。
1.4线性回归模型的根本假设是什么?
答:线性回归模型的根本假设为:
1)解释变量万,无,...,为是确定性变量,不是随机变量,样本容量的个数应大于解释变量
的个数。
2)随机误差项具有0均值和等方差,即
=(),,=1,2,…
3V9,2)=b\(i=j)这个假定常称为高斯-马尔科夫条件。
c?v(g£.)=0,(i=j)i,j=1,2,...J?
既&)=0,即假设观测值没有系统误差,随机误差京的平均值为零。随机误差项&的协方
差为零说明随机误差项在不同的样本点之间是不相关的(在正本假定下即为独立的),不存
在序列相关,并且有相同的精度。
3),正态分布的假定条件为:
2(~阳0,。-),i=1,2,...,//
4T通常为了便于数学上的处理,还要求n>p,即样本容量的个数要多于解释变量的个数。
1.5回归模型的设置理论根据是什么?在回归变量设置中应该注意哪些问
题?
答:回归模型的设置理论依据是:要根据所研究问题的目的设置因变量y,然后再选取与y
有统计关系的一些变量作为自变量。
变量设置中应注意的问题:1)变量的正确选择关键在于能否正确把握所研究的经济活动的
经济学内涵。即药酒研究者对所研究的经济问题及背景要有足够的了解。2)对于一些从经
济关系角度考虑非常重要的需要引进,但在实际中并没有这样的统计数据的变量,应该考
虑用相近的变量代替,或者由其他几个指标复合成一个新指标。3)在选择变量时要注意与
一些专门领域的专家合作。4)一个回归模型中并不是所涉及的解释变量越多越好。
1.6收集,整理数据包括哪些内容?
答:1〕回归模型的建立是基于回归变量的样本统计数据。当确定好回归模型的变量之后,
就要对这些变量收集,整理统计数据。
2)数据的收集是建立经济问题回归模型的重要一环,是一项根底性工作,样本数据的质量
如何,对回归模型的水平有至关重要的影响。
3)常用的样本数据分为时间序列数据和横截面数据。
①时间序列数据是按时间顺序排列的统计数据。研究宏观经济问题,这方面的时间序列数
据来自国家统计局或一些专业部委的统计年鉴。如果研究微观经济现象,如研究某企业的
产值与能耗,那么数据就要在这个企业的方案统计科获取。
对于收集到的时间序列资料要特别注意数据的可比性与数据的统计口径问题。对于没有可
比性和统计口径计算不致的统计数据耍作认真调整,这个调整过程就是个数据整理过
程。
由于许多经济变量的前后期之间总是有关联的,因此时间序列数据容易产生模型中随机误
差项的序列相关。对于具有随机误差项序列相关的情况,就要通过对数据的某种计算整理
来消除序列相关性,最常用的处理方法是差分法。
②横截面数据是在同一时间截面上的统计数据。由于一个回归模型往往涉及众多解释变量,
如果其中某i因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同影响,
就产生异方差。因此当用截面数据作样本时,容易产生异方差。对于具有异方差性的建模
问题,数据整理就是注意消除异方差性,这常与模型参数估计方法结合起来考虑。
③不管是时间序列数据还是横截面数据的,样本容量的多少一般要与设置的解释变量数
目相配套。
4)统计数据的整理中不仅要把一些变量数据进行折算,差分,甚至把数据对数化,标准化
等,有时还须注意剔除个别特别大或特别小的“野值〃,有时需要利用差值的方法把空缺
的数据补齐。
1.7构造回归理论模型的根本根据是什么?
答:1)经济回归模型的建立,通常要依据经济理论和一些数理经济学结果。例如研究的模
型有某些具体的函数形式。
2)对于根据所获信息无法确定模型的形式时,此时采月不同的形式进行计算机模拟,对于
不同的模拟结果,选择较好的一个作为理论模型。
1.8为什么要对回归模型进行检验?
答:当模型的未知参数估计出来后,便初步建立了一个回归模型,建立回归模型的目的是
为了应用它来研究经济问题,但不能马上就用这个模型去作预测,控制和分析,因为这个
模型是否真正解释了被解释变量与解释变量之间的关系,必须通过对模型的检验才能决定。
1.9回归模型有哪几个方面的应用?
答:归分析的应用非常广泛,例如在经济领域有广泛应用。1)矩阵理论和计算机技术的开
展为回归分析模型在经济研究中的应用提供了极大的方便。2)模型技术在经济问题研究中
的应用也在盛行起来。3)近年来,新的研究方法不断出现,如非参数统计,自助法,刀切
法,经验贝叶斯估计等方法都对法回归分析起着渗透和促进作用。
由此回归模型技术随着它本身的不断完善和开展以及应用领域的不断扩大,将在统计学中
占有更重要的位置,也必将为人类社会的开展起着它独到的作用。
1.10为什么强调运用回归分析研究经济问题要定性分析和定量分析相结合?
答:因为数理统计方法只是从事物外在的数量外表上去研究问题,不涉及事物质的规定性。
单纯的外表上的数量关系是否反映事物的本质?这本质研究如何?必须依靠专门学科的研
究才能下定论。所以,在经济问题的研究中,我们不能仅凭样本数据估计的结果就不加分
析的说长道短,必须把参数估计的结果和具体经济问题以及现实情况紧密结合,这样才能
俣证回归模型在经济问题研究中的正确运用。
2一元线性回归
2.1一元线性回归模型有哪些根本假定?
答:1)解释变量A丫i是确定性变量,不是随机变量。
2)随机误差项具有0均值和等方差,即
耳&)=()〃=12…4
cov(8,&六。'".j)这个假定常称为高斯-马尔科夫条件。
1,(£&)=O,(z=j)i,j=1,2,...j?
双&)=0,即假设观测值没有系统误差,随机误差,的平均值为零。随机误差项&的协方
差为零说明随机误差项在不同的样本点之间是不相关的(在正态假定下即为独立的),不存
在序列相关,并且有相同的精度。
3),正态分布的假定条件为:
g(~N(0、b),i=
2%考虑过原点的线性回归模型丫="*工+&/=12"误差…6仍满足
根本假定,求目的最小二乘估计。
答:由题知离差平方和为:2=。(力)=七(»—4*为)2,那么回的最小二乘估计及即
1=1
是使得:Q(/?;)=n^nQ(/71)有:号后田[圻*—=。解得:
,Zy「x
2
Yxi
2.3证明为e=o,'X£=0.
!=1;=1
n
证明:由正规方程:以及残差:巳="d邛:x,=y1y:
X(y-戊";短》=0
,=1
由以上等式解得:支已=o,txe=0・
i=]i=l
2.4回归方程£(),)=/?+B、x的参数人力的最小二乘估计与最大似然估计在
什么条件下等价?给出理由?
答:回归方程&),)=尸+/J4的参数国,力的最小二乘估计与最大似然估计在
g~N(O,bb的条件下等价。
证明:设获得的n组样本观测值为:(不,y),...,(x“,y)那么有:
弘=0。+0\尤+?尸=\2"1那么求氏甲、的最小二乘估计就是满足使
。(万。,力)二2(»—孔—0为)一到达最小时的反£。即对
!=1
。(尸。£)=宜(y[Po-夕MJ求极小值。
/=1
对于极大似然估计,当a〜N(O,bb时,
v、1()厂〃0一夕1修)一
X的分布密度沏九/力e
.一—二()丁po-6M
似然函数为:q?。力./)=「[£=(2"4)26-一后一
1=1X
对数似然函数为:/=lnL(£o,£[,b~)=Tln(2;Tb)-二二Z(y厂尸(尸为)
'-2b<=i
要求国,力的极大似然估计,即求/的极大值,等价于对工(%一60—四即)‘求极大值。
1=1
由以上可知,在假设白〜MO,bb时,的最小二乘估计与最大似然估计等价。
2.5证明戊是民的无偏估计。
./Z(")y
。,今=『一
曰Ixx
记明:氏,力的最小二乘估计分别为:
A-1t(工一招
0°=y-仇x=£(丁'一)y
,=lIXX
因为x为非随机变量,y1=0。+0'Xi+&、i=',2'n
E(G=a4y)=B(、+B、%,,=12...〃
解得:石(")=力那么:
得证。
—2
2.6证明var(£>=d+-^-成立。
°〃Z(U
1=1
证明:因为尤为非随机变量,y=£o+qx+g.,i=1,2…刀,那么,var(y)=b。
2.7证明平方和分解式SST=SSR+SSE.
证明:
2.8验证三种检验的关系,即证:
证明:
(1)
⑵
2.9验证式子:丫叫)=(1—一(年302
XX
2.10用第9题证明:b八2=W»(y厂y万是/的无偏估计。
2.11验证决定系数/与F之间的关系式:/=—^―
'F+n-2
以上表达式说明尸与F之间是等价的,那么我们为什么要分别引入这两个统计量,而不是
只使用其中一个?
2二SSR
r~SSE+SSR
SSR(n-2)
-SSR(〃-2)+SSE(〃-2)
…叫SSR(n-2)/SSE
址明:=-----------:—:----------
SSR(n-2)/SSE+(n-2)
SSR/X
SSE/n-2
F
F+n-2
2
(2)虽然〃与F之间是等价的,但我们不能只使用其中的一个,因为这两个统计量研究的
对象和目的均有所不同°
1)统计量F是用来进行F检验,即对线性回归方程显著性的一种检验,即其研究的是引起
总平方和SST的两个因素SSR和SSE所占必中的多少,也就是如果回归平方和SSR越大回
归的效果越好,回归方程便更显著,F的数值大于1.
2)决定系数尸=邺是研究的总体的离差平方和SST中回归平方和SSR所占的比重,即如
果尸=邺接近于1,说明因变量不确定性的绝大局部能由回归方程解释,回归方程拟合
优度就越好。另外决定系数尸=邺的数值在。与1之间。
'SST
2.12如果把自变量观测值都乘以2,回归参数的最小二乘估计氏'和川会发生
什么变化?如果把自变量观测值都加上2,回归参数的最小二乘估计由和力:
会发生什么变化?
答:设开始时的n组观测值为:5,y),4x〃,y“),离差平方和为:
0(夕。,尸)=t(%—60—四加)2
f=l
夕。,力的最小二乘估计就是满足使。(民力)=£(y[Qo—Pi为)2到达最小时的
r=l
伙干;即对。(瓦力)一/(为一4r四方)2求极小值。
/=]
卷后瓦)72厂缁十小。
◄
即:%后四)=y(丁厂/-圻乐)为二。
解得:
1)当自变量的观测值均乘以2时,此时的观测值为:(2弟,y),../2x”,y〃)离差平方和即
为:
2)当自变量的观测值都加上2时,即此时的观测值为:((X+2),y),...,((x“+2),y〃)离差
平方和为:
2.13如果回归方程:(二式+力犬相应的相关系数r很大,那么用它预测时预测
误差一定较小,这一结论能成立吗?对你的答复说明理由。
答:这一结论不一定能成立。原因如有:
1)当样本量较小时,与前面在讲述相关系数时所强调的一样,此时即使得到一个大的决定
系数,但是这个大的决定系数很可能是虚假现象。为此,可以结合样本量和自变量个数对
决定系数做调整,计算调整的决定系数。
2)即使样本量并不小,决定系数很大,例如是0.9,也并不能肯定自变量和因变量之间的
关系是线性的,这是因为有可能曲线回归的效果更好。尤其是当自变量的取值范围很窄时,
线性回归的效果通常是较好的,这样的回归方程是不能用于外推预测的。模型失拟检验来
判定因变量与自变量之间的真实函数关系,到底是线性关系还是曲线关系,如果是曲线关
系到底是哪一种曲线关系,这是可以用残差分析方法来判断回归方程的正确性。
3)反之,当算出一个很小的决定系数尸,例如尸习时,与相关系数的显著性检验相似,
这时如果样本量U不大,就会得到线性回归不显著的检验结论,而在样本容量“很大时,
检验结果仍然会得出线性回归显著的结论,不管检验结果是否显著,这时都应该尝试改良
回归的效果,例如增加自变量,改用曲线回归等。
2.14为了调查某广告对销售收入的影响,某商店记录了5个月的销售收入v
〔万元〕和广告费用x(万元〕,数据见表2.6,
表2.6
月12345
份
xI2345
y10102020
40
1〕画散点图;
2)x与y之间是否大致呈线性关系?
3)用最小二乘估计求出回归方程;
4)求回归标准误差。;
5)给出尸;与尸;的置信度为95%的区间估计;
6)计算x与y的决定系数;
7)对回归方程作方差分析;
8)对回归系数修显著性的检验;
9)做相关系数的显著性检验;
10)对回归方程作残差图并作相应的分析;
11)对当广告费用为4.2万元时,销售收入将到达多少,并给出置信度95%的置信区间。
答:
1〕利用SPSS软件,散点图为:
2〕由图易知:x与y之间大致呈现线性关系。
3〕最小二乘估计得到的回归方程为:
由:
系数a
非标准化系数标准系数B的95.0%置信区间
模型B标准误之试用版tSig.下限上限
\(常量)-1.0006.351-.157.885-21.21119.211
X7.0001.915.9043.656.035.90613.094
系数”
非标准化系数标准系数B的950%置信区间
模型B标准误差试用版tSig.卜一限上限
1(常量)-1.0006.351-.157.885-21.21119.211
X7.0001.915.9043.656.035.90613.094
a.因变量:y
可以得到回归方程为:y=-H7x
另外:设回归方程为j=片十%x
Y^y^nxy
*1
XV一〃(4
J=1
同样可得回归方程为-1+7x
4)求回归标准误差。;
模型汇总b
模型RR方调整R方标准估计的误差
1.904u.817.7566.0553()
a.预测变量:(常量).x。
b因变量:y
由以上可以知道:回归标准误差0=6.00530,Q-2=6.00530*6.00530=36.0636,另外:
_1F(1O-(-1+7x1))2+(10-(-1+7x2))2+(20-(-1+7x3))r
-3|_+(20-(-1+7x4)>+(40-(-1+7x5))2
同样可得。
5〕给出小;与万;的置信度为95%的区间估计;
系数”
模型非标准化系数标准系数B的95.0%置信区间
B标准误差试用版tSig.下限上限
1(常量)-1.0006.351-.157.885-21.21119.211
X7.(XX)1.915.9043.656.035.90613.094
a.因变量:y
由以上可以知道:给出£;与£;的置信度为95%的区间估计分别为:(0.906,13.094)
(-21.211,19.211)
6)x与y的决定系数;
模型汇总b
更改统计量
模型R方更改F更改dfldf2Sig.F更改
1.81713.36413.035
日SPSS软件,可以知道x与y的决定系数为:尸=0.817
7)由SPSS软件可以得到回归方程作方差分析为:
Anovab
模型平方和df均方FSig.
1回归490.0001490,00013.364.035a
残差110.000336.667
总计600.0004
a.预测变量:(常量),x°
b.因变量:y
由方差分析表可得:F=13.364,显著性Sig=0.035,说明y对x的线性关系显著,
8)对回归系数显著性的检验
八21n1n八2
其中。二百92=一32
・•・接受原假设H0;1=0,认为4显著不为0,因变量y对自变量x的一元线性回归成立。
9)做相关系数的显著性检验
”.■
工(为一刀)(丫一)')T
相关系数r=「=一^
|nn-1J
归…A
Vi=lr=l
70_7
®0.904
710x600-V60
r小于表中a=1%的相应值同时大于表中a=5%的相应值,.二x与y有显著的线性关系.
10)对回归方程作残差图并作相应的分析;
残差图如下:
从图上看,残差是围绕e=()随机波动,从而模型的根本假定是满足的。
散点图
因变量:y
1.0-o
O
|>3>|
^O
化
O
O
IIIIIII
・1.5-1.0-0.50.00.51.01.5
回回标准化预计值
11)对当广告费用为4.2万元时,销售收入将到达多少,并给出置信度的置信区间。
当广告费与二4.2万元时,销售收入),。=28.4万元,置信度为95%的置信区间
近似为,±20,即(17.1,39.7)
2.15一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一次现
状,经过10周时间,收集了每周加班工作时间的数据和签发的新保单数目,x
为每周签发的新保单数目,Y为每周加班工作时间〔小时〕,
表2.7
周序号123456789
10
X82521510705504809201350325670
1215
y3.51.04.02.01.03.04.51.53.0
5.0
1)画散占图.
2)x与;之高是否大致呈线性关系?
3)用最小二乘估计求出回归方程;
4)求回归标准误差。:
5〕给出〃;与〃:的置信度为95%的区间估计;
6)计算x与y的决定系数;
7)对回归方程作方差分析;
8)对回归系数四显著性的检验;
9)做相关系数的显著性检验;
10)对回归方程作残差图并作相应的分析;
11)该公司预计下一周签发新保单H=1OOO张,需要加班的时间是多少?
12)给出y。的置信水平为95%精确预测区间和近似预测区间;
13)给出E(y。)置信水平95%的区间估计。
答:
1〕画散点图;
由SPSS软件,得到散点图如下:
2)x与y之间是否大致呈线性关系?
由散点图易知,x与y大致呈线性关系。
3)用最小二乘估计求出回归方程;
系数a
非标准化系数标准系数
模型B标准误差试用版tSig.
1(常量).118.355.333.748
每周签发的新保单数目.004.000.9498.509.000
a.因变量:每周加班工作时间
由系数表可知,用最小二乘估计求出的回归方程为:y=0.118+0.004x
4)求回归标准误差。;
模型汇总b
模型RR方调整R方标准估计的误差
1.949a.900.888.48002
a.预测变量:(常量),每周签发的新保单数目。
b.因变量:每周加班工作时间
由模型汇总表可以知道,标准回归误差。为:0.4800.
5)给出民与力的置信度为95%的区间估计;
系数a
B的95.0%置信区间
模型下限上限
1(常量)-.701.937
每周签发的新保单数目.003.005
a.因变量:每周加班工作时间
由上表可以知道:常数项的置信度为95%的区间估计为(-0.701,0.937),回归系数的置
信度为95%的区间估计为(0.003,0.005Jo
6)计算x与y的决定系数;
工人-
x与y的决定系数户=弋1-------=一’agog
-—、218.525
r=l
7)对回归方程作方差分析;
由SPSS做出的方差分析如下:由方差分析表可得,F=72.396,显著性Sig=0.000,说明y
对x的线性关系显著。
Anovab
模型平方和df均方FSig.
1回归16.682116.68272.396.000a
残差1.8438.230
总计18.5259
a.预测变量:(常量),每周签发的新保单数目。
b.因变量:每周加班工作时间
8)对回归系数目显著性的检验;
人21n1n八2
其中。
VU9.XX
・•・接受原假设H。邙、=0,认为4显著不为0,因变量y对自变量x的一元线性回归成立。
9)做相关系数的显著性检验;
4653
71297860x18.525
r小于表中a=l%的相应值同时大于表中a=5%的相应值,,x与y有显著的线性关系.
10)对回归方程作残差图并作相应的分析;
从图上看,残差是围绕e=O随机波动,从而模型的根本假定是满足的
11)该公司预计下一周签发新保单乂印000张,需要加班的时间是多少?
将尢o=IOOO,代入回归方程中,得到y;=3.7小时。
12)给出乂的置信水平为95%精确预测区间和近似预测区间;
%的置信概率为的置信区间精确为y°±匕2(〃-2)J1+%。,
即为(2.7,4.7)
近似置信区间为:£±2。,即(2.74,4.66)
13)给出E〔丁。〕置信水平的区间估计。
可得置信水平为的置信区间为1土%2(〃-2)匹即为(3.33,4.07)
2.16,表2.8是1985年美国50个州和哥伦比业特区公立学校中教师的人均年工
资y〔美元〕和学生的人均经费收入x(美元〕。
1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?
2)建立y对x的线性回归;
3)用线性回归的Plots功能绘制标准残差的直方图和正态概率图,检验误差项的正态性假
设。
表2・8
序号yX序号)'X序号y%
11958333461820816305935195382642
22026331141918095296736204603124
32032535542020939328537214192752
42680045422122644391438251603429
52947046692224624451739224823947
62661048882327186434940209692509
73067857102433990502041272245440
82717055362523382359442258924042
92585341682620627282143226443402
102450035472722795336644246402829
112427431592821570292045223412297
122717036212922080298046256102932
133016837823022250373147260153705
142652542473120940285348257884123
152736039823221800253349291323608
162169035683322934272950414808349
172197431553418443230551258453766
答:
1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?
由SPSS软件可以得到散点图如下:
由散点图可以知道,y与x大致呈线性关系,因此可以用直线回归描述两者之间的关系。
2)建立y对x的线性回归;
系数"
非标准化系数标准系数
模型B标准误差试用版tSig.
1(常量)12112.6291197.76810.113.000
X3.314.312.83510.621.000
a.因变量:Y
由系数表可知,用最小二乘估计求出的回归方程为:y=12112.629+3.314x
3)用线性回归的Plots功能绘制标准残差的直方图和正态概率图,检验误差项的正态性假
设。
从图上可看出,检验误差项服从正本分布。
3多元线性回归
3.1写出多元线性回归模型的矩阵表示形式,并给出多元线性回归模型的根本
假设。
答:多元线性回归模型的矩阵表示形式如下:
多元线性回归模型的根本假定:
(1)解释变量%,工2,...,.是确定性变量,不是随机变量,样本容量的个数应大于解释变
量的个数。
(2)随机误差项具有。均值和等方差,即
的)二°,,=12
C卜=/,(,=7)这个假定常称为高斯-马尔科夫条件。
c!v(£j,£/)=0,(,=j)i,j=1,2,...,〃
£•(&)=(),即假设观测值没有系统误差,随机误差,的平均值为零。随机误差项;的协方
差为零说明随机误差项在不同的样本点之间是不相关的(在正态假定下即为独立的),不存
在序列相关,并且有相同的精度。
(3),正态分布的假定条件为:
N(O,b),i=1,2,…,〃
3.12讨论样本容量n与自变量个数p的美系,它们对模型的参数估计有何影响?
答:n>p+l。即设计矩阵X中的自变量之间不相关。样本容量的个数应该大于解释变量的个
数。又因为X为满秩矩阵,得证。
rrA2=—!—SSE2
3.3证明〃-是误差项。的无偏估计。
证明:
3.4一个回归方程的复相关系数R=0.99,样本决定系数尺2二0.9801我们能判断
这个回归方程就很理想吗?
答:我们并不能判断这个回归模型很理想。因为当样本容量N较小,变量个数P较大时,F
检验或者t检验的自由度太小,这时较多会造成样本系数A,很大的虚假现象。此时,如果
样本容量再稍微改变,位置参数会发生.较大变化即,参数估计的效果很不稳定。
3.5如何正确理解回归方程显著性检验拒绝"八接受"。?
答:一般来说,当接受假设“。时,认为在给定的显著性水平。之下,自变量/,至,…,乐
对因变量y无显著性影响,于是通过月,无,…,与去推断y无多大意义。在这种情况下,一
方面可能这个问题本来应该用非线性模型去描述,而我们无用线性模型描述了,使得自变
量对因变量无显著影响;另一方面,很可能是在考虑自变量时,由于我们认识上的局限性
把一些影响因变量y的自变量漏掉了。
当我们拒绝了假设“。时,我们也不能过于相信这个检验,认为这个回归模型己经很完
美了,其实,当我们拒绝“。时,我们只能认为这个回归模型在一定程度上说明了自变量
月与因变量y的线性关系。因此这时仍不能排除我们漏掉了一些重要的自变量。
此检验只宜用于辅助性的,事后验证性质的目的。研究者在事前根据专业知识及经验,
认为已把较重要的自变量选入了,可以用来验证原先的考虑是否周全。这时,假设拒绝,
可认为至少并不与原来的设想矛盾。如果接受””,可以肯定模型是不能反映因变量y与
自变量%,%,...,%〃的线性关系的,这个模型就不能应用于实际预测和分析。
3.6数据中心化和标准化在回归分析中的意义是什么?
答:原始数据由于自变量的单位往往不同,会给分析芍来一定的困难;又由于设计的数据
量较大,可能会以为舍入误差而使得计算结果并不理想。中心化和标准化回归系数有利于
涓除由于量纲不同、数量级不同带来的影响,防止不必要的误差。
A
3.7验证〔3.5〕式四瓦加卬
证明:
.二八2一八
r12.3'I2~~
3.8利用〔3.60〕式证明(3,61]式成立,即WRfJ
证明:
3.9证明y与自变量无的偏决定系数与〔3.42)偏F检验值居是等价的。
证明:
由上两式可知,其考虑的都是通过ASS与在总体中所占比例来衡量第j个因素的重要程度,
因而鸟与厅是等价的。
,F
.R=-----------------------------
3.10验证决定系数R与F值之间的关系式:尸+("
证明:
3.11研究货运总量y〔万吨〕与工业总产值为1亿元),农业总产值至(亿元),居民非
商品支出工1亿元)的关系,数据见表39
表3.9
编号货运总量工业总产值农业总产值居民非商品支
y(万吨)X1(亿元)x2(亿元)出x3(亿元)
116070351.0
226075402.4
321065402.0
426574423.0
524072381.2
622068451.5
727578424.0
816066362.0
9275704442
1025065423.0
1)计算出y,左,无,乂的相关系数矩阵;
2)求y关于无,刘,刘的三元先行回归方程;
3)对所求得的方程作拟合优度检验;
4〕对回归方程作显著性检验;
5)对每一个回归系数作显著性检验;
6)如果有的回归系数没通过显著性检验,将其剔除,重新建立回归方程,再作回归方程的
显著性检验和回归系数的显著性检验;
7)求出每一个回归系数的置信水平为95%的置信区间;
8)求标准化方程;
9)求当月=75,后=42,吩=3.1时的讣给定置信水平为95%,用SPSS软件计算精
确置信区间,用手工计算近似预测区间;
10)结合回归方程对问题作一些根本分析。
答:
1〕计算出y,x1,x2,x3的相关系数矩阵
由SPSS软件可得相关分析结果如下:
相关性
居民非商品支出
货运总量y工业总产值xl农业总产值x2x3
货运总量yPearson相关性1.556.731*.724*
显著性(双侧:.095.016.018
平方与叉积的和16952.500965.50()934.000273.050
协方差1883.611107.278103.77830.339
N10101010
工业总产值xlPearson相关性.5561,113.398
显著性(双侧:.095.756.254
平方与叉积的和965.500178.10014.80015,410
协方差107.27819.7891.6441.712
N10101010
农业总产值x2Pearson相关性.73r.1131.547
显著性(双侧:.016.756,101
平方与叉积的和934.00014.80096.40015.580
协方差103.77
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《2025环球调研联盟加盟合同书》
- 2025短期用工临时合同
- 2025航空货物运输合同管理规范
- 2025合同纠纷解决求助
- 2025成都市房屋租赁合同范本
- 2024北京丰台区高一(下)期中数学(A卷)及答案
- 大数据技术在金融领域的应用实践研究报告
- 石油化工设备维护手册
- 电子商务平台运营与维护指南
- 电梯安全管理人员试炼卷子以及答案
- 新音乐初放 学堂乐歌说课课件
- 对外汉语教学法智慧树知到答案章节测试2023年西北师范大学
- 乐泰胶用户手册
- 社会工作行政教案
- 通力电梯ctp-10.65s2a kce控制系统
- 课件:国产C919大飞机
- 反应釜泄漏事故应急处置卡
- GB/T 701-2008低碳钢热轧圆盘条
- GB 9706.19-2000医用电气设备第2部分:内窥镜设备安全专用要求
- 遵义会议介绍及历史意义模板课件
- 中图版八年级下册地理《第三节-欧洲西部》(一等奖课件)-
评论
0/150
提交评论