薪酬设计回归分析_第1页
薪酬设计回归分析_第2页
薪酬设计回归分析_第3页
薪酬设计回归分析_第4页
薪酬设计回归分析_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第第27页,共#页24022262202351112001363131801231601113列和(f)3614115140280260)240斤220公200(180量160获140收120亩100每80均280260)240斤220公200(180量160获140收120亩100每80均60平402023236212211253XI002468101214161820降雨量(毫米)图9-3降雨量与收获量之间相关图三、简单相关系数(一)简单相关系数的意义简单线性相关图表虽然直观,但不能精确地描述现象间的相关关系。测量两个变量之间线性相关程度和相关方向的指标,称为简单相关系数。总体相关系数一般用R表示,定义式为G2,R二亠(式9.1)XY式中,Gx和Gy表示变量X和Y的标准差,对有限总体而言,其计算公式为(式9.2)式9.3)G2XY表示两个变量X和Y之间的协方差,计算公式为

E(XE(X)Y(X)Y-■X-N式9.4)这里,变量X和Y为总体变量,N为总体单位数,卩和卩分别为变量X及YXY的总体平均数,计算式为yv卩=(式9.5)XNyY卩=(式9.6)YN要理解相关系数R的意义,首先要明确协方差b2和标准差c、b在反映变XYXY量之间相关关系中的作用。协方差b2XY反映了变量X和Y的共变性,可以显示两个变量的相关方向和相关关系的密切程度,它可能出现以下几种情况:第一,所有相关点均为正相关,则b2XY0,说明两个变量之间正线性相关。第二,所有相关点均为负相关,则b2XY0,说明两个变量之间负线性相关。第三,在全部相关点中,既有正相关、又有负相关和零相关,在计算协方差时就会出现正负抵销。抵销的结果如为正数则是正相关,如为负数则是负相关。数值大表示相关程度强,数值小则表示相关关系弱。若正、负全部低销掉了,结果为零,则表示不相关。第三种情况是实际经济生活中最常见到的情况。此外,还有两种极端的情况:当所有相关点都是零相关时,抵销结果为零,表示两个变量完全没有相关关系。当所有相关点全部落在直线上时,表示两个变量完全线性相关,即存在函数关系。进一步,相关系数是一个界于+1和T之间的数,即-1WRW1,若R=l,说明两个变量之间存在完全正线性相关;若R=-1说明两个变量之间存在完全负线性相关;若0R1,说明两个变量之间存在一定程度的正线性相关;若-1R0,说明两个变量之间存在一定程度的负线性相关;若R=0,说明两个变量之间没有线性相关关系。(二)简单相关系数的计算在实际工作中,总体相关系数R一般是未知的,往往需要用样本资料推断总体的相关情况,因而需要计算样本相关系数。1•固定简单线性相关系数的计算设x和y为样本变量,其中y为随机变量,x为非随机变量,n为样本容量,X、

y分别为变量Xy分别为变量X及y的样本平均数,S、x差及它们之间的样本协方差,其计算为_Exx=-n__Eyy=一n'E(x—X)2sx=n—s和s2分别表示变量X和y的样本标准yxy(式9.7)(式9.8)-(式9.9)式9.10)(式9.11)s=壬(y-y)2式9.10)(式9.11)yYn2E(x—X)(y—y)xyn于是,就可得到与总体相关系数计算形式相同的样本相关系数(记为r)的公式s2r=(式9.12)ssxy经过简单的推导,上式还可变化为下面易于计算的形式式9.13)nExy—ExEy式9.13)I1InEx2—(Ex)2pnEy2—(Ey)2根据表9-1的资料计算相关系数如表9-3所示:表9-3固定简单线性相关系数计算表序号人均收入水平(元)X食品支出占生活费支出比重(%)yX2y2xy128068.3784004664.8919124232067.51024004556.2521600339066.21521004382.4425818453064.92809004212.0134397565056.74225003214.8936855667060.24489003624.0440334779054.46241002959.3642976888049.07744002401.0043120991050.58281002550.254595510105043.611025001900.9645780合计6470581.3481430034466.09355959将表9-3数字代入上述相关系数计算公式,得:nExy-ExEyIfx:'nEx2-(Ex)2nEy2-(Ey)210X355959-6470x581.3门甘==—0.9810x4814300-64702\10x34466.09-581.322.随机简单线性相关系数的计算如果x和y均为随机变量,计算样本相关系数的基本式仍为s2r=xy_ssxy但由于存在联合频数(fi)其具体的计算略有变化,经过不复杂的类推可得下式EfExyf-ExfEyfr=ijijijiijj(式9.14)NEx2f-(Exf)2;EfEy2f-(Eyf)2'IIIii¥jjjjj根据表9—2资料计算相关系数,计算过程如表9—4、表9—5、表9—6所示:表9-4降雨量(x)数据的计算表降雨量(毫米)xfX2XfX2fiiiiiii83642419210610060600121414416820161411196154215616525680128018132418324合计40一5046568表9-5平均每亩收获量(y)数据的计算表平均每亩收获量(公斤)yfjy2jyfjjy2fjjj1603256004807680018033240054097200200134000026005200002201148400242053240024065760014403456002604676001040270400合计40一85201842400表9-6平均每亩收获量(y)数据的计算表降雨量(毫米)X平均每亩收获量(公斤)yfxyfijijijij816011280818011440820011600101601160010200360001022024400121601192012180243201220061440012220379201224025760142003840014220515400142402672014260136401622013520162402768016260283201626014680合计——40109000根据以上各表资料可得:r-YfYxyf11~~j——YxfYyf耳1~1j—jN%2f—(Yxf)2习%2f_(Yyf)2iiiiivjjjjj=40x109000—504x8520=•-■'40x6568—5042\;40x1842400—85202=0.67四、相关系数的统计推断总体相关系数R一般是未知的,能够计算出的只是样本相关系数r,r虽然能够提供关于总体相关程度与方向的某种信息,r愈大,在一定程度上说明总体相关程度愈高,但也可能犯错误。这就需要根据样本资料对总体相关系数R进行检验和估计。(一)关于总体相关系数R的检验由于相关系数r的分布复杂,不能直接利用它去进行统计推断,但如果设111+R卜Z=ln()(式9.15)R21—Rz=ln()(式9.16)r21—r可以证明,当样本(x,y)抽自正态分布总体时,z近似服从平均值为Z,方差rR

为丄7的正态分布,于是n-3z=(z—Z)*:n—3(式9.17)rR近似服从标准正态分布。据此可以检验H:R=R(R工0)000利用例9.1资料,计算的样本相关系数r=-0.98,是否可以认为总体相关系数R=-0.90,统计假设为H:R=—0.900H:Rh—0.901此时,I〕1+R、111—0.90、Z=ln()=ln()=-1.472R21—R21+0.9011+厂、11—0.98z=ln()=ln()=—2.298r21—./21+0.98于是,检验统计量z=(z-Z)i;n—3rR=(-2.298+1.472)J10—3=—2.185当显著水平a=5%时,查正态分布表可得Z=Z=—1.96>Z=—2.186,a0.0252故否定H°,接受片,即不能认为总体的相关系数R=-0.90。同理,也可以对总体相关系数进行单边检验。(二)关于总体相关系数R的区间估计首先,求出Z的估计区间。若与估计保证程度对应的概率度为Z,Z的估计区间RR就为z-rz-rr对于例9.1,Z的95%置信估计区间为R1.961.96-2.298-<Z<-2.298+<10—3R<10—3即-3.039<Z<-1.557R根据Z的置信区间,可以换算出R的置信区间:Rri+r、当Z=ln()=-3.039时,R=-0.99R21-Rri+r、当Z=ln()=-1.557时,R=-0.92R21-R计算结果说明,居民人均收入水平与食品支出占生活费支出比重之间的总体相关系数R的95%的置信区间为-0.99至-0.92。同理,也可类似地对例9.2进行分析,请读者自己思考。第二节简单线性回归分析一、回归分析的概念和种类从历史上看,“回归”概念的提出是要早于“相关”的,生物统计学家高尔顿在研究豌豆和人体的身高遗传规律时,首先提出“回归”的思想。1887年,他第一次将“回复"(Reversion)作为统计概念使用,后改为“回归”(Regression)一词。1888年他又引入“相关”(Correlation)的概念。原来,他在研究人类身高的遗传时发现,不管祖先的身高是高还是低,成年后代的身高总有向一般人口的平均身高回归的倾向。通俗的讲就是,高个子父母,其子女一般不象他们那样高,而矮个子父母,其子女一般也不象他们那样矮,因为子女的身高不仅受到父母的影响(尽管程度最强),还要受其上两代共四个双亲的影响(尽管程度相对弱一些),上三代共八个双亲的影响(尽管程度更加弱一些),如此等等,即子女的身高要受到其2n(n趋近无穷)个祖先的整体(即总体)影响,是遗传和变异的统一结果。回归和相关已成为统计学中最基本的概念之一,其分析方法已是最标准、最常用的统计工具之一。从狭义上看,相关分析的任务主要是评判现象之间的相关程度高低以及相关的方向的,而回归分析则是在相关分析的基础上进一步借用数学方程将那种显著存在的相关关系表示出来,从而使这种被揭示出的关系具体化并可运用于实践中去。但也常从广义的角度去理解相关和回归,此时回归分析就包含着相关分析。回归分析最基本的分类就是一元回归和多元回归,前者是指两个变量之间的回归分析,如收入与意愿支出之间的关系;后者则是指三个或三个以上变量之间的关系,如消费支出与收入及商品价格之间的关系等。进一步,一元回归还可细分为线性回归和非线性回归两种,前者是指两个相关变量之间的关系可以通过数学中的线性组合来描述,后者则没有这种特征,即两个相关变量之间的关系不能通过数学中的线性组合来描述,而表现为某种曲线模型。二、简单线性回归方程总体的简单线性回归模型可表示为

Y=A+BX+e(式9.18)上式中,X称为自变量,Y称为因变量,e称为随机误差值。从这里可以看出相关分析与回归分析的显著区别,在前述的相关分析中通常可以将变量X和Y视作是某种“对等”的因素,而在这里的回归分析中,它们却是不“对等”的。自变量是解释变量或预测变量,并假定它是可以控制的无测量误差的非随机变量;相反,因变量是被解释变量或被预测变量,它是随机变量,即相同的Y可能是由于不同的X所造成,或者相同的X可能引起不同的Y,其表现正是随机误差项e。随机误差值e是观察值Y能被自变量X解释后所剩下的值,故又称为残差值,它是随机变量。A和B为未知待估的总体参数,又称其为回归系数。由此可见,实际观测值Y被分割为两个部分:一是可解释的肯定项A+BX,二是不可解释的随机项e。与相关分析类似,总体的回归模型Y=A+BX+e是未知的,如何根据样本资料去估计它就成为回归分析的基本任务。由此可以假设样本的回归方程如下:Y=a+bx(式9.19)上式中,Y、a和b分别为Y、A和B的估计值。如果对变量X和Y联合进行n次观察,就可以获得一个样本(x,y),据此就可求出a、b的值。求a、b的方法有多种,但一般是采用最小平方法。它要求观察值y与估计值Y的离差平方和达到最小值,即Q=》(y-Y)2(y-a-bx)2=最小值满足这一要求的a和b可由下述标准方程求出工y=na+b工x工xy=a工x+b工x2解方程得:b」(X一X)(y一刃二畑-Z(式9.20)Z(x一x)2nZx2一(Zx)2a=ya=y-bx=N-b竺nn式9.21)例9.3为研究某类企业的生产量和单位成本之间的关系,现随机抽取10个企业,得如下数据(见表9-7):根据该资料,经计算可得表9-8

表9-710个企业的生产量和单位成本情况编号12345678910产量(万件)2344566789单位成本(元/件)52545248484645444038表9-8一元线性回归计算表编号产量(万件)x单位成本(元/件)yX2y2xy7KYy-Y12524270410454.35-2.3523549291616252.101.90345216270420849.852.15444816230419247.85-1.85554825230424047.600.40664636211627645.350.65764536202527045.35-0.35874449193630843.100.90984064160032040.85-0.851093881144434238.60-0.60合计544673362205324224670由上表资料,可得:nZxy-SxZy10x2422-54x467门卄b===-2.25nSx2-(Yx)210x336-542=58.85a=岂-bYX=也-(-2.25)塁=58.85nn1010这样就可以得到生产量(x)和单位成本(y)之间的样本回归方程Y=a+bx=58.85-2.25x在简单线性回归方程Y二a+bx中,a为截距,b为斜率,后者表示自变量x变化一个单位时,Y将平均变化b个单位。当b取正值时,表明x和y的变化方向相同,当b取负值时,表明x和y的变化方向相反。本例中,b=-2.25,表明产量每增加1万件时,单位成本将平均下降2.25元。根据样本资料获得的回归方程Y=a+bx又称为经验方程,如果计算出观察值y的估计值Y,并进一步求出残差y-Y,就可以观察回归方程对总体方程拟合的优良程度。对于某一特定的自变量x而言,观察值y同其估计值Y是有一定差别的,比如,

当产量为5万件时,实际单位成本为48元,而其估计值为47.60元,两者相差0.4元,但全部残差项之和等于零(见表9-8),这说明估计值平均来说是无偏的。事实上,最小平方估计量还满足下式工(y-Y)=0zY这里,Y表示估计值Y的平均值,即Y二——n从理论上讲,最小平方法具有优良特性,因为参数A、B的最小平方估计量a、b是最优的线性无偏估计量,这一性质通常称为“高斯—马尔科夫定理”,这也是最小平方法获得广泛应用的主要原因。此外,如果记随机误差项e的方差为02,它也是未知的总体参数,其无偏估计量为式9.22)Q_Z(y-Y)2式9.22)n-2n-2上式中,Q_y-Y)2称为剩余离差平方和或残差平方和,n-2为自由度。三、离差分析对于某一个观察值y.,其离差大小可通过观察值y.与全部观察值的均值y之差iiy-y表示出来,y-y又可进一步分解为Y-y和y-Y两部分,即iiiiiy-y=(Y-y)+(y-Y)

iiii可以证明,当变量X和Y之间线性相关时,还进一步存在下述等式关系z(y-y)2=z(Y-y)2+z(y-Y)2通常记t=z(y-y)2R=z(Y-y)2Q_z(y-Y)2分别称T、R和Q为总离差平方和、回归离差平方和和剩余离差平方和。总离差

平方和反映了样本中全部数据的总波动程度;回归离差平方和反映了回归估计值自身的离散程度,它是由于回归方程及自变量X取值不同所造成的,是可以解释的差别;剩余离差平方和是回归拟合后所剩下的部分,是不能解释的变差,故又称为残差平方和。显然,T中R的比重愈大,或者Q的比重愈小,则说明线性回归拟合愈好,反之,拟合就愈差。由此可以建立下述指标r2r2=—T式9.23)称r2为样本相关程度的判定系数,r=;R为样本相关系数。由此就可直观地看T出r2和r的特性:r2<1或T<rJ+1|r|愈接近于1,相关程度愈强;|r|愈接近于0相关程度愈弱。r取正值时表明正相关,r取负值时表明负相关。r只能表明总体是否可能存在线性相关,当|r|很小甚至接近于0时,只能说明总体可能不存在线性相关,但是否存在非线性相关还需进一步判定。从计算角度看,上述几种离差还可表示为T=S(y-y)2=Yy2—_(Yy)2n八__1R二》(Y-y)2=b2^(X—x)2=b2[Sx2—(Sx)2]nQ=S(y—Y)2=T—R对于例9.3,有T=Sy2—-(Sy)2=22053——X(467)2=244.10n10R=b2[Sx2—-(Sx)2]=(—2.25)2X[336—丄X(54)2]=224.78n10Q=T—R=244.1—224.78=19.32计算结果说明:单位成本的总离差平方和为244.10,其中由于产量变化所造成的为224.78,占92.09%,由于产量以外的所有因素共同造成的为19.55,占8.01%。据此计算的相关系数为r=T=:224.78r=T=:224.78\T飞244.10=0.96四、统计推断依据样本数据得到的经验回归方程,是否能够较好地拟合了总体的实际情况,必须通过统计检验加以判断。可以证明:当变量Y服从正态分布时,从中随机抽取样本(x,y),回归系数A和B的最小平方估计值a和b也服从正态分布,其平均值分别为a=A式9.24)a=A式9.24)b=B式9.25)方差分别为nL(方差分别为nL(x-x)2b2Ex2n[Ex2一丄(Ex)2]n式9.26)b2b2b2b2=bE(x-x)2b2Ex2一丄(Ex)2n式9.27)于是,就可建立两个标准正态统计量于是,就可建立两个标准正态统计量a-a-AZ二——ba式9.28)b-b-Az二——bb式9.29)并且,并且,b2和b2的计算式中b2一般未知,但其无偏估计量为ab二乂_E(y-Y)2n一2n一2据此对A和B进行统计假设检验的步骤如下(仍以例9.3的资料):(1)检验A第一步:建立统计假设H:A=00H:AhO1第二步:计算z统计量由于£2亠=竺=2.415n-210-2£2a£2Ex2n[Ex2-(Ex)2]n2.415x3361=1.82810x[336-—x542]10八£a因此,检验统计量为=<1.828=1.352a-A58.85-0Z一二—=1.352=43'528a第三步:确定显著水平a,做出判断若设a=5%,经查表得z1-a2=Z0.975=*=43・528,拒绝零假设,即认为回归系数A显著的不为零。(2)检验B同理,可对回归系数B进行检验。若统计假设为H:B=00H:BhO1此时£2=b2.415]1=0.054Ex2--(Ex)2336-—542n10£2=J0.054=0.233b-A-2.25-0检验统计量z===-9.657£0.233b由于Z=Z=1.96<|z|=9.657,拒绝零假设,即认为回归系数B也显著的不1a0.97512等于零,说明单位成本同产量之间存在显著的线性相关关系。与前面的讨论类似,也可对A和B进行单边检验以及A和B是否显著的与某一确定值相同或不相同的检验。但通常进行的是对A=0和B=0的检验。对A=0的检验是考察回归直线是否通过坐标原点;由于B表示X变化一个单位时对Y的影响程度,因此对B=0的检验实际是考察这种程度是否为零,即是否存在线性相关关系。另外,通过最小平方法获得的a和b只是A和B的点估计量,在此基础上可进一步给出它们的区间估计。当置信度为1—a时,A和B的置信区间分别为这里a-A<A<a+Aaab这里a-A<A<a+Aaab-A<A<b+Abbaa2=zG2式9.30)(式9.31)式9.32)式9.33)对于例9.3,当置信概率为95%时aa1aa1_2zGab1_2=1.96X0.233=0.46于是可得A和B的置信区间分别为58.85-2.65<A<58.85+2.65即56.20<A<61.50-2.55-0.46<B<-2.55+0.46即-3.01<B<2.09五、回归预测拟合的回归方程及其参数通过检验后,经常要应用它去预测,显然,给定x=x0时,Y的点预测量为Y=a+bx(式9.34)00Y的置信度为1-a的区间预测量为Y-A<Y<Y+A(式9.35)0Y00Y0这里A=zG(式9.36)Y)i_aYo2

a2=02[1+1+(x0—x)2]

YonZ(x—X)2=02[1+-+式9.37)TOC\o"1-5"\h\z(X—x)2[=02[1+-+式9.37)Ex2—(Ex)2n接上面的例子,当产量为10万件时,单位成本的点预测值为Y=a+bx=58.85-2.2510=36.35(元)oo由于02Yo02Yo=a2[i+1+(x—x)2_Ex2—(Ex)2n2.415[1+1^+(10—)22.415[1+1^+101]=3.807336——x54210&=€3.807=1.951当产量为10万件,置信度为95%时,由于A=za=1.96X1.951=3.82ya01—2Y0于是可得单位成本的预测区间为八八八八Y-A<Y<Y+A0Y00Y036.35-3.82<Y<36.35+3.82即32.53元<Y<40.17元必须指出的是,给定的x如果在样本(x,x,…,x)的最小值至最大值之间取012n值,预测过程称为内插预测,否则,称为外推预测。进行外推预测时,误差一般较大,这是由两方面原因引起的:一是xo远离x,二是回归方程通过检验后,虽然能代表总体的线性相关关系,但这种关系只能在样本范围内成立,在其之外就有可能出错误,并且,随着情况的变化,原样本也可能不再能反映总体的现状,这样,预测的效果就不好甚至失败。

第三节多元线性回归与相关分析、多元线性回归分析简单线性回归与相关分析是对客观现象之间的关系进行高度简化的结果,但在实际问题中,影响因变量的因素往往不只一个,而是多个。比如,产品的成本不仅取决于该产品的生产量,而且也与原材料价格、技术水平、管理水平等因素有关;再如,影响农作物收获量的因素,除施肥量外,还有种子、气候条件、耕作技术等因素。多元线性回归与相关所研究的就是三个或三个以上的变量之间的数量关系问题。总体的多元线性回归方程为Y=A+BX+BX+-+BX+e(式9.38)1122kk总体回归方程一般未知,需要通过样本去估计。设估计方程为Y=a+bx+bx+・・・+bx(式9.39)1122kk上式中,a、b、b、…、b称为回归系数,其中,b(i=l,2,…,k)又称为偏回12ki归系数,它表示当其它自变量均为零时,x每变化一个单位对因变量影响的数值。i设样本为(x「x2,…,xk,y),利用最小平方法可估计出回归方程中的参数,即要求Q=Z(y-Y)2=Z[y-(a+bixi+b2x2+^+bkxk)]2=最小值据此可得下列联立标准方程Zx+bZx+…+bZx22kka据此可得下列联立标准方程Zx+bZx+…+bZx22kkaZx+bZx2+bZxx+・・・+bZxx12kx2+・・・+bZxx2kZy=na+b1ZZ1x1y=x2y=1112a工x+bZxx+bZ211221k2kZ当k=2时,标准方程为变为Zy=na+bZx+bZx1122aZx+bZx2+bZ1112xky=aZxk+b1Zx1xk+b2Zxx+…+bZ2kx2k11Zxy=1Zxy=2xx12aZx+bZxx+bZx2211222解方程,可得,Y解方程,可得,Y(x-x)2E(x-x)(y-y)_Y(xb=才1.—x)(x—x)E(x—x)(y—y)111112222E(x—x)2E(x—x)2—[E(x—x)E(x—x)]211221122(式9.40)》(x—x)2E(x—x)(y—y)—E(x—x)(x—x)E(x—x)(y—y)1122TT221LE(x一x)2E(x一x)2—[E(x一x)E(x一x)]211221122(式9.41)

式9.42)_7_7-Yy7Yx7式9.42)a=y-bx-bx=-b1-b21122n1n2n为计算方便,上述各因子项还可表示为(x-x)2=Z11(x-x)2(x-x)2=Z11(x-x)2=Z221x21n1x22nZx1)2式9.43)(x-x)(x112-x)=Z2_1(y-y)2=z乎—nx)2

21

xx—Z12n式9.44)xZx(式9.45)12式9.46)__1

(x-x)(y-y)=Zxy-—Z111n__1(x2-x2)(y-y)=Zx2y-—Zx2Zyx1Zy式9.47)式9.48)可以证明,最小平方估计量a、b、b、…、b是总体参数A、B、B、…、B的12k12k最优线性无偏估计量。例9.4为研究某商品的需求量、价格、消费者收入三者之间的关系,经调查得如表9-9所示资料:表9-9某商品的需求量、价格及消费者收入资料编号需求量(件)收入(百元)价格(元)11015328105381844710354866610571019381116291018110597根据上表资料,可得如表9-10的回归计算表:据表中数据,如果设需求量(y)与收入(xi)及价格(x2)之间的回归方程为:Y=a+bx+bx1122可通过最小平方法求出a、耳和b2,经计算可得:

11x2(Zx)2=1935——xl332=166.11n110_11(x2—x)2=Zx2—(Zx)2=183—x39(x22n21012345678910合计(件)12345678910合计(件)y收入(百元)x价格(元)xy2x21x22xx12x1yx2y10115231002259451503081056410025508040818464324167214432710349100930702148616643648322461053610025506030101931003619571903011162121256432176221018110032411818010597258149634535791333967519351834651127274表9-10回归数据计算表__11(x—x)(x—x)=Zxx—ZxZx=456—x133x39=—53.7112212n1210_11(y—y)2=Zy2—(Zy)2=675—x792=50.9n10--11(x—x)(y—y)=Zxy—ZxZy=1127—x133x79=76.3111n110__11(x—x)(y—y)=Zxy—ZxZy=274—x39x79=—34.122八丿八/n210于是可得30.9x论-(-53・7)x(-34・D=0.234166.1x30.9—(—53.7)2呃1x(-M-(-53・7)x讼=—0.697166.1x30.9—(—53.7)2___79a=y—bx—bX=—0.234112210从而可得经验方程133応-(-0・697)39=7.50610Y=a+bx+bx=7.506+0.234x—0.697x112212回归方程表明:在价格不变情况下,消费者收入增加1百元时,对该商品的需求平均上升0.234件;在消费者收入不变情况下,价格每上涨1元时,对该商品的需求平均下降0.697件。从数学角度看,回归方程Y=7.506+0.234xi-0.697x2是一个以Y为纵坐标轴、xi和X2为横坐标轴的回归平面。此外,回归方程Y=A+BX+BX+-+BX+e中的随机误差项e的方差O2也是未知的,1122kk其无偏估计量为QY(y-Y)2Q2==—n-k-1n-k-1上式中,n-k-1为自由度。从这里可以看出,样本容量n必须大于或等于k+2,即n三K+2,否则就无法估计02。事实上,实践中进行回归分析时,样本观察值数目要比k+2大得多。二、多元线性相关分析对多元线性回归方程而言,总离差平方和T同样可以分解为回归离差平方和R及残差平方和Q两部分,即T=R+Q由此,可以定义出样本的复判定系数,即RrRr2=——T式9.49)r2反映了经验方程对总体线性相关关系的拟合优度的大小,其值愈大,说明回归方程的拟合优度愈高,反之,拟合优度愈低。显然,0Wr2W1,r称为复相关系数,它测定了因变量y与k个自变量x、x、…、x之间线性相关程度的大小。r称为复12k相关系数,它为式9.50)对于例9.4,由于T=》(y—y)2=Sy2—1(Ey)2=675-丄X(79)2=50.9n10Q二E(y-Y)2=Zy2-aZy-bZxy-bZxy1122=675-7.506x79-0.234x1127-(-0.697)x274=9.286R=T-Q=50.9-9.286=41.614因此可得R41.614r2===0.82T50.9r^'0.82=0.90复相关系数r总是取正值,因为在多个自变量情况下,偏回归系数有两个以上,无法说明y与k个x变量线性关系的方向。与简单线性回归及相关分析不同,一般说来,进行多元线性回归分析时,随着自变量个数的增加,总离差平方和T虽不发生变化,但回归离差平方和R却随之增大,残差平方和Q随之缩小。对于例9.4,若只进行需求量(y)和收入(3)之间的回归分析,设回归方程为Y=a+b1x1此时,a和耳的取值分别为nZxy-ZxZy10x1127-133x79b二i1二=0.4591nZx2-(Zx)210x1935-133211a=◎-b刍=79nn79—0.459a=◎-b刍=79nn1010回归方程为Y=1.795+0.459x1此时T=Z(y-y)2=Zy2—1(Zy)2=675-丄X(79)2=50.9n101R=Z(Y-y)2=b2[Zx2—(Zx)2]11n11=(0.459)2X[1935-10X(133)2]=34.99Q=T-R=50.9-34.99=15.91

由此可以看出,价格因素(笃)未加入前,R=34.99,它小于价格因素(笃)加入后的R=41.614,两者相差41.614-34.99=6.624,它表示在原方程Y=a+bx的基础上,将价格因素%)纳入后而净增加的回归离差平方和,称之为价格%)效应,并用R/x表示。当k=2时,如果将未加入x之前的R、Q分别记作R和Q,纳入x之后的R、2x1x12x1,x2x1,x1,x2x1,x2R=R+Rx1,x2x1x2/x1R=Q-Qx2/x1x1x1,x对于例9.4,有R+R=34.99+6.624=41.614x1,x2x1xx1,x2R=Q-Q=15.91-9.286=6.624x2/x1x1x1,x2由上面的讨论知道,复判定系数r2及复相关系数r同自变量的个数k有关,k愈大,□值也愈大。有时,某个变量同因变量之间没有什么明显的关系,但将其纳入方程后,也能增加□的值,这样就造成r2或r高估了变量间的相关程度。因此,应当对r2的值加以修正,其一般修正式是式9.51)r2=1-(1-r2)式9.51)式中,n为样本容量,k为自变量的个数,r2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论