概率论-回归分析原理_第1页
概率论-回归分析原理_第2页
概率论-回归分析原理_第3页
概率论-回归分析原理_第4页
概率论-回归分析原理_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

理3·1、一元线性回归数学模型这里所

的一元线性回归数学模型,是数学模型的最简单形式。当然要注意的

是,这里模型

是在真正回归意义上来进行的,也可称之为概率意义上的线性模

型。在非确定性意义上,或概率意义上讨论问题,首先要注意一个最基本的概念或思路问题,这就是总体和样本的概念。

概率论和数理统计的基本思想和目的,就是希望通过样本所反映出来的信息来揭示总体的规律性,这种想法或思路显然存在重大的问题。但另一方面,也必须承认,为了寻找总体的规律或客观规律,只能通过样本来进行,因为只可能得到样本。

在真正回归意义上建立其有效方法时,必须作出相应的假设条件。等价于基本假设条件:(1)假设概率函数P(Yi

|

Xi

)或随 量

Yi

的分布对于

Xi

所有值,具有相同的方差

2

2

是一个常数,亦即i

iVar(Y

)

=Var(

)

=2。(2)假设Yi

的期望值E(Yi)位于同一条直线上,即其回归直线为EY()

i

=

XiE(i

)

0上面这个假设是

假设,它实际上表明之间是确定性的关系。E(Yi)与Xi(3)假设随

Yi

是完全独立的,亦即i

jCov(Yi

,Yj

)

Cov对3·2、随机项或误差项的含义一元线性回归模型的一般形式为Yi

xi

ii是一随机项或误差项,它的存在表明i

iX

Y的影响是随机的,非确定性的。那么,i究竟包含了什么意义或内容呢?概括地说来主要有:模型中被忽视了的影响因素;变量的测量误差,这种误差主要来自统计数据本身的误差;随机误差。社会经济现象中涉及到人的因素和行为,还有历史的、文化的等因素,这些因素一般来说是难以量化的、多变的;模型的数量关系误差。即数学形式所带来的误差。一般来说,所有的经济数学模型的误差也就是这4个方面,或者说是存在的主要问题,对此

须要有清醒和深入的认识。3·3、一元线性回归模型的参数估计必须理解和认识总体回归模型和样本回归模型的区别和关系,假设总体真正的回归直线是E(Yi

)

xi它是由总体回归模型Yi

xi

i显然,上面的模型是

、理论上的,实际上是找不到的,它们实际上就是所谓客观规律。而样本的回归直线为Yˆ

ˆ

ˆXi

i它是来自于样本的回归模型Yi

ˆ

ˆXi

ei注意总体和样本模型的区别和联系,无限和有限,相同和不同等。下面

同样根据最小二乘准则,建立真正回归意义上的最小二乘法:对样本模型Yi

ˆ

ˆX

i

ei假设其估计的回归模型为iiYˆ

ˆ

ˆXIiˆ

Y

ˆ

ˆX

i因此,其残差则为ei

Yi

Y所以,其残差平方和为22ˆˆii

i

X

)Q

e

(Y根据前面的结果,有其中ˆ

xi

yixi

Xi

X

,

yi

Yi

Y

xiˆ

Y

ˆX到此样本回归模型的参数就估计出来了。对于这个结果需要注意的是,这里的ˆ

,ˆ

都是的函数,而是随 量,因此,从理论上说,随量,而不是一个或几个固定的值,是一个概率分布。3.4、估计值的性质是观测值22

i

ixx

xi

(Yi

Y

)

xiYi

Y

xi

x

2

i证明:

ˆ

xi

yii而

x

0

ix2

ˆ

xiYi

wiYi

其中wi

xi

x

2

i同理可证:ˆ

=

kiYini

i其中

k

1

w

Xi所以,ˆ

ˆ

是Y

线性函数(1)估计值的线性性质所谓线性性是指估计值

ˆ的线性函数。,ˆ(2)估计值的无偏性。所谓无偏性是指估计值ˆ

,ˆ

的期望值等于总体回归模型参数

的值。亦即E(ˆ)

。证明:E(ˆ)

i

)

E(

wi

wi

X

i

wi

iE(ˆ)

E(wiYi

)

Ewi

(

X

i通过计算可知wi

0,

wi

Xi

1

E(ˆ)

E(

wi

i

)

E(wi

)E(i

)其中E

(

i

)

0,(i

1,2,3.,n)所以有E

(ˆ)

同理可证E

(ˆ)

(3)有效性(或称ˆ

ˆ

具有最小方差性)。所谓有效性主要是指最小二乘估计ˆ

ˆ

在所有线性无偏估计中,其方差是最小的。证明的基本思路是:Var

(~)Var

(ˆ)

,Var

(~)Var(ˆ)证明(略)。上面三个性质是最小二乘估计的主要性质,理论上说已达到最好的结果了。因此,满足这三条的估计也称作最优线性无偏估计。用。这里再一次

,参数估计之所以要进假设计算出

的方差,

就可得到行检验,是因为这里ˆ的ˆ

,ˆ

ˆ3·5、最小二乘估计ˆ

,ˆ

的显著性检验与置信区间所谓显著性检验实际上就是对检验估计值与总体参数值差别大小的方法。也就是数理统计中的“假设检验”的方法一种实际应服从正态分布,又因ˆ

,ˆ

是的线是随

量Yi。性函数,Y所i

以,也是服从正态分布的。只要22

2

)

iixn

N

(

,)

ix

2

N

(

,在上面的分布函数中,除了

不可能知道外,

须解决未知数

2估计值,才可能继续进行显著性检验。1、建立随设:

yi

Yi

Y

Y

,

x

X

Xi

i

iyˆi所以ei

Yi

yi

yˆi而(1)Yi

X

i

i

,

Y

X

yi

xi

(i

)又(2)ˆ

Y

ˆX代入iiYˆˆˆ

X采用一定的办法是可以解决

2

估计值的,下面给出其推理过程,并证明其估计值ˆ

2是一个无偏估计。量方差

2的估计值ii则有YˆYXXˆ()iiiey

)(x)ii

yˆx

ˆ由此

就有yˆi因此,进一步则有ˆ22()2(iiii)()

x

xe

2

i

)下面分别计算上式右边每一项的期望值:2222ˆx

i

(

xi

)

var(

)

E(

)2ˆ

ˆ

xi

2其中

var(

)

2221

i

i

in

(E

(

)

E2

)

(n

1)

i

i

ix

x2i2

ˆ(

i

xi

)

2(

ixi

xi

)

E

i

xiE

(

)x

(

)

E2

2

ix

x

2

i

ii

i

ii

i

i

i

ix

2x

2

x2

i

xY

x

(

X

)

x

(注意其中

2

ix

ˆ

xi

i

)最终得到E(e2

i

)

2

(n

1)

2

2

2

(n

2)

2如果

定义2n

2eiˆ

2

,那么ˆ

2就是

2

的无偏估计,亦即有2n

2eE(ˆ

2

)

E(

i)

2

。但是

还不能证明ˆ

2

是最小方差估计,这是十分遗憾的。的显著性检验2、

最小二乘估计值

ˆ

,ˆ显著性检验实际上是检验ˆ,ˆ与

,之间的差距和可靠性。具体的检验方法就是“假设检验”的方法。一般假设检验中用来进行检验的统计量(实际上就是一种随

量)主要有二个,即Z统计量和T统计量。(1)应用Z统计量的条件是:已知

2而无论样本的大小,或者未知

2

但样本足够的大(n至少大于30)。22)inx

X

i2已知

ˆ

N

(,ˆ2

ix

2

N

(,)22iinx

2

X则

有Z

ˆ

~N(0

,1)2I

Xz

2ˆ~

N(0

,1)当然如果未知

2

,但样本数大于

30,则在上式中用ˆ

2替代即可。2)应用T

统计量的条件:当方差

2未知,且样本小于30

时。2

)

inx

2

X

i2已知

ˆ

N

(,ˆ)2

ix

2

N

(

,则22

iinx有T

2

Xˆˆ

ˆ

ˆ

t(n-k)=2I

XT

2=ˆ

ˆ

ˆ

~t(n-k)这里的n是样本的个数,k是模型中变量的个数,n-k是度。要依据,具体值才能判断或检验,是否是可接受的或误差不大。只能用假设、或者具体地说是用理论假而已, 不可能知道, 的具体值,但

又说的数量结论来替代,

的具体值,也就是“假设检验”方法中作出“零假设”的主要依据;

这样 就可看到,所谓“假设检验”中原来希望检ˆ

验ˆ

,与

之间差异的想法或思路,已经转变为检验,是否与理论假说或其他

判断和经验相符。

在“假设检验”的实际应用中,一个十分重要的问题是如何确定总体意义上的

, 的值。知道“总体”概念说到底只是一个设想,一个信念3、总体参数

置信区间的估计为了确定ˆ

,ˆ

是怎样接近真实总体的参数

期望构造一个区间来具体加以说明,亦即建立一个围绕估计值ˆ,ˆ

的一定限制范围,来推断总体参数

在一定置信度下落在此区间。所谓置信(或称置信水平)度实际上与显著性水平的意义类似,只是数量的大小相反而已。例如,对于

ˆ

的T

统计量,有2I

XT

ˆˆ

=

~t(n-k)先确定其置信度如

95%和

找出临界值

t0025

的值。则度(n-k),然后通过

t分布表有p(

t0025Tˆ

t0025

)

0

95即p(ˆ

t0025ˆ

ˆ

ˆ

t0025ˆ

ˆ

)

0

95所以,

置信度是

95%的置信区间为(ˆ

t0025ˆ

ˆ

,

ˆ

t0025ˆ

ˆ

)3·6、问题的分析

0

值Yˆ根据最小二乘法

从样本模型Yi

ˆ

ˆX

i

ei找到了它的回归直线iiYˆ

ˆ

ˆX已对ˆ,ˆ

作了检验并通过后,应该可以根据上式来进行了,亦即对于X

0Yˆ,可得到

0

,亦即00Yˆ

ˆ

ˆX要具体Yˆ0

性质,实际上主要是分析它的误差性质,成是总体0二是把Yˆ

看成0(1)如果把Yˆ

看成是总体回则Yˆ

有什么样的性质呢。可以证明0的无偏估计。现证明如下:ˆ()ˆ

()ˆ(

ˆ0

0()ˆXE0

)EXEYE0

然后,:var(Yˆ

)

var(Yˆ

E(Y

))

var(ˆ

ˆX

)0

0

0

0

var(ˆ)

X

0

var(ˆ)

2

X

0

cov(ˆ,

ˆ)2

0

)

x

2

i1

(

X

X

)2n

2

(从Yˆ

方差的计算结果可看出,如果

X

离样本0

00观测值

X

的距离越大,则Yˆ

的方差也就越大。这实际上说明回归的基本思想实际上是归纳的思路,亦即

X

0

不能脱离样本或经验的范围太远,否则模型的

值的方差将增大,

将将变得更加不可靠。同时这个结果也把回归模型称之为“内插检验”亦即这时的X

0的类型分为两类,第一类

必须在样本所限定的区间内,言外之意是对经验之内的情况,回归模型的靠的。第二类称之为“外推

”,这时的X

0效果是比较可是在样本区间的外面,这时的

值的误差方差显然是较大的,亦即“外推

”是十分不可靠的。ˆ(2)如果把Y看作真正总体0

0Y

或Y0

X

0

0

的估计值,其性质和结果又会什么变化呢?下面

来具体看看这种情况下Yˆ

的期望值和方差:0对于给定的X

0

,有Y0

X

0

000Yˆ

ˆ

ˆX则00ˆˆˆ

(

)

(

)

X

0Y0

Y取其期望值,则有000

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论