




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一节 两变量线性回归模型一模型的建立1数理模型的基本形式 (2.1)这里y称为被解释变量(dependent variable),x称为解释变量(independent variable)注意:(1)x、y选择的方法:主要是从所研究的问题的经济关系出发,根据已有的经济理论进行合理选择。(2)变量之间是否是线性关系可先通过散点图来观察。2例如果在研究上海消费规律时,已经得到上海城市居民1981-1998年期间的人均可支配收入和人均消费性支出数据(见表1),能否用两变量线性函数进行分析?表1.上海居民收入消费情况年份可支配收入消费性支出年份可支配收入消费性支出1981636.8258519902
2、181.6519361982659.2557619912485.4621671983685.9261519923008.9725091984834.1572619934277.38353019851075.2699219945868.48466919861293.24117019957171.91586819871437.09128219968158.74676319881723.44164819978438.89682019891975.64181219988773.168662一些非线性模型向线性模型的转化一些双变量之间虽然不存在线性关系,但通过变量代换可化为线性形式,这些双变量关系包括对
3、数关系、双曲线关系等。例3-2 如果认为一个国家或地区总产出具有规模报酬不变的特征,那么采用人均产出y与人均资本k的形式,该国家或者说地区的总产出规律可以表示为下列C-D生产函数形式 (2.2)也就是人均产出是人均资本的函数。能不能用两变量线性回归模型分析这种总量生产规律?3计量模型的设定(1)基本形式: (2.3)这里是一个随机变量,它的数学期望为0,即意思:在给定x的条件下,的平均值是0。试举现实中的例子。式(2.1)与(2.3)的主要区别是:(2.3)中的变量y、x之间的关系已经是不确定的了。之所以写成不确定关系的原因在于现实经济当中影响变量y的因素除x外还有许多(但均不是主要因素),这
4、许多的因素就用来表示。(注意数学期望的解释)二模型的假设1对模型提出一些假设(限制)的原因保证模型设定具有较高的合理性,从而可用其进行经济分析并有利于统计分析的进行。2基本假定(1) 在x给定的条件下,的数学期望为0;(2) x与不相关;(3) 的方差是一个常数;(4) 之间不存在序列相关;(5) 。注意:第一,所有假定实际均是针对的;第二,假定(5)可由假定(4)得出,故不是一个独立的假定。(解释数学期望、密度函数、方差、相关性和中心极限定理)第二 两变量回归模型的参数估计一研究目的与方法1研究目的如何利用样本数据估计已经设定的两变量模型中的参数。2估计方法主要有最小二乘估计、矩估计和极大似
5、然估计。二具体方法过程(一)最小二乘法1问题提出假设有如下的一组观测所得样本点及大致的回归直线,问如何才能得到最佳的回归直线参数估计值?图3.2 一组样本点及回归直线图Y=a+bxyx*2问题解决标准关键是提出一个如何是最佳的标准。直观上来看,我们可以选择这样的回归直线:使所有样本观测点与回归直线的偏离程度最小。于是问题转化为偏离程度如何度量度量的问题,那么这种偏离程度如何计量呢?3估计的步骤要求: (3.2.1)方法:利用微积分中的导数求极值的方法,具体步骤为:由于(3.2.1)中的未知变量是a、b,因此由极值条件可得:和由上两式可得一联立方程组,解之可得:例33获得消费函数的参数估计。例3
6、-1中消费函数模型的参数估计(上机)。(二)最大似然估计1最大似然估计的基本原理为了获得一个随机变量x的统计规律,进行了一组试验,试验得到了一组观测结果:x1,x2,x3,极大似然估计的基本思想是:既然在一次观测中出现了这一组观测值,这不应是偶然的,所以这一组观测值出现的概率应是最大的。即如果设x的概率密度函数为f(x),则这一组概率f(x1) f(x2) f(x3) 应当最大。2最大似然估计在两变量模型参数估计中的作用(1)前提条件:必须知道随机扰动项的分布,根据古典最小二乘法的假设,服从正态分布。(2)计算过程由于的密度函数为,故一组序列的似然函数为:由复合函数的最大化条件可得: (3.2
7、.2)解(3.2.2)可得:注意:对于,最大似然估计法与最小二乘法所得结果一致,但最大似然估计还给出了的估计。(三)矩估计在概率论中有一个特殊的概念:矩。矩(严格说这里仅指原点矩)通俗的说就是一个随机变量的任意次方的平均值(数学期望),例如随机变量的各阶矩:等。之所以提出矩的概念,是因为这有点类似于微积分中的泰勒展开式,在泰勒展开式中,任何一个多阶可微的函数均可利用一个多项式来近似,而对于随机变量的任意阶的平均值(数学期望)而言,他们同样也可通过一个由各阶矩构成的多项式来表示。例如:随机变量x的方差即可由Ex和Ex2所组成的多项式描述。矩估计的基本思想是:母体矩=样本矩。所谓母体矩,指的是由母
8、体所计算的平均值(数学期望),所谓样本矩是指利用观测到的值所计算的平均值。例如:随机变量x的母体一阶矩(数学期望)是E(x),而若现在有一组观测值x1,x2,xn,则由母体矩=样本矩的原理可得:。第三节 最小二乘估计量的性质一问题提出前面两变量回归模型中参数的估计量分别是:,对其观察可以知道,在xi是常数的假设下,这两个估计量均是yi的函数,也就是说,它们仍是一个随机变量,但是实际的值应当是一个固定的常数,而非一个随机变量,那么现在我们就面临这样一个问题:如何评价两个随机变量对两个非随机变量的近似程度?一般来说,我们可以通过如下方式考察:既然是一个随机变量,直观上我们可以看出,如果在多次重复观
9、测过程中(观测次数太少说明不了问题,因为这些结果可能是偶然现象),会越来越接近,那么应当说就越是一个好的估计量。评价这种“越来越近”的方法有三种:无偏性、一致性与最小方差性。二无偏性、一致性和最小方差性的解释1无偏性无偏性指的是,在大量观测之后,如果对所有的观测值加总后取平均数,那么这个平均数将等于(或近似等于)真实参数的值。例如:对于随机变量来说,如果我们对其进行重复观测后得到一组样本值,如果取平均后,则表明随机变量是真实值的一个无偏估计。2一致性一致性指的是这样一种“越来越近”的情形:在对随机变量进行大量重复观测后,如果在观测次数足够大以后,观测值偏离真实值的次数已经非常少了,即绝大部分观
10、测值都非常接近于了,那么这就表明随机变量是真实值的一个一致估计了。3有效性在说明有效性以前应说明最小方差的概念,最小方差性指的是,在所有用于近似表示真实值的所有估计中,如果在多次观测后发现,偏离的总和最小,则表明是的一个最小方差估计。有效性则指的是不仅是的无偏估计,而且还是的最小方差估计。三最小二乘估计量的精确度问题*均是的无偏估计,其抽样分布的比较。高斯马尔科夫定理:最小二乘估计量是真实值的一致最小线性无偏估计(blue,best linear unbiasedness property)。这里“线性”指的是它是随机观测值y1,y2,y3的线性函数。第四节 回归拟合度评价和决定系数1前提假设
11、:假设我们要估计的两变量回归模型为:,且利用样本观测值所得到的估计结果为:。2。问题提出在回归分析当中,很自然的,我们总希望有更多的样本观测点落在回归直线上,这可以看作是判断我们的回归直线“好坏”的一个总的指标,那么我们如何来寻找这样一个用来描述“样本观测点落在回归直线上的比重”的指标呢?直观上来看,好像我们已经解决了这个问题:因为我们的最小二乘法已经保证了使样本观测值尽可能小的偏离回归直线。但是仔细分析后可以发现,残差平方和严重依赖于Xi、Yi的度量单位,因此我们不能用此指标做为衡量标准。为了消除度量单位的影响,我们最好寻求一个比例指标。这个指标就是拟合优度。2拟合优度(拟合度)(1)计算公
12、式:这里假设样本回归直线为:。要注意区分“回归直线”与“样本回归直线”两个概念。前者指的是对回归模型(计量模型)两边取数学期望(平均值)所得的直线,而后者是指在用样本数据估计出参数之后所得到的直线。(2)拟合优度的含义从拟合优度的计算公式可以看出拟合优度的含义是:回归直线波动所能解释的被解释变量波动的比重。例如,如果我们要对消费与可支配收入之间的关系进行分析,那么实际上我们希望的是了解消费的变动能在多大程度上由可支配收入来解释,解释程度越高,说明模型越好。(3)拟合优度的推导首先,被解释变量的波动的含义是:被解释变量的各个样本观测值偏离其平均值的程度,因此其可以用来表示;同样,回归直线波动和含
13、义是:Yi的估计值偏离其平均值的程度(因为回归直线即为),因此,其可用来表示(因为,这一点可由正规方程得出);另外,Yi的波动除由回归直线的波动解释外,其余部分则是由残差平方和解释的(即回归直线所解释不了的部分),这部分为。于是,Yi的波动可用如下形式表述:,这被叫做离差分解,这一点可从下图中来说明。(4)在应用中要注意的问题R2指标是判断回归模型优劣的一个最基本的指标,但比较笼统,不精细。在Eviews中就是回归结果中的第一个R2,判断时要注意,其越接近1,说明模型总体拟合效果越好。R2的正式名称是“决定系数”。(Xi,Yi)YiXiYi的离差分解具体的证明过程:由于,因此问题就转化为证明。
14、为此,首先要证明的是与,由最小二乘法的计算过程可知,我们要估计参数,就要使下式最小化:,为了使其最小化对其关于求偏导可得:,即。同理,对求偏导并令其为0,可得。在这些条件下,有:例子:假如有如下的EVIEWS估计结果,问哪一个是决定系数?并说明其对模型解释的意义。Dependent Variable: C1Method: Least SquaresDate: 09/26/04 Time: 06:59Sample(adjusted): 1982 1999Included observations: 18 after adjusting endpointsVariableCoefficientSt
15、d. Errort-StatisticProb. C5788.5531446.8664.0007530.0010YD0.2415680.0413125.8473500.0000R-squared0.681221 Mean dependent var12372.40Adjusted R-squared0.661297 S.D. dependent var6624.073S.E. of regression3855.090 Akaike info criterion19.45662Sum squared resid2.38E+08 Schwarz criterion19.55555Log like
16、lihood-173.1095 F-statistic34.19151Durbin-Watson stat0.270758 Prob(F-statistic)0.000025下一节上机课内容:估计例3-1中的参数并说明决定系数的含义。第五节 统计推断一为什么要学统计推断呢?首先,之所以存在“统计推断”的问题,是因为对于随机现象来说,我们利用一组观测值所得出的估计结果可能具有偶然性,因此我们还要通过做更多次的重复试验(即通过取多组观测值)来对所得结果是否是偶然的进行验证。显然,对于“好的”一次观测值所得的估计结果,我们总希望它们具有如下两条性质:一是通过多次的重复观测,我们发现我们估计出的参数值
17、确实“很接近”真实的参数值;二是多次重复观测后发现,我们所估计出的参数值在大多数情况下均落入真实值周围的某个很小的范围内。前一个问题就是“假设检验”的问题,后一个问题是“置信区间”的问题。二假设检验基本理论1假设检验:所谓假设检验,从字面上理解,实际上就是“我们先提出一个假设,然后再利用样本观测值对这个假设进行检验”,实际情形也的确如此。例如,通常的情形是这样的,如果我们利用样本观测值得出消费函数的估计结果为:C=80+0.23Y,那么出于对一次观测偶然性的担忧,我们对边际消费倾向的估计值0.23不太放心,我们担心可能实际上收入Y与消费C之间并无相关关系,因此我们猜测边际消费倾向的实际值会不会
18、是0呢?解决这个问题就可以通过假设检验来完成。解决的办法是:第一,我们先给定一个原假设,这个原假设是H0:b=0;第二,我们再去收集很多组观测值,看这些观测值是否支持原假设,如果支持,说明我们的参数估计出现了问题,如果不支持,说明我们的参数估计在统计意义上是没有问题的。那么如何判断这些观测值是否支持原假设呢?2判断重复观测值是否支持原假设的方法:直观上,我们可以这样来判断:先将所有的可能观测结果分为两组,第一组是支持原假设的,第二组则是不支持原假设的。显然,如果在我们的观测值中大多数都落入了第一组当中,那么我们应当支持原假设的正确性,如果大多数都落入了第二组,我们就应当否定原假设的正确性。那么
19、现在又出现了两个问题:如何确定这个“大多数”的标准?这两组是如何划分的?(1)“大多数”的标准确定:这个比较容易,只要这些观测值落入某一组的概率比较大,我们就可说是“大多数”观测值将落入这一组当中。(2)两个组的划分:先想一下,我们知道,b的估计值在这里是随机变量(因为它是被解释变量C函数,而C是随机变量),因此如果我们知道了它的统计规律(分布函数或密度函数,注意我们研究随机现象的终极目的是完全知道其统计规律,即在多次重复取样情况下随机现象的规律性特征,而如果分布函数或密度函数已知,则就相当于统计规律已知,当然,密度函数不是在任何情况下都存在的,这一点要反复强调),那么我们就会判断出我们的每一
20、个观测值是落入的真实值出现的可能较大的地方还是较小的地方。例如:如果的密度函数已知,且具有如下图所示的形式,那么我们显然很容易判断出每一个观测值出现可能性的大小。密度函数观测值可能取值轴*AA/*从图中我们可以看到,其中有4个点落入了密度较小的观测值可能取值的区域了,而另2个值落入密度较大的区域了,这说明对于这6个观测值而言,大部分都落入了随机变量出现可能必较小的区域了。从这一分析出发,很显然,我们可以通过在观测值轴上划两个点A和A/来对的所有可能结果进行分组,观测值落入A点的左边或A/点的右边是一组,落入A与A/点之间是一组。前者是可能性较小的组,后者是可能性较大的组。(3)判断是否支持原假
21、设的方法:既然我们提前假设原假设是正确的,那么我们就应充分利用这一条件。试想,如果我们在上图的分析中,的密度函数是在原假设成立的情况下得出的,那么我们就可以对原假设的正确性进行统计判断了:如果观测值落入取值可能性较小的区域内,则说明原假设不正确;反之,则说明原假设是正确的。(严格说来,应是原假设是可接受还是不可接受,因为对随机现象而言,没有绝对的正确性)三置信区间基本理论置信区间是对参数估计准确度的另一种度量方式,其所依据的基本思想如下(仍以上面消费函数模型为例):由于是b的估计值,因此我们总希望能测定出偏离b的程度,程度越小,说明越是b的一个较好的估计。但是我们知道,是一个随机变量,因此我们
22、不能像处理非随机变量一样,用-b来表示它们的偏离程度,那么对随机变量的情形,我们应如何测定它们的偏离程度呢?实际上,我们可以这样处理,既然-b是不确定的,那么我们可以通过多次观测来找出-b大于某个值的可能性,我们知道,这种可能性可用概率来表示。即找出-b大于某个值的概率。但是由于某个值并不太好确定,因此我们可以再变换一下思路:先确定-b偏离某个值的概率,然后在-b分布已知的情况下再求出这个值。这就是置信区间问题的基本思想。四最小二乘估计量的分布特征及扰动项方差的求解1为什么要先知道最小二乘估计量的分布及扰动项的方差呢?从前面关于“假设检验”与“置信区间”的基本思想介绍过程可以看出,要进行这两部
23、分工作,其前提是必须知道最小二乘估计量的分布(也就是其统计规律)。不过,问题到此还没有结束,前面我们知道,最小二乘估计量都是被解释变量Yi的线性函数(,在xi、是常数的条件下,显然是Yi的线性函数),因此实际上,我们只有知道而且只要知道了Yi的分布,就可以而且才能知道的分布,而要求Yi的分布,我们还必须知道拢动项方差的估计。要看出这一点,还要事先知道一些关于正态分布的理论。2正态分布及其基本特征(1)正态分布的概念解说我们知道,任何分布都是指的某个随机变量的统计规律(即在大量重复实验或抽样情况下实验或抽样结果出现的规律性),而这种规律性在数学上是用分布函数或密度函数(不一定所有的随机变量都有密
24、度函数,只有连续性随机变量才有,一般情况下我们所遇到或研究的都是有密度函数的随机变量),那么正态分布的随机变量是指密度函数具有如下形式的随机变量:,这里分别表示随机变量的数学期望(平均值)、方差和标准差。(2)正态分布随机变量的三个特征如果一个随机变量服从正态分布,则它的分布完全由其数学期望与方差所决定,即只要我们知道了这个随机变量的数学期望(平均值)及方差,那么这个随机变量的统计规律就完全确定了。关于这一结论,我们可以从正态分布的密度函数马上看出。与正态分布有关的另一个的结论是:如果随机变量A是随机变量B的线性函数,而随机变量B服从正态分布,那么随机变量A也服从正态分布,只不过它们的均值与方
25、差会有所差异,即是不同类型的正态分布。(注意,这个结论不是只针对于正态分布的,这里对其专门强调是为了下面直接应用结论)如果一个随机变量,那么,此时我们说服从标准正态分布。在具体的应用过程中,出于简化分析的目的,我们往往要将一个正态分布标准化。3拢动项方差求解(1)基本分析:首先,根据前面的分析,我们可以得以下两个结论:第一,均服从于正态分布;第二,求的分布必须知道拢动项方差的估计,原因是如果是一个未知数,那么Yi的分布从而的分布就不可能知道,而在得到的估计的情况下,我们至少可以知道的大致分布。(2)拢动项方差的估计:基本公式:的无偏估计为:,这里n是抽样调查(或重复实验)的数量(或次数),即样
26、本残差项(注意与残差拢动项区别开来,后者是一个抽象的随机变量,前者则是在每次抽样后所观察到的偏误),这一估计是的无偏估计。推导的基本思路过程:首先,我们的目的是要求偏离其平均值的程度的度量,直观的看,其偏离平均值的程度大致可以用所有的取值与其平均值的偏离的平方和来表示,但是如果直接用平方和来表示,则有两个问题难以解决:第一是的确切值我们并不知道;第二,用平方和来表示偏离程度会产生取值越多,平方和越大的情况,这显然与事实不符。因此,我们还必须对平方和进行进一步的“加工”,“加工”方法如下:第一,由于ei是的近似值且ei可通过样本观测得到,因此,我们可用ei来代替;第二,为了消除抽样(观测)次数多
27、少对平方和的影响,我们有必要将抽样次数的影响消去,解决办法是用平方和去除抽样次数。这样就得到了。但将其与前面的标准公式比较,我们还是发现了一点差异:前面分母是n-2,而我们这里是n。产生这种差异的原因是这n次抽样观测并不是独立的,因为我们还要利用它们先求出ei,而这使得这些抽样观测之间取得了一些联系。具体来说,由于,因此实际上我们是先求出了,而这消耗了我们的两个自由度(自由变化的变量个数,想像一下线性代数中的联立方程组中的变量组成情况,若一个方程组中有4个未知变量,而方程组个数是2,那么说明方程组只有两个自由变动的变量)。4最小二乘估计量的分布(1)的分布的分布分别为:,计算过程用到了这样两个
28、条件:第一,是Yi的线性函数,故服从正态分布;第二,服从正态分布的随机变量的分布取决随机变量的均值与方差,利用与Yi之间的线性关系可以求出的均值与方差(由于是无偏估计,故均值可一眼看出即为a、b)。(2)分布的标准化首先要注意的是,由于无论从经济意义还是统计分析的角度来看,均不是我们所关注的重点,因此在一般情况下,统计检验与置信区间分析都只是针对的。(从统计上来看,a的作用基本仅在于使随机扰动项的均值为0,在经济上,它除表示一种初始状态以外,也没有特别的含义。)分布的标准化:。五假设检验1检验的目的与原假设正如我们前面所说,假设检验的目的在于排除我们对最小二乘估计所得结果非0的偶然性的怀疑(即
29、我们可能认为实际上解释变量与被解释变量并无相关关系,尽管估计结果所得具体值非0,但我们有理由置疑这可能只是一种巧合)。为此,我们先设定一个假设成立,这个假设即是原假设,为H0:b=0(即解释变量与被解释变量实际上并无关系)。我们通过分析多个抽样调查观测值的特征来对这个假设进行评判。要注意的是,关于原假设是0的检验,通常我们叫做显著性检验。2检验原假设(1)前面讲过,要检验原假设,只需满足两个条件:第一,知道在原假设成立条件下的分布;第二,知道的某个观测值(原则上要求每次所取得的观测值应是在完全相同的条件下抽取的)。只要知道上述两个条件,我们就可以通过判断观测值是否落入出现可能性大的区域内来判断
30、了。(2)分布的确定:从b所具备的现有条件来看,易于知道,我们还无法确定b的分布。这是因为,根据理论,由于服从正态分布,因此我们只要知道其均值与方差就可完全知道其分布。但不幸的是,尽管在原假设成立条件下,的均值已知是0,但除非我们事前假设的具体值,否则无论如何我们也无法知道它到底是多少(抽样永远只能是在有限情况下进行)!为此,我们需要找的一个替代值,这个替代值前面我们已给出了。这样,我们就可利用标准化以后的来进行假设检验了(此时已不再服从标准正态分布,而是服从与其相近的一个叫做t分布的分布)。(3)检验过程:第一,我们先确定落入某个区间内的可能性(概率),一般我们希望这个可能性要很大,例如,9
31、0%以上;第二,根据这个可能性,求出这个区间的范围(即的取值范围)。具体方法如下:假设我们规定在某一个区间内出现的可能性为95%,我们来求这个区间。首先,由于,因此这意味着,t0.025可通过查t分布的分布表马上得到。这样,如果b的估计值落入这个区间,那么显然我们应接受原假设,否则就要拒绝。(4)在实际当中的应用在EVIEWS估计结果列表中,有一个T值列表,一般来说,如果这个值的绝对值大于等于2,则说明原假设是不应被接受的,即从统计上来看,b是非0的。也就是说,解释变量确实是影响被解释变量的重要因素,它们是有相关关系的。否则,就说明解释变量不是影响被解释变量的重要因素,这个解释变量不宜用于对被
32、解释变量的解释,应将其从模型中去掉而选择其它新的解释变量。Dependent Variable: C1Method: Least SquaresDate: 09/26/04 Time: 06:59Sample(adjusted): 1982 1999Included observations: 18 after adjusting endpointsVariableCoefficientStd. Errort-StatisticProb. C5788.5531446.8664.0007530.0010YD0.2415680.0413125.8473500.0000R-squared0.6812
33、21 Mean dependent var12372.40Adjusted R-squared0.661297 S.D. dependent var6624.073S.E. of regression3855.090 Akaike info criterion19.45662Sum squared resid2.38E+08 Schwarz criterion19.55555Log likelihood-173.1095 F-statistic34.19151Durbin-Watson stat0.270758 Prob(F-statistic)0.000025六置信区间(1)求置信区间的目的
34、:如上所说,求置信区间的目的是为了求出真实值b出现在某一个区间内的可能性(因为真实的b我们无法得知),因此,我们同样需要知道的分布。但与假设检验当中碰到的问题一样,这也无法办到,而其解决办法也是用来代替,所不同的是,这里不存在一个前提假设,其过程基本相似。(2)求解过程:由于,因此通过,我们同样可以得到一个相同的t0.025,代入的估计值并通过解,就可得到b的一个置信区间。(3)实际应用:第一,置信区间的主要作用在于,在我们不知道参数的真实取值的情况下,我们试图大致确定一下它出现于某一个区间的可能性;第二,置信区间的计算在实际应用当中一般不太用,其主要应用在于预测。即如果你的目的是要预测一个被
35、解释变量在未来的取值,那么你就有必要用这个指标来表明你的预测精度。第六节预测一点预测3如何看待点预测的误差:e是一个确定的数还是一个随机变量?我们假设初始的模型为,利用样本数据所估计得到的模型(回归方程)为,显然我们可以看到,如果在固定了未来X的值之后,未来Y的真实值Y真的已知,那么预测误差当然可以用Y的未来预测值与真实值之差的绝对值来表示,即来表示。但不幸的是,我们实际上根本就不知道未来Y的实际值Y(否则我们就不用预测了,实际上根据我们的假设,作为被解释变量的Y本身就是随机变量),那么在这种情况下我们应如何对预测误差进行估计呢?现在我们再回头看一下e*的构成特征:。我们知道,e*是在已知的基
36、础上才可以求出的,但的变化是随着的变化而变化的,而我们知道是随机变量,因而也是随机变量,从而也是随机变量。这表明,如果我们要对被解释变量的未来值进行预测,其预测误差的来源是因为我们在第一步进行的估计时已产生了误差,这种误差是一种派生误差。(这里指的是在未来X值是确定的条件下)。由做为误差的度量可知,现在我们的预测误差的精度问题又变成了估计量与它的实际真实值Y之间的关系问题了,而这就是前面我们讲的估计量的特性的一些判断方法。但是由于这里Y是随机变量,因此这些特征还有一些特殊之处。4点预测估计量的一些性质(1)线性性:指的是Y的点预测是被解释变量样本组Y1、Y2的线性函数。这一点容易看出,因为,而
37、均是Yi的线性函数。由此也可知,同样也是服从正态分布的。(2)无偏性:由于Y是一个随机变量,因此这里的无偏性指的是与Y的平均值(数学期望)相等。简单证明如下:(3)方差:(此处课本证明过程有误,但结论没错,为什么?)由于Y是一个随机变量,因此此处我们无法得知的平均值(数学期望),因此也就无法直接求的方差(因为按定义方差的计算公式是),为此,我们转而求的方差(这有两方面的原因:一是这样计算不会偏离我们的主旨,即可以度量估计值与真实值之间的差距;二是的平均值为0)。在已知的方差及的协方差的基础之上,我们可以得到的方差为:5点预测的预测区间精度(1)含义:它指的是估计值与真实值的偏离程度,即前面所说的区间估计的内容。(2)预测区间精度的计算:由于,即对于T,其分布规律我们已知,因此我们可以先给这T的绝对值大于某一个数的概率,然后求出这个值,我们就可求出在某一范围内偏离Y的可能性有多大。即用比较严格的术语说,就是我们先给定T的一个大小的置信度,然后再求这个临界值。具体而言,由此得出的之间的偏离度为或。从后一个式子我们可比较明
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 标准模板配色方案(3篇)
- 山体施工防火措施方案(3篇)
- 报酬税务筹划方案(3篇)
- 公司对外活动管理制度
- 公共客运公司管理制度
- 包饭公司行政管理制度
- 节约水电措施方案(3篇)
- 工程甲方单位管理制度
- 公司财务资产管理制度
- 对于月子中心管理制度
- 《一次性物品巧“变身”》第二课时说课稿-四年级劳动北师大版
- 石灰购销合同
- 免疫增殖病及检验(免疫学检验课件)
- 电网生产调度系统改造工程预算与计算方法(2019年1月)
- 《建筑装饰构造与施工技术》课程标准
- 家装公司工程保修单
- 南方少数民族传统合唱精讲智慧树知到答案章节测试2023年四川音乐学院
- 自贸试验区片区重点发展产业列表
- 外贸英语函电全套(优选9篇)
- 中国银行个人授信业务催收外包服务方案及措施
- 立方米卧式浓硫酸储罐设计
评论
0/150
提交评论