实验优化设计-多元线性回归模型.ppt_第1页
实验优化设计-多元线性回归模型.ppt_第2页
实验优化设计-多元线性回归模型.ppt_第3页
实验优化设计-多元线性回归模型.ppt_第4页
实验优化设计-多元线性回归模型.ppt_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章是多元线性回归模型,多元线性回归模型的参数估计,多元线性回归模型的假设检验实例,3.1多元线性回归模型,1。多元线性回归模型,2。多元线性回归模型的基本假设,1。多元线性回归模型:表明线性回归模型中有许多解释变量。一般表达式:i=1,2,n,其中:k为解释变量的个数,j为回归系数。总体回归函数为:总体回归函数的随机表达形式为,可见其对应于线性回归模型,是线性回归模型的自然延伸和延伸!j,也称为偏回归系数,表示当X j变化1个单位而其他解释变量保持不变时,Y的平均值E(Y)的变化;或者j给出X j的单位变化对y均值的“直接”或“净”(不包括其他变量)影响。它的随机表达式为:ei称为残差或残

2、差,可以看作是总体回归函数中随机扰动项I的近似替代。用于估计总体回归函数的样本回归函数是多元线性回归模型的基本假设。假设1,解释变量是非随机的或固定的,并且每个X彼此不相关(没有多重共线性)。假设2,随机误差项具有零均值、相同方差和无序列相关性。假设3,解释变量与随机项目无关,假设4,随机项目满足正态分布,3.2多元线性回归模型的估计,1。一般最小二乘估计2。参数估计的性质。样本量问题4。估计例子,解释,估计方法:OLS(一般最小二乘法),1。一般最小二乘估计,对于n组随机选择的观测值,如果样本函数有:i=1,2n。根据最小二乘法原理,参数估计值应该是右列方程的解,在右列方程中得到关于待估计参

3、数估计值的正规方程:随机误差项方差的无偏估计可以证明如下:2。在满足基本假设的条件下,参数估计值及其结构参数的普通最小二乘法的性质。即满足高斯-马尔可夫定理;第三,样本量的问题,即所谓的“最小样本量”,即从最小二乘原理和最大概率原理出发,无论参数估计量的质量如何,都需要得到样本量的下限。最小样本量必须不小于模型中解释变量(包括常数项)的数量,即n k 1,2,样本量满足基本要求。从统计检验的角度来看:当n-k8时,T分布相对稳定,一般经验认为,当n30或至少n3(k 1)时,可以满足模型估计的基本要求。模型的良好性质只能在大样本下从理论上证明。3.3多元线性回归模型的统计检验,1。拟合优度检验

4、,2。方程的显著性检验(f检验),3。变量显著性检验(T检验),4。参数的置信区间,1。拟合优度检验,1。判断系数和调整后的判断系数,再分解总离差平方和,因为问题:在应用过程中,发现如果在模型中加入一个解释变量,R2倾向于增加(为什么?这给了人们一种错觉:为了使模型更好地匹配,只需添加解释变量。然而,在现实中,解释变量数量的增加导致的R2的增加与拟合度无关,R2需要进行调整。调整系数的确定,在一定样本量的情况下,增加解释变量肯定会降低自由度,因此调整的思路是将残差平方和和与总偏差平方和除以各自的自由度,从而消除变量个数对拟合优度:的影响,其中n-k-1是残差平方和的自由度,n-1是平方和的总和

5、。,*2,阿卡克信息准则和施瓦茨准则。为了比较具有不同解释变量数的多元回归模型的拟合优度,常用的标准是Akaike信息准则(AIC)和Schwartz准则(SC),这两种准则都要求只有当增加的解释变量能够降低AIC值或交流值时,才需要在原始模型中增加解释变量。其次,方程的显著性检验(F检验),即方程的显著性检验,旨在推断模型中被解释变量与被解释变量之间的线性关系总体上是否显著。1.f检验方程的显著性,即检验模型yi中的参数j是否=0 1x1i2x2i kxki I=1,2,n明显不同于0。可以提出以下原始假设和替代假设:h0: 0=1=2=k=0h1: j不全是0。f检验的思想来源于总偏差平方

6、和的分解公式。如果这个比值很大,则x的复数对y的解释程度很高,可以认为总体上存在线性关系,否则总体上可能不存在线性关系。因此,总的线性关系可以通过该比率来推断。根据数理统计的知识,在原假设H0成立的条件下,统计量(注:这里K是回归元素的个数而不是变量的个数,所以要注意K的具体含义)服从具有自由度的F分布(K,n-k-1)。给定显著性水平,可以获得临界值F(k,n-k-1),并且可以从样本计算统计量F。F(k,n-k-1)或F F(k,n-k-1)可以拒绝或接受H0的原始假设,以确定原始方程的整体线性关系是否显著建立。以中国居民人均消费支出为例:一元模型:F=285.92二元模型:F=2057.

7、3,给定显著性水平=0.05,查分布表得到临界值:一元模型:F(1,21)=4.32二元模型:F(2,19)=3.52,显然,2。关于拟合优度检验和方程显著性检验之间关系的讨论,我们可以推导出:和,或,注:教材是F和R2之间的关系。由于判断系数和修正后的判断系数之间的关系,这三者之间关系的推导是显而易见的。3.变量的显著性检验(T检验)表明,方程的总体线性关系显著,各解释变量对被解释变量的影响显著。因此,有必要测试每个解释变量的重要性,以确定它是否作为解释变量保留在模型中。这个测试是通过变量的t检验完成的。1,t统计量,因此,我们可以构造以下t统计量,2,t检验,设计原始假设和替代假设:h1:

8、 i0,给定显著性水平,我们可以得到临界值t/2(n-k-1),从样本中得到统计量t的值,并通过|t| t/2(n-k-1),h0: I=0 (I=1,2k),注意:在一个变量的线性回归中,t检验与f检验是一致的(但多元检验不是那么简单!一方面,T检验和F检验都检验了同一个原始假设H0:1=0;另一方面,这两个统计量之间存在以下关系:在中国居民人均收入和消费支出的二元模型中,参数的t值由应用软件计算,给定显著性水平=0.05,得到相应的临界值:t0.025(19)=2.093。可以看出,所有计算出的t值都大于临界值,因此原始假设被拒绝。也就是说,的三个解释变量,包括常数项,都在5%的显著性水平

9、上显著,并且都通过了变量显著性检验。4.参数的置信区间,用于调查在一次采样中估计的参数值与参数的真实值有多接近。在变量的显著性检验中,已知在(1-)的置信水平下,很容易推导出I的置信区间,其中t/2是具有显著性水平和n-k-1自由度的临界值。我们如何缩小置信区间?增加样本量n,因为在相同的样本量下,n越大,t分布表中的临界值越小,同时,增加样本量也可以降低样本参数估计量的标准差;提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和成正比,模型的优度越高,残差平方和应该越小。改善样本观测值的分散性,也就是说,变量必须发生很大变化。3.参数稳定性,邹的参数稳定性检验。在建立模型时,通常希望模

10、型的参数是稳定的,即所谓的结构不变,这将改善模型的预测和分析功能。如何测试?假设要建立的模型是:在两个连续的时间序列(1,2,n1)和(n1 1,n1 n2)中,对应的模型分别是:因此,检验的F统计量是:并且很容易验证RSS1和RSS2是两个时间周期回归后得到的残差平方和,所以参数稳定性的检验步骤是:(1)得到对应的残差平方和:RSS1和RSS2 (2)将两个序列合并成一个大样本,回归得到大样本下的残差平方和rssr(3)计算f统计量的值,并与临界值进行比较:如果f值大于临界值,则拒绝原来的假设,认为结构发生了变化,参数不稳定。这个测试也被称为参数稳定性的Chow测试。例3.6.2邹对中国城镇居民人均食品消费需求的检验。1。参数稳定性测试,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论