统计预测与决策教案_第1页
统计预测与决策教案_第2页
统计预测与决策教案_第3页
统计预测与决策教案_第4页
统计预测与决策教案_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计预测与决策 教案时间:2005年9月管理预测与决策方法授课计划 定性预测方法 定量预测方法u 确定性方法Ø 回归分析预测方法Ø 时间序列平滑预测方法Ø 趋势外推预测方法Ø 马尔可夫预测与决策法u 不确定性方法Ø 灰色系统预测Ø 随机性决策分析Ø 模糊决策Ø 粗糙集理论第一章预测概述1.1 引言1. 预测的兴起预测于20世纪60-70年代在美国逐步兴起的预测:预测是指对事物的演化预先做出的科学推测。广义的预测,既包括在同一时期根据已知事物推测未知事物的静态预测,也包括根据某一事物的历史和现状推测其未来的动态预测。

2、狭义的预测,仅指动态预测,也就是指对事物的未来演化预先做出的科学推测。预测理论作为通用的方法论,既可以应用于研究自然现象,又可以应用于研究社会现象,如社会预测、人口预测、经济预测、政治预测、科技预测、军事预测、气象预测等。2. 预测的作用正确的预测是进行科学决策的依据。政府部门或企事业单位制定发展战略、编制计划以及日常管理决策,都需要以科学的预测工作为基础。如“诸葛亮借东风、空城计”、以美国为首的多国部队实施的“沙漠风暴”,研究人员建立了热能转换模型,进行了一系列模拟计算。因此,人们说第一次世界大战是化学战(火药),第二次世界大战是物理战(原子武器),而海湾战争是数学战,指的是这场战争在战前就

3、已对战争的进程以及战争所涉及和影响的方方面面做出了科学预测。 制订经济计划的依据之一提高经济效益的手段之一提高管理水平的途径之一1.2 预测的基本原则1. 坚持正确的指导思想2. 坚持系统性原则 预测者所研究的事物和自然界的其他事物一样,都有自己的过去、现在和将来,就是存在着一种纵的发展关系,因果关系,而这种因果关系要受某种规律的支配。将事物作为一个互相作用和反作用的动态整体来研究,而且要将事物本身与周围的环境组合成一个系统综合体来研究。例如:1943年全世界估计有三亿疟疾病患者,每年有300万人死亡,4500万人死于瘟疫,1945年后使用了DDT,十年内疟疾病的死亡率降低了二分之一,瘟疫病患

4、者每年仅死亡几千人。然而DDT除了杀死害虫外,还杀死了大量其他有益的鸟类、鱼类等动物及植物,而且外界环境不能使DDT毒性衰减,据估计现在存留在大气层,大地以及海洋中的DDT约有十亿磅以上。3坚持关联性原则4坚持动态性原则1.3 预测的分类1.按预测的范围或层次分类(1) 宏观预测是指针对国家或部门、地区的活动进行的各种预测。它以整个社会经济发展的总图景作为考察对象,研究经济发展中各项指标之间的联系和发展变化。如:社会商品总供给、总需求的规模、结构、发展速度和平衡关系的预测;社会物价总水平的变动;宏观经济预测是政府制定方针政策、编制和检查计划,调整经济结构的重要依据。(2) 微观预测是针对基层单

5、位的各项活动进行的各种预测。它以企业或农户生产经营发展的前景作为考察对象,研究微观经济中各项指标间的联系和发展变化。具体商品的生产量、需求量和市场占有率的预测等。微观经济预测,是企业制定生产经营决策,编制和检查计划的依据。宏观预测应以微观预测为参考;微观预测应以宏观预测为指导,二者相辅相成。2. 按预测的时间长短来分类(1) 长期预测一般是指对5年以上发展前景的预测(2) 中期预测一般指1年以上5年以下发展前景的预测(3) 短期预测一般指对3个月以上1年以下发展前景的预测(4) 近期预测一般指对3个月以下企业生产经营状况的预测。3. 按预测方法的性质分类(1) 定性预测指预测者通过调查研究,了

6、解实际情况,凭自己的实践经验和理论、业务水平,对事物发展前景的性质、方向和程度做出判断进行预测的方法。(2) 定量预测是指根据准确、及时、系统、全面的调查资料和信息,运用软计算方法和数学模型,对事物未来发展的规模、水平、速度和比例关系的测定。常用的定量预测方法有回归分析预测、时间序列预测、因果分析预测、灰色系统预测、粗糙集方法、模糊集方法及神经网络等。4. 按预测时是否考虑时间因素来分类(1) 静态预测指不包含时间变动因素,对事物在同一时期的因果关系进行预测(2) 动态预测指包含时间变动因素,根据事物发展的历史和现状,对其未来发展前景做出的预测。1.4 预测的程序1. 明确预测任务,制定预测计

7、划预测计划是根据预测任务制定的预测方案,包括预测的内容、项目,预测所需的资料,准备选用的预测方法,预测的进行和完成时间,编制预测的预算,调配力量,组织实施等。2. 搜集、审核和整理资料筛选资料的标准有三个(1) 直接有关性;(2) 可靠性;(3) 最新性。选择预测方法和建立数学模型数学模型也称为预测模型,是指反映经济现象过去和未来之间,原因和结果之间相互联系和发展变化规律性的数学方程式检验模型,进行预测模型建立之后必须经过检验才能用于预测。一般的,评价模型优劣的基本原则有以下几条:(1) 理论上合理(2) 统计可靠性高(3) 预测能力强(4) 简单适用5. 分析预测误差,评价预测结果即分析预测

8、值偏离实际值的程度及其产生的原因6向决策者提交预测报告1.5 预测的精度和价值1. 预测精度评价指标(1) 预测误差设某一项预测指标的实际值为,预测值为令(2) 相对误差预测误差在实际值中所占比例的百分数称为相对误差,记为,即(3) 平均误差(4) 平均绝对误差(5)平均相对误差(6)均方误差(7)均方根误差(8)两面商测定预测准确度的另一个指标是Janus商,计算公式如下:利用预测模型对样本期外的数据进行预测,有事前预测与事后预测两种。对样本期外实际情况已经发生的若干时期所进行的预测叫事后预测,对实际情况尚未发生的未来时期所进行的预测叫事前预测,后者是预测的最终目的。2. 预测的价值预测的价

9、值可分为事实预测和非事实预测一般说来,对于人们难以控制的事物或现象,预测的精度越高,其价值就越大,如气象预测、地震预测等,这类预测称为事实预测。对于一些部分可控的事物,就不能按照预测的精度或预测是否成为事实来衡量其价值。这类预测通常称为非事实性预测(指预测具有引导人们去执行预测结果的功能。非事实预测可分为按照对预测结果的影响效应,非事实性预测可以分为自实现预测(selffullfilling forcast)和自拆台预测(self-defeating forcasting)两种。第二章 定性预测方法 定性预测,是预测者根据自己的知识背景以及所掌握的实际情况和实践经验,对经济发展前景的性质、方向

10、和程度做出的判断。 定性预测特点:需要的数据少,能考虑无法定量的因素,比较简便可行。 在掌握的数据不多、不够准确或主要影响因素难以用数字描述,无法进行定量分析时,定性预测就是一种行之有效的预测方法。 由于定性预测主要靠预测者的经验和判断能力,易受主观因素的影响,主要目的不在数量估计。为了提高定性预测的准确程度,应注意以下几个问题:(1) 应加强调查研究,努力掌握影响事物发展的有利条件、不利因素和各种活动的情况。从而使对经济发展前景的分析判断更加接近实际。(2) 在进行调查研究,搜集资料时,应作到数据和情况并重,使定性分析定量化。也就是通过质的分析进行量的估计,进行有数据有情况的分析判断,提高定

11、性预测的说服力。(3) 应将定性预测和定量预测相结合,提高预测质量。在预测过程中,应先进行定性分析,然后进行定量预测,最后再进行定性分析,对预测结果进行调整定案。这样才能深入地判断事物发展过程的阶段性和重大转折点,提高预测的质量,为管理、决策提供依据。2.1 市场调查预测法 常用的市场调查预测法有以下几种: 1 经济管理人员意见调查预测法 2 销售人员意见调查法 商品展销、定货会调查预测法 消费者购买意向调查预测法 2.2 市场调查预测法 为了提高预测的准确程度,在进行市场调查预测时应注意以下几个问题: (1)调查表不要包罗万象,应只包括和预测有关的基本内容; (2)要抽选出一定数目的具有代表

12、性的调查单位; (3)设法取得被调查者的充分合作; (4)要参考统计资料和市场信息,对调查预测结果进行修正,以提高预测的准确程度; (5)尽量利用城市和农村住户抽样调查资料,以节省人力、物力,提高调查预测的科学性和准确性。 2.3 专家预测方法 1. 头脑风暴法 头脑风暴法: 主要是通过组织专家会议,激励全体与会专家参加积极的创造性思维。 在诸多直观预测方法中,头脑风暴法占有重要地位。20 世纪50 年代,头脑风暴法作为一种创造性的思维方法在预测中得到广泛运用,并日趋普及。从20 世纪60 年代末期到70 年代中期,实际应用中头脑风暴法在各类预测方法中所占的比重由6.2% 增加到8.1% 。

13、2. 德尔菲(Delphi)法 德尔菲(Delphi)法:德尔菲法是专家会议预测法的一种发展。它以匿名方式通过几轮函询,征求专家们的意见。预测领导小组对每一轮的意见都进行汇总整理,作为参考资料再发给每个专家,供他们分析判断,提出新的论证。如此多次反复,专家的意见渐趋一致,结论的可靠性越来越大。 德尔菲(Delphi)法是美国“兰德”公司20世纪40年代首先用于技术预测的。德尔菲是古希腊传说中的神谕之地,城中有座阿波罗神殿可以预卜未来,因而借用其名。 近十年来,德尔菲法已成为一种广为适用的预测方法。许多决策咨询专家和决策者,常常把德尔菲法作为一种重要的规划决策工具。斯蒂纳(G. A. Stein

14、er)在其所著作的高层次管理规划一书中,把德尔菲法当作最可靠的技术预测方法。在军事领域中德尔菲法应用最为普遍。工业科技发展和市场需求预测,国外也多采用德尔菲法。德尔菲法应用的其它领域还有:人口预测、医疗和卫生保健预测、经营预测、教育预测、研究方案的预测、信息处理、以及各级各类社会、经济、科技发展规划等等。Ø 德尔菲(Delphi)法步骤(1)制定调查表,准备必要背景材料具体、明确、便于答复、材料客观(2)选择专家具有较高理论水平或具丰富实践经验的人(3)反馈调查Ø 特点(1)匿名性(2)轮间反馈性(3)预测结果的统计特性Ø 派生德尔菲法 自从“兰德”公司首次用德尔

15、菲法进行预测之后,很多预测学家(其中包括“兰德”公司的专家)对德尔菲法进行了深入研究,对初始的经典德尔菲法进行了某些修正,并开发了一些派生方法。 派生方法分为两大类:(1)保持经典德尔菲法基本特点;(2)改变其中一个或几个特点。 专家的选择 德尔菲法是一种对于意见和价值进行判断的作业。如果应邀专家对预测主题不具有广泛的知识,很难提出正确的意见和有价值的判断。即使预测主题比较窄和针对性很强,要物色很多对这一专题涉及的各个领域都有很深造诣的专家也很困难,因而物色专家是德尔菲法成败的关键,是预测领导小组的一项主要工作。 如果预测任务仅仅关系到具体技术发展,最好同时从部门内外挑选。从外部选择专家,大体

16、按如下程序进行:(1)编制征求专家应答问题一览表。(2)根据预测问题,编制所需专家类型一览表。(3)将问题一览表发给每个专家,询问他们能否坚持参加规定问题的预测。(4)确定每个专家从事预测所消耗的时间和经费。 编制调查表 调查表一般根据实际预测问题的要求编制。 德尔菲预测过程 经典德尔菲法一般分四轮进行。第一轮:发给专家的第一轮调查表不带任何框框,只提出预测主题。预测领导小组对专家填写后寄回的调查表进行汇总整理,归并同类事件,排除次要事件,用准确术语提出一个事件一览表,并作为第二轮调查表发给每个专家。第二轮:专家对第二轮调查表所列的每个事件作出评价,并阐明理由。领导小组对专家意见进行统计处理。

17、第三轮:根据第二轮统计材料,专家再一次进行判断和预测,并充分陈述理由。有些预测在第三轮时仅要求持异端意见的专家充分陈述理由,因为他们的依据经常是其他专家忽略的一些外部因素或未曾研究过的一些问题。这些依据往往对其他成员重新作出判断产生影响。第四轮:在第三轮统计结果基础上,专家再次进行预测。根据领导小组要求,有的成员要重新做出论证。通过四轮,专家的意见一般可以相当协调。 2.4 主观概率法主观概率:是预测者对某一事件在未来发生或不发生可能性的估计,反映个人对未来事件的主观判断和信任程度。 主观概率法是对市场调查预测法或专家预测法得到的定量估计结果进行集中整理的常用方法。 客观概率,是指某一随机事件

18、经过反复试验后,出现的频数,也就是对某一随机事件发生的可能性大小的客观估量。如掷一枚硬币,出现国徽面和出现数字面的客观概率各为1/2。 主观概率加权平均法 主观概率加权平均法是以主观概率为权数,通过对各种预测意见进行加权平均,计算出综合性预测结果的方法。 累计概率中位数法 累计概率中位数法是根据累计概率,确定不同预测值的中位数,对预测值进行点估计和区间估计的方法。 2.5 预兆预测法 1.预兆预测法概念预兆预测法:就是根据预测对象前兆现象的变化情况,推断预测对象发展前景的预测方法。自然现象、社会现象、经济现象等之间的相互联系,有时在变动时间上呈现先后顺序。当一种现象发生变化之后,另一种现象随之

19、发生变化。前者的变化传递了后者即将发生变化的信息,成为后者发生变化的前兆现象。经济波动 所谓经济波动,指的是经济增长中出现上升与下降交替的循环往复运动。一个典型的经济波动周期包括复苏、高涨、衰退和萧条四个阶段。 3. 监测预警指标体系的构造 应用预兆预测法对经济波动进行监测预警时要建立指标体系,通过对指标系统的观测和分析来反映经济运行系统的变化,以便对经济增长中行将出现的波动态势发出警报信号,为提早实施宏观调控提供依据,做到防患于未然。 设置指标体系要考虑三个方面的问题:(1) 指标的内容指标的内容要与预警目标一致。 ()指标时差关系分类 根据指标变动的时差关系,入选指标可以分为先行、同步和滞

20、后三种类型()指标选择的原则l 经济性质的重要性l 变动特征的灵敏性与稳定性l 统计上的完整性、及时性与充分性。 信息指标的综合、识别与评价(1)扩张指数方法扩张指数方法根据扩张和半扩张指标数量比例进行指标信息的综合。计算公式是:(2)景气对策信号方法景气对策信号方法采用类似交通管制信号灯的方法来显示经济总体的运行状态和应当采取的景气对策,如我国将经济运行的景气波动范围划分为过热、偏热、正常、偏冷和过冷五个景气区,分别用红灯、黄灯、绿灯、浅蓝灯和蓝灯表示。 (3) “组合信号”预测在实际应用中为了提高预测的准确性,还可以利用同步指标甚至是滞后指标参与预测,然后取各个预测值的平均值作为最终预测值

21、,称为“组合信号”预测值。第3章 回归分析预测法3.1 引言1回归分析的提出 回归分析起源于生物学研究,是由英国生物学家兼统计学家高尔登(Francis Galton 1822-1911)在19世纪末叶研究遗传学特性时首先提出来的。 高尔登在1889年发表的著作自然的遗传中,提出了回归分析方法以后,很快就应用到经济领域中来,而且这一名词也一直为生物学和统计学所沿用。 回归的现代涵义与过去大不相同。一般说来,回归是研究因变量随自变量变化的关系形式的分析方法。其目的在于根据已知自变量来估计和预测因变量的总平均值。 回归分析和相关分析(1)函数关系函数关系反映客观事物之间存在着严格的依存关系。在这种

22、关系中,当一个或几个变量取值一定时,另一个变量有确定的值与之相对应,并且这种关系可以用一个确定的数学表达式反映出来。一般把作为影响因素的变量称为自变量,把发生对应变化的变量称为因变量。 (2)相关关系相关关系反映的是客观事物之间的非严格、不确定的线性依存关系。这种线性依存关系有两个显著的特点: 客观事物之间在数量上确实存在一定的内在联系。表现在一个变量发生数量上的变化,要影响另一个变量也相应地发生数量上的变化。客观事物之间的数量依存关系不是确定的,具有一定的随机性。表现在当一个或几个相互联系的变量取一定数值时,与之对应的另一个变量可以取若干个不同的数值。这种关系虽然不确定,但因变量总是遵循一定

23、规律围绕这些数值的平均数上下波动。()回归分析与相关分析的关系相关分析是以相关关系为对象,研究两个或两个以上随机变量之间线性依存关系的紧密程度。通常用相关系数表示,多元相关时用复相关系数表示。回归分析是对具有相关关系的变量之间的数量变化规律进行测定,研究某一随机变量(因变量)与其他一个或几个普通变量(自变量)之间的数量变动关系,并据此对因变量进行估计和预测的分析方法。由回归分析求出的关系式,称为回归模型回归分析与相关分析的联系是,它们是研究客观事物之间相互依存关系的两个不可分割的方面。在实际工作中,一般先进行相关分析,由相关系数的大小决定是否需要进行回归分析。在相关分析的基础上建立回归模型,以

24、便进行推算、预测,同时相关系数还是检验回归分析效果的标准。相关分析需要回归分析来表明客观事物数量关系的具体形式,而回归分析则应建立在相关分析的基础上。回归模型的种类(1)根据自变量的多少,回归模型可以分为一元回归模型和多元回归模型。(2)根据回归模型的形式线性与否,回归模型可以分为线性回归模型和非线性回归模型。(3)根据回归模型所含的变量是否有虚拟变量,回归模型可以分为普通回归模型和带虚拟变量的回归模型。此外,根据回归模型是否用滞后的因变量作自变量,回归模型又可分为无自回归现象的回归模型和自回归模型。3.2 一元线性回归预测法 一元线性回归预测法,是对两个具有线性关系的变量,建立线性回归模型,

25、根据自变量的变动来预测因变量平均发展趋势的方法。 1. OLS (Ordinary Least Square)估计 2. OLS的特性 最小二乘估计量 具有线性、无偏性和最小方差性等良好的性质。线性、无偏性和最小方差性统称BLUE性质。满足BLUE性质的估计量称为BLUE估计量。 3. 回归方程的检验 在一元线性回归模型中最常用的显著性检验方法有: 相关系数检验法 F 检验法 t 检验法 3.3 回归方程的检验3.3.1 离差平方和的分解与可决系数 在一元线性回归模型中,观测值的数值会发生波动,这种波动称为变差。变差产生的原因如下:受自变量变动的影响,即x取值不同时的影响;受其他因素(包括观测

26、和实验中产生的误差)的影响。为了分析这两方面的影响,需要对总变差进行分解。1离差平方和的分解=即总变差=剩余变差+回归变差2可决系数可决系数的大小表明了在y的总变差中由自变量x变动所引起的回归变差所占的比例,是反映变量与之间的线性相关关系密切程度的一个重要指标。根据上述定义,有 3.3.2 相关系数检验法相关系数是用来衡量一元线性回归模型中两个变量之间线性相关关系强弱程度的指标。一般说来,相关系数愈大说明两个变量之间的线性相关关系愈强。但相关系数的绝对值大到什么程度时,才能认为两变量之间的线性相关关系是显著的,回归模型用来预测是有意义的?对于不同组数的观测值,不同数值的显著性水平,衡量的标准是

27、不同的。这一数量界限的确定只有根据具体的条件和要求,通过相关系数检验法的检验才能加以判别。相关系数检验法的步骤如下:1计算相关系数R;2根据回归模型的自由度(n-2)和给定的显著性水平值,从相关系数临界值表中查出临界值;3判别。若|R|>,表明两变量之间线性相关关系显著,检验通过,这时回归模型可以用来预测;若|R|,表明两变量之间线性相关关系不显著,检验未通过。在这种情况下,回归模型不能用来进行预测。这时,应分析其原因,对回归模型重新调整。3.3.3 F检验法构造F统计量 可以证明F服从第一自由度为1,第二自由度为n的分布。对给定的显著性水平,查分布表可得临界值。若>,则认为两变量

28、之间线性相关关系显著;反之,若,则认为两变量之间线性相关关系不显著。3.3.4 t检验法t检验法是检验a, b是否显著异于的方法。我们以对b检验为例来说明t检验法的步骤。构造t统计量其中,称为的样本标准差。可以证明服从自由度为(n2)的t分布。查t分布表得临界值。若t>,则认为b显著异于,反之,若t,则认为b不显著异于。对于a是否显著异于的检验过程与此完全相同。3.3.5 预测区间1点估计在一元线性回归模型中,对于自变量x的一个给定值,代入回归模型,就可以求得一个对应的回归预测值,又称为点估计值。 设预测点为,则预测值为:2区间估计所谓预测区间就是指在一定的显著性水平上,依据数理统计方法

29、计算出的包含预测对象未来真实值的某一区间范围。 设其预测误差为:由于和都服从正态分布,所以也服从正态分布,其期望值与方差分别为: 所以, 令通过上述分析,可以得到,在显著性水平为时,预测值的预测区间为: 当实际观测值较多,满足大样本条件(一般>)时,式(中根式的值近似地等于,式中的也近似趋于正态分布,因此,可简化为:3.3.5 几个应当注意的问题 1重视数据的收集和甄别在收集数据的过程中可能会遇到以下困难:(1)一些变量无法直接观测。(2)数据缺失或出现异常数据。(3)数据量不够。(4)数据不准确、不一致、有矛盾。2. 合理确定数据的单位 在建立回归方程时,如果不同变量的单位选取不适当,

30、导致模型中各变量的数量级差异悬殊,往往会给建模和模型解释带来诸多不便。比如模型中有的变量用小数位表示,有的变量用百位或千位数表示,可能会因舍入误差使模型计算的准确性受到影响。因此,适当选取变量的单位,使模型中各变量的数量级大体一致是一种明智的做法。3.3.6 举例例 江苏省19862003年国内生产总值和固定资产投资完成额数据如表3.3.1所示。表3.3.1 一元线性回归模型计算表 单位;亿元年份固定资产投资完成额x国内生产总值yx2y2xy19861987198814613184495351989174728742329619902006472504699199125644181992456

31、258115202051993130919489889633430495199417719071646241454009141995282297126576603866169619963800667360505381170538819974853606446269431471739019986428760518392801825547319997522129592564332111242620008972601736632542570896720011090954590476432314174582002148166491130341084092415720032847076215504732

32、366440314合计92905430689769996数据来源:江苏统计年鉴试配合适当的回归模型并进行显著性检验;若2004年该省固定资产投资完成额为5922亿元,当显著性水平.时,试估计2004年其国内生产总值的预测区间。解:绘制散点图设国内生产总值为y, 固定资产投资完成额为x,绘制散点图(图略),由散点图可以看出两者呈线性关系,可以建立一元线性回归模型。设一元线性回归方程为计算回归系数列表计算有关数据(见表4.8.1),并计算出回归系数估计值:所求回归预测方程为:检验线性关系的显著性由于在一元线性回归情形,相关系数检验、F检验、t检验的结果一致,此处仅给出相关系数检验。当显著性水平=0

33、.05,自由度=nm86时,查相关系数临界值表,得,因99>故在的显著性水平上,检验通过,说明两变量之间线性相关关系显著。预测()计算估计值的标准误差()当显著性水平,自由度n286时,查t分布表得:()当亿元时,代入回归方程得y的点估计值为: (亿元)预测区间为:即:当2004年全省固定资产投资完成额为5922亿元时,在17234.6亿元之间。 一元线性回归模型研究的是某一因变量与一个自变量之间的关系问题。但是,客观现象之间的联系是复杂的,许多现象的变动都涉及到多个变量之间的数量关系。 研究某一因变量与多个自变量之间的相互关系的理论和方法就是多元线性回归模型。 3.4 多元线性回归预测

34、法3.4.1 多元线性回归模型及其假设条件 设所研究的对象受多个因素的影响,假定各个影响因素与y的关系是线性的,这时就需要建立多元线性回归模型: 给定变量y,的一组观测值,对应地有,若取的观测值恒等于1,即对任意有=1,则式变为:,即用矩阵形式表示为即 其中 多元线性回归模型的基本假设条件如下:假设1: ,即 E(u)=E 假设2: 用矩阵形式表示为 = = = 式称为高斯马尔可夫(Gauss-Markov)假设。假设3: 式要求随机扰动项u与自变量不相关。假设4:r(X)=m, .假设4限定矩阵X的秩等于参数个数,即要求自变量不相关。 由于随机扰动项包含了“非主要因素”的影响、随机变化、观测

35、误差和模型数学形式设定偏差等各种因素对y的影响的总和,根据中心极限定理,还可以进一步假设随机扰动向量u服从n维正态分布,即uN(,In)。3.4.2 模型参数的估计 与一元线性回归模型类似,我们仍采用最小二乘法估计参数向量B,设观测值与回归方程估计值的残差向量为E,则其中 根据最小二乘法的要求,应有 即由极值原理,根据矩阵求导法则,上式对求导,并令其等于零,则得:整理得回归系数向量的估计值为: 3.4.3 回归系数向量估计值的统计性质 回归系数向量的估计值具有线性性质。由式(5.2.2)可知,回归系数向量的估计值为Y的线性组合。估计值是回归系数向量的无偏估计量。回归系数向量估计值的数学期望可见

36、是的无偏估计。回归系数向量估计值具有最小方差性回归系数向量估计值的协方差因为故 = = = 式中矩阵主对角线上的元素为回归系数向量估计值的方差,其余元素为回归系数向量估计值的协方差。可以证明,回归系数向量估计值具有最小方差性,此处从略3.4.4 多元线性回归模型的检验 常用的检验方法有 1.检验法 2.检验法 3. t检验法 4.检验法。 在建立多元线性回归模型的过程中,为进一步分析回归模型所反映的变量之间的关系是否符合客观实际,引入的影响因素是否有效,同样需要对回归模型进行检验。1.检验法检验法是通过复相关系数检验一组自变量与因变量y之间的线性相关程度的方法,又称复相关系数检验法。与一元线性

37、回归模型类似,可以通过对总变差的分解 得到多元线性回归模型之R2的计算公式。上式右边的第二项称为回归变差(或称回归平方和),回归平方和反映了与之间的变差,这一变差由自变量的变动而引起,是总变差中由自变量解释的部分,它的大小反映了自变量的重要程度;等式右边的第一项称为剩余变差(或称残差平方和),它是由观测或实验中产生的误差以及其他未加控制的因素引起的,反映的是总变差中未因变量解释的部分。即总变差=剩余变差+回归变差与一元回归分析一样,也可以利用在总离差中所占的比重表示多元线性回归模型的复可决系数。 它可以用来衡量因变量与自变量之线性相关关系的密切程度。称为复相关系数。这里说明在y的总变差中,由一

38、组自变量变动所引起的变差所占的百分比;则描述一组自变量与因变量y之间的线性相关程度。它们所体现是一组自变量对因变量的影响程度及其线性相关程度,所以,这里分别称它们为复可决系数和复相关系数。与相关系数检验法一样,复相关系数检验法的步骤为:()计算复相关系数;()根据回归模型的自由度nm和给定的显著性水平值,查相关系数临界值表;()判别。在实际工作中,复相关系数的计算常用其简捷形式,如对于二元和三元的情形,其简捷形式分别如式所示: 由于是一个随自变量个数增加而递增的增函数,所以,当我们对两个具有不同自变量个数但性质相同的回归模型进行比较时,就不能只用作为评价回归模型优劣的标准,还必须考虑回归模型所

39、包含的自变量个数的影响。因此,就需要定义一个经过校正的,记为: 这里,nm是剩余变差的自由度,n是总变差的自由度。由此可见,中体现了自变量个数m的影响。根据上式可得与之间的关系式如下: ()从式可以看出:()当m>时,<。说明中包含了自变量个数的影响,随着自变量个数的增加,总是小于。()尽管总是非负的,但却可能为负。若遇到为负数的情况,取值为零。检验检验是通过统计量检验假设:是否成立的方法。()统计量。 式中的m是回归变差的自由度,nm是剩余变差的自由度。可以证明统计量服从第一自由度为m1,第二自由度为nm的分布。故对给定的显著性水平,查分布表可得临界值。若>则否定假设,认为

40、一组自变量与因变量y之间的回归效果显著;反之,则不显著。一般来讲,回归效果不显著的原因有以下几种:影响y的因素除了一组自变量之外,还有其他不可忽略的因素;y与一组自变量之间的关系不是线性的;y与一组自变量之间无关。这时,回归模型就不能用来预测,应分析其原因另选自变量或改变模型的形式。()统计量与可决系数、相关系数的关系。从式中我们可以推导出三者的关系: 同样,分布的临界值与相关系数临界值也具有上述等式关系。t检验前述的R检验和检验都是将所有的自变量作为一个整体来检验它们与因变量y的相关程度以及回归效果,而t检验则是通过t统计量对所求回归模型的每一个系数逐一检验假设:是否成立的方法。()t统计量

41、 式中为第j个自变量的回归系数;是的样本标准差。()t检验的步骤计算估计标准误差对于二元和三元情形,估计标准误差的简捷公式分别为 计算样本标准差,由式可知 式中为矩阵主对角线上的第j个元素。计算t统计量建立假设:若>成立,则否定假设,说明对y有显著影响;反之假设成立,被接受,说明对y无显著影响,则应删除该因素。检验()序列相关的概念及对回归模型的影响序列相关是指数列的前后期相关。这里讲的前后期相关,可以是只与前一期相关,也可以与前若干期都相关。最常见的是时差为一期的序列相关,又称一阶自相关。回归模型假设随机误差项之间不存在序列相关或自相关,即互不相关,。若回归模型不满足这一假设,则称回归

42、模型存在自相关,这时,若我们继续使用最小二乘法估计参数,将可能产生下列严重后果:估计标准误差可能严重低估的真实值;样本方差可能严重低估的真实值;估计回归系数可能歪曲的真实值;通常的检验和t检验将不再有效;根据最小二乘估计量所作的预测将无效。()检验法在序列相关中,最常见的是一阶自相关,最常用的检验方法是检验法(Durbin-Watson准则)。定义统计量为: 其中:,是的估计量;因为的最初序号必须是,所以分子求和公式必须从开始。将式展开,得: 在大样本情况下,即n>,可以认为,所以上式可以写成: 是与的相关系数的估计量。当与正相关时,;当与负相关时,;若不存在自相关或相关程度很小时,。从

43、式(可以看出,值在之间。根据统计量,检验模型是否存在自相关,其步骤如下:利用最小二乘法求回归模型及残差;计算统计量;确立假设,即假定回归模型不存在自相关;根据给定的检验水平及自变量个数m从检验表中查得相应临界值,并利用表3.4.1判别检验结论。从表3.4.1可以看出,检验的最大弊端是存在着无结论区域。无结论区域的大小与样本容量n和自变量个数m有关,当n一定时,m愈大,无结论区域也愈大;当m一定时,n愈大,无结论区域就愈小。如果计算的统计量落到了无结论区域,那么,决策者就不能作出回归模型是否存在自相关现象的结论。在这种情况下,解决的办法是:(I)增加样本容量,重新计算统计量,再进行检验;(II)

44、调换样本,利用新的样本计算统计量,然后再进行检验;(III)利用其他方法进行自相关性检验。表3.4.1 检验判别表值检验结果-dLDW40DWdLduDW4- dudLDWdu4duDW4- dL否定假设,出现负自相关否定假设,出现正自相关接受假设,不存在自相关检验无结论检验无结论将上面检验判别表绘成图形如图所示。 f(d)无自相关正无无负自结结自相论论相关域域关 d dL dU 2 4dU 4dL 4 图5.4.1检验判别域()产生自相关的原因及补救办法。当检验结果出现0DWdL和-dLDW4情况时,说明随机误差项相互独立的假设不能成立,回归模型存在自相关。在实际预测中,产生自相关的原因可能

45、是:忽略了某些重要的影响因素。由于许多经济变量往往存在自相关,把它们忽略之后,其影响将在误差项中反映出来。错误地选用了回归模型的数学形式。如果回归模型的数学形式与所研究的变量之间的真实关系形式不一致,则值在时间上有可能相关。随机误差项本身的确存在自相关。例如:战争、自然灾害或某些政策对一些经济变量的影响是有后效的,所以随机因素本身可能存在自相关。针对上述三种情况,合适的补救办法是:把略去的重要影响因素引入回归模型中来;重新选择回归模型的形式;增加样本容量,改善数据的准确性。3.4.5 预测区间与一元回归模型相似,多元回归模型的预测值和预测区间计算步骤如下:()计算估计标准误差()记预测点为,则

46、预测值为:预测误差的样本方差为 ()当预测值的显著性水平为时,多元线性回归模型的预测区间为: ,n ,由于这里的是一个影响因素数据向量,按公式()计算较为复杂,故在实际预测中,一般运用代替近似地估计预测区间。3.4.6 应用实例例3. 某快递服务公司的经理经过分析,认为雇员承担的业务次数及投递行程距离对工作时间有影响。对于如表所示给出的工作时间、投递行程距离及业务次数的数据,试配合适当的回归方程并进行各种检验;取显著性水平.,当投递行程距离为60公里, 业务次数为2次时,试估计雇员工作时间的预测区间。解:1设工作时间为y,投递行程距离为,业务次数为,并假设y与之间存在线性关系。表 多元线性回归

47、方程计算表编号工作时间为y投递行程距离为业务次数为11004100001640093025032500915024031004100001640089041002100004200650135502250041002106802640041604967753562592255558665442251626039024369903810092706841090281004180549合计67800296745091234555942建立二元线性回归方程3计算回归系数列表计算有关数据,由计算结果得:检验508当0.05,时,说明相关关系显著。()(04) 5检验当时,说明回归效果非常显著。t检验根

48、据的计算有0.0.0.5731002560.57310.00705=当.时,因为的绝对值均大于,故拒绝假设,和。据此,可以断言:投递行程距离和投递业务次数对该公司雇员工作时间有显著影响。检验表3.4.3检验计算表编号123456786910合计67 =当.,时,查检验表,因检验表中,样本容量最低是15,故取:,因统计量满足<DW=<4表明回归模型不存在自相关。综合上述模型估计和各项检验结果可以认为:(4.664) () () 是一个较为优良的回归模型,可以用来预测。预测区间设预测点为,则其预测值为:(小时)预测区间为=即:当业务次数为2次,投递行程距离为60公里时,有95的把握估计雇员平均工作时间在5.95.3小时之间。 虚拟变量回归预测 虚拟变量品质变量不像数量变量那样表现为具体的数值。它只能以品质、属性、种类等形式来表现。要在回归模型中引入此类品质变量,必须首先将具有属

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论