版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、管理科学与工程学院 郑丽琳第二章第二章 回归模型回归模型l1.1经典回归模型的估计经典回归模型的估计 l1.2 经典回归模型的统计检验经典回归模型的统计检验 l1.3 经典回归模型建立和应用注意的问题经典回归模型建立和应用注意的问题l1.4 经典回归模型的非线性处理经典回归模型的非线性处理管理科学与工程学院 郑丽琳管理科学与工程学院 郑丽琳引例引例从2004年中国国际旅游交易会上获悉,到2020年,中国旅游业总收入将达到3000亿美元,相当于GDP的8至11。?是什么决定性因素能使中国旅游业总收入到2020年达到3000亿美元?旅游业的发展与这种决定性因素的数量关系究竟如何?怎样具体测定旅游业
2、发展与这种决定性因素的数量关系?管理科学与工程学院 郑丽琳应对考虑的问题应对考虑的问题l确定作为研究对象的经济变量(如我国旅游业总收入)l分析影响研究对象变动的主要因素(如我国居民收入的增长)l分析各种影响因素与所研究经济现象的相互关系(决定相互联系的数学关系式)l确定所研究的经济问题与影响因素间具体的数量关系(需要特定的方法)l分析并检验所得数量结论的可靠性(多种检验)l运用数量研究结果作经济分析和预测(实际应用)管理科学与工程学院 郑丽琳第一节第一节 经典回归模型的估计经典回归模型的估计 对经济变量相互关系的计量,最基本的方法是回归分析。回归分析是计量经济学的主要工具,也是计量经济学理论和
3、方法的主要内容。只有一个解释变量的线性回归模型是最简单的,称为简单线性回归模型或一元线性回归模型。本章从一元线性回归模型入手,讨论在基本假定满足的条件下,对经济变量关系计量的基本理论和方法,这也是我们学习的基础。管理科学与工程学院 郑丽琳一、回归分析相关与回归(统计学知识介绍)在统计学中考察经济变量间的依存关系,通常分 确定性的函数 Y=f(X) 函数关系 例子,商品销售量X和销售额Y Y=PX 不确定性的随机关系 相关关系 Y=f(X) (为随机变量) 例子,居民消费函数 Y=a+bX+ 没有关系管理科学与工程学院 郑丽琳 相关关系的描述相关关系的描述 最直观的描述方式最直观的描述方式坐标图
4、(散布图、散点图)坐标图(散布图、散点图) 7函数关系函数关系相关关系相关关系(线性线性)没有关系没有关系相关关系相关关系(非线性非线性)管理科学与工程学院 郑丽琳相关关系的表现对相关关系的描述通常最直观的是座标图 y . . . . . . . . . . . . . x图2.1管理科学与工程学院 郑丽琳相关关系的类型相关关系的类型 从涉及的变量数量看 简单相关只有两个变量的相关关系 多重相关(复相关)三个或三个以上变量的相关关系。例:某人身高与体重与年龄的关系 从变量相关关系的表现形式(可根据散点图) 线性相关 非线性相关 从变量相关关系变化的方向 正相关:收入 负相关:价格 不相关对消费
5、量影响管理科学与工程学院 郑丽琳相关程度的度量相关程度的度量X和Y的总体线性相关系数:X和Y的样本线性相关系数: YVarXVarYXCov,NYYXXNYYXXiiiiYXXYXY222N管理科学与工程学院 郑丽琳相关系数的特点相关系数的特点相关系数取值在-1,1当r=0时,表明X与Y没有线性相关关系当0|r|0表明为正相关,r0表明为负相关。当|r|1时,表明X与Y完全线性相关。管理科学与工程学院 郑丽琳使用相关系数应注意的问题使用相关系数应注意的问题lX和Y 都是相互对称的随机变量。l简单相关系数只反映变量间的线性相关程度,不能说明非线性相关关系。l样本相关系数是总体相关系数的样本估计值
6、,由于抽样波动,样本相关系数是个随机变量,其统计显著性有待检验。l相关系数只能反映线性相关程度,不能确定因果关系,不能说明相关关系具体接近哪条直线管理科学与工程学院 郑丽琳l研究变量相互之间的依存关系时,首先需要分析它们是否存在相关关系,随后要明确相关关系的类型,而且还应计量其相关关系的密切程度,在统计上这种分析研究称为相关分析。相关分析主要是指用一个指标(相关系数)去表明现象间相互依存关系的性质和密切程度。l计量经济学关心的是:变量间的因果关系及隐藏在随机性后面的统计规律性,这靠相关分析无法完成.相关分析并不能说明变量间相关关系的具体形式,还不能从一个变量的变化去推测另一个变量的具体变化。这
7、时就需要运用回归分析。管理科学与工程学院 郑丽琳回归分析回归分析回归的古典意义: 高尔顿在1889年发表的著作自然的遗传中,首次提出了回归的概念 (父母身高与孩子身高的关系)回归的现代意义: 一个应变量对若干解释变量依存关系的研究回归分析的基本思想: 在相关分析的基础上,对具有相关关系的两个或多个变量之间的数量变化的一般关系进行测定,确定一个相应的数学表达式,以便从一个已知量来推断另一个未知量.回归的目的(实质): 由固定的解释变量去估计因变量的平均值。管理科学与工程学院 郑丽琳相关分析与回归分析的联系及区别相关分析与回归分析的联系及区别l联系:二者都是对变量间依存关系的研究,二者可以互相补充
8、。相关分析可以表明变量间相关关系的性质和程度,只有当变量间存在一定程度的相关关系时,进行回归分析去寻求相关的具体数学形式才有意义。同时,在进行相关分析时如果要具体确定变量间相关的具体数学形式,又要依赖回归分析,而且相关分析中相关系数的确定也是建立在回归分析的基础上。管理科学与工程学院 郑丽琳l区别: 从研究目的上,相关分析用一定的数量指标(相关系数)度量变量间相关联系的方向和程度;回归分析却是要寻求变量间联系的具体数学形式,是要根据解释变量的固定值去估计和预测被解释变量的平均值。 从对变量的处理上,相关分析对称的对待相互联系的变量,相关的变量不一定具有因果关系,均视为随机变量;回归分析是建立在
9、变量因果关系的基础上的,研究解释变量的变动对被解释变量的具体影响。回归分析必须划定解释变量和被解释变量,对变量的处理是不对称的。l二者都只是从数据出发定量分析经济变量间相互联系的手段,并不能决定经济现象之间的本质联系。本质需要结合实际经验分析,并要从经济学原理上加以说明。对本来没有内在联系的经济现象,仅凭数据进行相关分析和回归分析,可能是一种“伪相关”和“伪回归”。管理科学与工程学院 郑丽琳 举例说明:举例说明: 假设一个总体由60户家庭组成,为了研究家庭消费支出Y与家庭收入X之间的关系,将这60户家庭按人均月收入划分成组内收入水平大致相同的10个组。表2-1列出了每组各个家庭的人均月消费支出
10、和收入情况。 管理科学与工程学院 郑丽琳 表表2-1 2-1 某总体的家庭收支情况某总体的家庭收支情况 单位:元/月人均月收入人均月收入X X人均月消费支出人均月消费支出Y Y条件均值条件均值E(Y)E(Y)180180155 160 165 170 175 155 160 165 170 175 165165200200165 170 174 180 185 188165 170 174 180 185 188177177220220179 184 190 194 198179 184 190 194 198189189240240180 193 195 203 208 213 215180
11、 193 195 203 208 213 215201201260260202 207 210 216 218 225202 207 210 216 218 225213213280280210 215 220 230 235 240210 215 220 230 235 240225225300300220 236 240 244 245220 236 240 244 245237237320320235 237 240 252 257 260 262235 237 240 252 257 260 262249249340340237 245 255 265 275 289237 245 2
12、55 265 275 289261261360360250 252 275 278 280 285 291250 252 275 278 280 285 291273273管理科学与工程学院 郑丽琳 图图2-1 2-1 不同收入水平的家庭消费支出散点分布图不同收入水平的家庭消费支出散点分布图120150180210240270300160180200220240260280300320340360380消费支出收入总体回归函数管理科学与工程学院 郑丽琳l从图2-1的散点分布可以看出,虽然各个家庭的消费支出存在着差异,但各组家庭的平均消费支出随着收入水平的提高也在不断增加。l如果根据家庭收入和消
13、费支出的观测数据,去研究当解释变量家庭收入变动时,对被解释变量家庭消费支出的平均变动的规律,解决这样一类问题的方法就是回归分析。在理解回归分析时,应当注意回归要揭示的是被解释变量与解释变量之间的平均关系。管理科学与工程学院 郑丽琳注意的几个概念注意的几个概念Y的条件分布 当解释变量X取某固定值时(条件),Y的值不确定,Y的不同取值形成一定的分布,这就是Y 的条件分布。 Y的条件期望 对于X的每一个取值,对Y所形成的分布确定其期望或均值,称为Y的条件期望或条件均值E(YXi)xiY图2.2管理科学与工程学院 郑丽琳回归线与回归函数回归线与回归函数l回归线:对于每一个X的取值,都有Y的条件期望E(
14、YXi)与之对应,代表这些Y的条件期望的点的轨迹所形成的直线或曲线,称为回归线。l回归函数:被解释变量Y的条件期望随解释变量X的变化而有规律的变化,如果把Y的条件期望E(YXi)表示为X的某种函数 E(YXi)f(Xi) 这个函数称为回归函数。可分为:总体回归函数;样本回归函数管理科学与工程学院 郑丽琳总体回归函数(总体回归函数(PRF)总体回归函数的概念 前提:假如已知所研究的经济现象的总体被解释变量Y和解释变量X的每个观测值,可以计算出总体被解释变量Y的条件期望E(YXi),并将其表现为解释变量X的某种函数 E(YXi)f(Xi) 这个函数称为总体回归函数(PRF)管理科学与工程学院 郑丽
15、琳注意注意l实际的经济研究中总体回归函数通常是未知的,只能根据经济理论和实践经验去设定。“计量”的目的就是寻找PRF。l总体回归函数中Y和X的关系可以是线性的,也可以是非线性的。管理科学与工程学院 郑丽琳总体回归函数的表现形式总体回归函数的表现形式条件均值表现形式 假如Y的条件均值E(YXi)是解释变量X的线性函数,可表示为 E(YXi)f(Xi)12Xi 1 和 2 分别是总体回归函数的总体回归参数参数个别值表现形式(随机设定形式) 对于一定的Xi,Y的每一个值Yi分布在E(YXi)的周围,若令每一个值Yi与条件均值E(YXi)的偏差i,显然i是随机变量 则有 i Yi-E(YXi) Yi-
16、 1 -2Xi Yi= 1 + 2XiixiY管理科学与工程学院 郑丽琳随机误差项随机误差项l概念 各个Yi值与条件均值E(YXi)的偏差i代表排除在模型以外的所有因素对Y的影响l性质 i是期望为0,有一定分布的随机变量 随机误差项的性质决定着计量经济方法的选择。XiYi图2.3E(Y|Xi)管理科学与工程学院 郑丽琳产生随机误差的原因产生随机误差的原因l1.未知的影响因素l2.被忽略众多细小的影响因素。l3.缺乏数据的影响因素l4.经济现象的内在随机性。l5.模型函数形式的设定误差。l6.数据的测量与归并误差。l7.随机因素的影响(如自然灾害等)管理科学与工程学院 郑丽琳样本回归函数(样本回
17、归函数(SRF)l样本回归线: 对于X的一定值,取得Y的样本观测值,可计算其条件均值,样本观测值条件均值的轨迹,称为样本回归线。l样本回归函数: 如果把被解释变量Y的样本条件均值表示为解释变量X的某种函数,这个函数称为样本回归函数(SRF)xiY图2.4管理科学与工程学院 郑丽琳样本回归函数的表现形式样本回归函数的表现形式条件均值表现形式: 样本回归函数如果为线性函数,则表示为其中, 是与 相对应的Y的样本条件均值 和 分别是样本回归函数的参数个别值表现形式(随机设定形式): 被解释变量Y的实际观测值 不完全等于样本条件均值,二者之差用 表示, 称为剩余项或残差项:或者iiXY2112iYiX
18、iiiYYeiiieXY21iYieie管理科学与工程学院 郑丽琳对样本回归的理解对样本回归的理解如果能够获得 和 的数值,显然:l 和 是对总体回归函数参数 和 的估计l 是对总体条件期望E(YXi)的估计l 在概念上类似总体回归函数中的 ,可以视为对 的估计iiieXY211212iY12ieiiXiYie图2.4iY管理科学与工程学院 郑丽琳样本回归函数的特点样本回归函数的特点l每次抽样都能获得一个样本,就可以拟合一条样本回归线,所以样本回归线随抽样波动而变化,可以有很多条(SRF不唯一)l样本回归函数的函数形式应与设定的总体回归函数的函数形式一致l样本回归线还不是总体回归线,至多只是未
19、知总体回归线的近似表现。管理科学与工程学院 郑丽琳样本回归函数与总体回归函数的关系样本回归函数与总体回归函数的关系ieiiYXXiPRFSRFiYYE(YXi)图2.5管理科学与工程学院 郑丽琳总体回归模型总体回归模型iiiiiXXYEY10总体回归函数总体回归函数(直线直线)iiXXYE10样本回归模型样本回归模型iiieXY10样本回归函数样本回归函数(直线直线)iiXY10残差残差系统变系统变化部分化部分非系统非系统变化部分变化部分管理科学与工程学院 郑丽琳对线性回归模型线性的两种解释对线性回归模型线性的两种解释l对变量而言是线性的Y的条件均值是X的线性函数l对参数而言是线性的Y的条件均
20、值是的线性函数 例子l计量经济学中的线性回归模型主要指参数“线性”管理科学与工程学院 郑丽琳回归分析的目的回归分析的目的l用样本回归函数去估计总体回归函数l由于样本对总体总是存在代表性误差,SRF总会过高或过低估计PRF。 要解决的问题l寻求一种规则和方法,使得到的SRF的参数尽可能接近总体回归函数的参数。这样的规则和方法有很多,最常用的就是最小二乘法。管理科学与工程学院 郑丽琳二、古典回归模型的基本假定二、古典回归模型的基本假定l为什么要作基本假定? 模型中随机误差项,估计的参数是随机变量,只有对随机误差的分布作出假定,才能确定所估计的参数分布性质,也才可能进行假设检验和区间估计 (进行统计
21、检验、计量经济检验的前提) 。 只有具备一定的假设条件,所作出的估计才具有较好的统计性质。管理科学与工程学院 郑丽琳书上提供的六大假定书上提供的六大假定l可分为两部分:一是关于变量和模型的假定,包括: 1.假定解释变量X是非随机变量,在重复试验中X是可控的、固定的; 2.假定模型中的变量没有测量误差; 3.假定模型对变量和函数形式的设定是正确的; 4.假定无多重共线性。管理科学与工程学院 郑丽琳零均值假定同方差假定解释变量与 随机误差项不相关假定非自相关性假定补充:延伸到yiiiXXYE10|iXYii正态性假定2|iiXYVar0,jiYYCov210,iiXNY二是对随机误差项i的统计分布
22、的假定,包括:信息工程学院 郑丽琳一、最小二乘估计(一、最小二乘估计(OLS)选择最佳拟合曲线的标准 从几何意义上说,样本回归曲线应尽可能靠近样本数据点。 选择最佳拟合曲线的标准可以确定为:使总的拟合误差(即总残差)达到最小。 ieiYXXiSRFiYYE(YXi)管理科学与工程学院 郑丽琳OLS的基本思路的基本思路l不同的估计方法可得到不同的样本回归参数 和 ,所估计的 也不同。 l理想的估计方法应使 和 的差即残差 越小越好。l因为 可正可负,所以可以取 最小, (选择平方的原因:介绍)即: ie21iYieiYiY2iemin22122iiiiiXYYYeQ用最小二乘法描述就是:所选择的
23、回归模型应该使所有观察值的残差平方和达到最小。管理科学与工程学院 郑丽琳估计过程估计过程 在离差平方和的表达式中,被解释变量 的观测值和解释变量 都是已知的,因此可以将看作是未知参数 的函数。计算此函数对的一阶偏导数,可得: iYiX0202212211iiiiiXXYQXYQ21,管理科学与工程学院 郑丽琳l得到:此方程组为正规方程组,解此方程组得:其中,22121iiiiiiXXYXXnYXXXYiiiSSXnXYXnYXXY22221iiXnXYnY1,12,XXSYYXXSiXXiiXY 【例例1 1】 我国税收预测模型。表2-3列出了我国19851998年期间税收收入Y和国内生产总值
24、X的统计资料(时间序列数据),试利用EViews软件建立一元线性回归模型。 OLSOLS应用举例及应用举例及EviewsEviews实现实现 表表2-3 2-3 我国税收与我国税收与GDPGDP统计资料统计资料 单位:亿元 年份年份税收税收Y YGDPGDP年份年份税收税收Y YGDPGDP1985198520418964199219923297266381986198620911020219931993425534634198719872140119631994199451274675919881988239114928199519956038584781989198927271690919
25、96199669106788519901990282218548199719978234744631991199129902161819981998926379396(1 1)建立工作文件)建立工作文件 启动EViews, 点击FileNewWorkfile,弹出工作文件对话框(图2-3),选择数据的时间频率、起始期和终止期。 时间频率时间频率年度年度半年半年季度季度月度月度周周日日非时序数据非时序数据起始期起始期终止期终止期 命令方式:在EViews命令窗口中键入 CREATE 时间频率类型起始期终止期例如:CREATE A 85 98 (2 2)输入统计资料:)输入统计资料: 在命令窗口键
26、入数据输入/编辑命令 DATA Y X 将显示数组窗口(图2-4),此时可以按全屏幕编辑方式输入每个变量的统计资料。(3 3)估计回归模型:)估计回归模型: 数 组 窗 口 中点击ProcsMake equation,定义方程,点击OK,则弹出有关估计结果(右图)。模型的估计式为:xy0946. 054.987常数和解常数和解释变量释变量参数标参数标准差准差T统计统计量值量值双侧双侧概率概率判定系数判定系数调整的判定系数调整的判定系数回归方程的标准差回归方程的标准差残差平方和残差平方和似然函数的对数似然函数的对数德宾德宾-瓦森统计量瓦森统计量被解释变量均值被解释变量均值被解释变量标准差被解释变
27、量标准差赤池信息准则赤池信息准则施瓦兹信息准则施瓦兹信息准则F统计量统计量F统计量的概率统计量的概率参数估参数估计值计值 命令方式,键入:LS 被解释变量 C 解释变量 例如:LS Y C X 【例例2 2】中国城镇居民消费函数。表2-5列出了我国城镇居民家庭1998年平均每人全年消费性支出Y和可支配收入X的统计资料(横截面数据,单位:元/年),试利用EViews软件,通过在命令窗口中直接键入命令的方式建立城镇居民消费函数。表表2-5 2-5 我国城镇居民家庭我国城镇居民家庭19981998年收支情况年收支情况 收入等级收入等级人均消费支出人均消费支出Y Y人均可支配收入人均可支配收入X X困
28、难户困难户2214.472198.88最低收入户最低收入户2397.62476.75低收入户低收入户2979.273303.17中等偏下户中等偏下户3503.244107.26中等收入户中等收入户4179.645118.99中等偏上户中等偏上户4980.886370.59高收入户高收入户6003.217877.69最高收入户最高收入户7593.9510962.16依次键入:建立工作文件: CREATE U 8 输入统计资料: DATA Y X估计回归模型: LS Y C X模型结果为: xy6237. 071.924管理科学与工程学院 郑丽琳二、最小二乘估计的性质二、最小二乘估计的性质l当估计
29、出模型参数后,需考虑参数估计值的精度,即是否能代表参数的真值.一般由于抽样波动的存在,以及所选估计方法的不同,都会使估计的参数与总体参数的真值有差距,因此考察参数估计量的统计性质就成了衡量该估计量”好坏”的主要标准.管理科学与工程学院 郑丽琳参数估计式的评价标准参数估计式的评价标准无偏性前提:重复抽样中估计方法固定、样本容量不变、经重复抽样的观测值,可得一系列参数估计值。参数估计值 的分布称为 的抽样分布,其密度函数记为f( ) 如果 E( )=称 是参数 的无偏估计式, 是另一种方式产生的模型参数的估计量,抽样分布为 ,若 的期望不是等于 的真实值,则称 是 有偏的,偏倚为 E( )- ,见
30、下图f管理科学与工程学院 郑丽琳的估计值 ff概率密度E偏倚图2.6管理科学与工程学院 郑丽琳最小方差性(有效性)最小方差性(有效性)前提:样本相同、用不同的方法估计参数,可以找到若干个不同的估计式。目标:努力寻求其抽样分布具有最小方差的估计式最小方差准则,或称最佳性准则。见下图 有效性衡量了参数估计值与参数真值平均离散程度的大小。 既是无偏的同时又具有最小方差的估计式,称为最佳无偏估计式。管理科学与工程学院 郑丽琳的估计值 ff概率密度图2.7一个估计式若不仅具有无偏性还具有最小方差性时,称这个估计式为有效估计式.无偏估计式可能有多个,但在所有无偏估计式中,只有方差最小的最佳无偏估计式才是有
31、效估计式.管理科学与工程学院 郑丽琳一致性一致性思想:当样本容量较小时,有时很难找到最佳无偏估计,需要考虑扩大样本容量(估计方法不变,样本数逐步扩大,分析性质是否改善)一致性:当样本容量n趋于无穷大时,如果估计式 按概率收敛于总体参数的真实值,就称这个估计式 是 的一致估计式。 limP( - )1渐进无偏估计式是当样本容量变得足够大时,其偏倚趋于零的估计式。见下图管理科学与工程学院 郑丽琳的估计值 100f概率密度 80f 60f 40f管理科学与工程学院 郑丽琳高斯马尔可夫定理高斯马尔可夫定理l由OLS估计式可以看出, 可以用观测样本 和 唯一表示。l因为存在样本抽样波动,OLS估计的 是
32、随机变量。lOLS估计式是点估计式。l在古典回归模型的若干假定成立的情况下,最小二乘估计是所有线性无偏估计量中的有效估计量。称OLS估计为“最佳线性无偏估计量”。XY管理科学与工程学院 郑丽琳线性特征;无偏性;最小方差性一致性结论:OLS估计式是BLUE。 全部估计量 线性无偏估计量 BLUE估计量管理科学与工程学院 郑丽琳61 多元总体回归函数多元总体回归函数 条件期望表现形式:条件期望表现形式:将将Y Y的总体条件期望表示为多个解释变量的函数,如的总体条件期望表示为多个解释变量的函数,如: :注意:这时注意:这时Y总体条件期望的轨迹是总体条件期望的轨迹是K维空间的一条线维空间的一条线个别值
33、表现形式:个别值表现形式:引入随机扰动项引入随机扰动项或表示为或表示为 kikiikiiiiXXXXXXYE3322132),(ikikiiiuXXXY33221(1,2,)in(1,2,)in23(,)iiiiikiuYE Y XXX管理科学与工程学院 郑丽琳62 多元样本回归函数多元样本回归函数 Y 的样本条件均值可表示为多个解释变量的函数的样本条件均值可表示为多个解释变量的函数 或回归剩余(残差):或回归剩余(残差): 其中其中 iiieYY12323ikiikiYXXX12323kiiikiiYXXXe1,2,in管理科学与工程学院 郑丽琳63多个解释变量的多元线性回归模型的多个解释变
34、量的多元线性回归模型的n组样本观测值,可组样本观测值,可表示为表示为 用矩阵表示用矩阵表示 1131321211uXXXYkk2232322212uXXXYkknknknnnuXXXY33221nkknnkknuuuXXXXXXYYY21212222121211111n1n1kknXYu63管理科学与工程学院 郑丽琳64总体回归函数总体回归函数 或或样本回归函数样本回归函数 或或 其中:其中: 都是有都是有n个元素的列向量个元素的列向量 是有是有k 个个 元素的列向量元素的列向量 ( k = 解释变量个数解释变量个数 + 1 ) 是第一列为是第一列为1的的nk阶解释变量阶解释变量数据矩阵数据矩
35、阵 , (截距项可视为解释变量总是取值为截距项可视为解释变量总是取值为1) ,Y = X+ u(E Y)= XY,Y,u,e矩阵表示方式Y = XY = X+eX管理科学与工程学院 郑丽琳65 假定假定1:零均值假定零均值假定 ( i=1,2,-n) 或 E(u)=0 假定假定2和假定和假定3:同方差和无自相关假定同方差和无自相关假定: 或用方差或用方差-协方差矩阵表示为协方差矩阵表示为: 0)(iuE)()(),(jijjiijiuuEEuuEuuEuuCov2(i=j)(ij)01 1121212222212()()()100()()()010()()()001nnnnnnE u uE u
36、 uE u uE u uE u uE u uE u uE u uE u uI( ,)( )()()ijiijjCov u uE uE uuE uEuu(1,2,1,2,)injn管理科学与工程学院 郑丽琳假定假定5: 无多重共线性假定无多重共线性假定 (多元中增加的多元中增加的) 假定各解释变量之间不存在线性关系,或各个解假定各解释变量之间不存在线性关系,或各个解释变量观测值之间线性无关。或解释变量观测值释变量观测值之间线性无关。或解释变量观测值 矩阵矩阵X的秩为的秩为K(注意注意X为为n行K列列)。 Ran(X)= k Rak(XX)=k 即即 (XX) 可逆可逆 假定假定6:正态性假定正态
37、性假定), 0(2Nui2( ,)Nu0I66假定假定4:随机扰动项与解释变量不相关随机扰动项与解释变量不相关(,)0(2,3, )jiiCov Xujk管理科学与工程学院 郑丽琳普通最小二乘法普通最小二乘法(OLSOLS)原则:原则:寻求寻求剩余平方和最小的参数估计式剩余平方和最小的参数估计式 即求偏导,并令其为0 其中即 2212323min:()kiiiikieYXXX2()0ije122332()0iiikikiYXXX122233()20iiikikiiYXXXX12233(20)iiikikkiiYXXXX22min:()iiieYY20iiX e 0ikiX e 0ie 672m
38、in:min:min:() ()iee eY-XY-X(1,2,)in(1,2,)jn管理科学与工程学院 郑丽琳68 用矩阵表示的正规方程偏导数偏导数因为样本回归函数为因为样本回归函数为 两边左乘两边左乘根据最小二乘原则根据最小二乘原则则正规方程为则正规方程为X X = X Y0001112121222212eXnknkknikiiiieeeXXXXXXeXeXeYXe=+X Y = X X+ X eXX e = 0Xe0管理科学与工程学院 郑丽琳69 OLS OLS估计式估计式 由正规方程由正规方程 多元回归的多元回归的OLS估计量为估计量为当只有两个解释变量时为:当只有两个解释变量时为:注
39、意:注意: 为为X、Y的离差的离差23123YXX22332322222323()()()()()()()iiiiiiiiiiiy xxy xx xxxx x23222332222323()()()()()()()iiiiiiiiiiiy xxy xx xxxx xX X = X Y(),k k是满秩矩阵 其逆存在X Xx、y-1 = (X X) X Y对比对比简单线性回归中简单线性回归中12YX22iiix yx管理科学与工程学院 郑丽琳70 回归线通过样本均值回归线通过样本均值 估计值估计值 的均值等于实际观测值的均值等于实际观测值 的均值的均值 剩余项剩余项 的均值为零的均值为零 被解释
40、变量估计值被解释变量估计值 与剩余项与剩余项 不相关不相关 解释变量解释变量 与剩余项与剩余项 不相关不相关 (j=1,2,-k)23123kkYXXXiYiYie0neeiiiYie(,)0iiCov Y e()0iie yieiX0),(ijieXCov或iYnY70管理科学与工程学院 郑丽琳71 1、 线性线性特征 是是Y的线性函数,因的线性函数,因 是非随机或取固是非随机或取固定值的矩阵定值的矩阵 2、 无偏无偏特性 3、 最小方差最小方差特性 在在 所有的线性无偏估计中,所有的线性无偏估计中,OLS估计估计 具有最小方差具有最小方差 结论:结论:在古典假定下,多元线性回归的在古典假定
41、下,多元线性回归的 OLS估估 计式是最佳线性无偏估计式(计式是最佳线性无偏估计式(BLUE)()KKEKK-1(X X) X-1 = (X X) X Y(一)OLS估计的概率分布 则bbE)(xxSbD/)(2由于 )(iiiiibxakykb假定 ),0(2Ni四、系数的估计误差与置信区间四、系数的估计误差与置信区间)/,(2xxSbNb)/,(222xxinSxaNa(二)系数的估计误差 2)(bbE平均误差(平方) = = 其中,i的方差2采用无偏估计量: 参数估计量的平均误差为: 2)(bEbExxSbD2)(xxSbDbbE22)()( 来估计2 222nei并且用符号 表示系数b
42、的估计误差: )(bs同理 的估计误差为: ,也称系数的标准误差(标准差)。 xxixxSneSbs)2()(22xxiiSnnxeas)2()() (22) (as)(bs) (as(三)系数的置信区间 可以证明,统计量 所以,对于给定的置信度1-,由t分布表可以查得临界值t/2,使得:P(|t|t/2)=1-, 即: )2()(ntbSbbt1)()(2/2/bStbbbStbP所以系数b的100(1-)%置信区间为: )(),(2/2/bStbbStb 对于多元线性回归模型,若记 可以证明: 1X)X(C 2iiicbD 其中,cii为矩阵C对角线上的第i个元素,2的无偏估计量为: )
43、1() 1(22kneeknei系数估计值的标准差为: 1)(22kneccbsiiiiii同理,统计量 )1()(kntbSbbtiii回归系数bi的100(1-)%置信区间为: )(),(2/2/iiiibStbbStb管理科学与工程学院 郑丽琳第二节第二节 经典回归模型的经典回归模型的统计检验统计检验 管理科学与工程学院 郑丽琳l对于样本回归模型拟合总体模型,我们通常要进行经济检验、统计检验、计量检验等。l统计检验则是在一定概率下求出参数,检验样本对总体的代表性、影响关系是否显著等问题。主要通过一些统计检验方法来保证模型在统计意义上(即以样本推断总体)的可靠性。l我们所要进行的统计检验包
44、括两方面,一方面检验回归方程对样本数据的拟合程度,通过可决系数;另一方面检验回归方程的显著性,通过假设检验对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出判断,包括对回归方程线性关系的检验和对回归系数显著性的检验。管理科学与工程学院 郑丽琳一、模型的拟合优度检验一、模型的拟合优度检验所谓拟合优度,即模型对样本数据的近似程度。由于实际观察得到的样本数据是对客观事实的一种真实反映,因此,模型至少应该能较好的描述这一部分客观实际情况。为了考察模型的拟合优度,需要构造一个指标判定系数(可决系数)。认识判定系数之前让我们回顾一下关于样本与总体回归函数,了解总离差分解。管理科学与工程学院
45、 郑丽琳总变差的分解总变差的分解ikikiiiexxxy22110 iiiiyyyyyy0yyi222iiiiyyyyyy设估计的多元线性回归模型为:分析Y的观测值、估计值和平均值的关系因为,将上式两边平方加总,可证得yyiyyiiiiyyeyixySRFiyx管理科学与工程学院 郑丽琳 TSS TSS为总体平方和为总体平方和(Total Sum of SquaresTotal Sum of Squares),反映,反映样本观测值总体离差的大小;样本观测值总体离差的大小;ESSESS为回归平方和为回归平方和(Explained Sum of SquaresExplained Sum of Sq
46、uares),来自回归线,来自回归线, ,反映反映由模型中解释变量所解释的那部分离差的大小;由模型中解释变量所解释的那部分离差的大小;RSSRSS为残差平方和为残差平方和(Residual Sum of SquaresResidual Sum of Squares),来自,来自随机势力随机势力, ,反映样本观测值与估计值偏离的大小,也反映样本观测值与估计值偏离的大小,也是模型中解释变量未解释的那部分离差的大小。是模型中解释变量未解释的那部分离差的大小。 TSS=RSS+ESS 222)()()(iiiiyyRSSyyESSyyTSS管理科学与工程学院 郑丽琳疑问疑问l既然RSS反映样本观测值与
47、估计值偏离的大小,是否可以直接用它作为拟合优度检验的统计量?l一个普遍的回答:作为检验统计量的一般应该是相对量,而不用绝对量.因为绝对量作为检验统计量,无法设置标准.在这里,RSS与样本容量关系很大,但n比较小时,RSS的值也比较小,但并不代表模型的拟合优度就好.管理科学与工程学院 郑丽琳 2、拟合优度检验统计量:判定系数(可决系数)R2和校正可决系数2R102 R管理科学与工程学院 郑丽琳判定系数不仅反映了模型拟合程度的优劣,而且有直观的经济含义:它定量地描述了y的变化中可以用回归模型来说明的部分,即在被解释变量的变动中,由模型中解释变量所引起的比例。见前一节例题,解释意义判定系数的特点:判
48、定系数取值范围0,1。随抽样波动,样本判定系数是随抽样而变动的随机变量。判定系数是非负的统计量。管理科学与工程学院 郑丽琳判定系数与相关系数的关系判定系数与相关系数的关系联系:联系:数值上判定系数是相关系数的平方数值上判定系数是相关系数的平方。区别区别:前者就模型而言,后者就两个变量而言。前者就模型而言,后者就两个变量而言。前者说明解释变量对被解释变量的解释程度,后者说前者说明解释变量对被解释变量的解释程度,后者说明两变量线性依存程度。明两变量线性依存程度。前者度量的不对称的因果关系,后者度量的不含因果前者度量的不对称的因果关系,后者度量的不含因果关系的对称相关关系。关系的对称相关关系。前者取
49、值前者取值0,1非负,后者取值非负,后者取值-1,1,可正可负。,可正可负。管理科学与工程学院 郑丽琳注意的问题注意的问题l判定系数只是说明列入模型的判定系数只是说明列入模型的所有所有解释变量对被解解释变量对被解释变量的联合的影响程度,不说明模型中每个解释释变量的联合的影响程度,不说明模型中每个解释变量的影响程度(在多元中)变量的影响程度(在多元中)l回归的主要目的如果是经济结构分析,不能只追求回归的主要目的如果是经济结构分析,不能只追求高的判定系数,而是要得到总体回归系数可信的估高的判定系数,而是要得到总体回归系数可信的估计量。计量。判定系数高并不一定每个回归系数都可信。判定系数高并不一定每
50、个回归系数都可信。l如果建模的目的只是为了预测被解释变量值,不是如果建模的目的只是为了预测被解释变量值,不是为了正确估计回归系数,一般可考虑有较高的判定为了正确估计回归系数,一般可考虑有较高的判定系数。系数。管理科学与工程学院 郑丽琳判定判定管理科学与工程学院 郑丽琳22RR2R可以为负)1 () 1(111/1/122RknnnTSSknRSSR管理科学与工程学院 郑丽琳补充:关于假设检验(在进行F/T统计检验之前)l假设检验是统计推断的一个主要内容,它的基本任务是根据样本所假设检验是统计推断的一个主要内容,它的基本任务是根据样本所提供的信息,对未知总体分布的某些方面的假设作出合理的判断。提
51、供的信息,对未知总体分布的某些方面的假设作出合理的判断。l假设检验的程序是,先根据实际问题的要求提出一个论断,称为统假设检验的程序是,先根据实际问题的要求提出一个论断,称为统计假设;然后根据样本的有关信息,对假设的真伪进行判断,作出计假设;然后根据样本的有关信息,对假设的真伪进行判断,作出拒绝或接受假设的决策。拒绝或接受假设的决策。 l假设检验的前提是知道所估计的样本回归系数概率分布性质,即对假设检验的前提是知道所估计的样本回归系数概率分布性质,即对总体回归系数某种原假设成立。总体回归系数某种原假设成立。l假设检验的基本思想是概率性质的反证法。假设检验的基本思想是概率性质的反证法。l概率性质的
52、反证法的根据是小概率事件原理,该原理认为概率性质的反证法的根据是小概率事件原理,该原理认为“小概率小概率事件在一次试验中几乎是不可能发生的事件在一次试验中几乎是不可能发生的,如果该小概率事件竟然发如果该小概率事件竟然发生了,就认为原假设不正确,而拒绝原假设,不拒绝备则假设生了,就认为原假设不正确,而拒绝原假设,不拒绝备则假设”。 l下面讲授的模型的显著性检验及解释变量的显著性检验都基于此基下面讲授的模型的显著性检验及解释变量的显著性检验都基于此基础。础。 管理科学与工程学院 郑丽琳二、模型的显著性检验二、模型的显著性检验所谓模型的显著性检验,就是检验模型对总体的近似程度,而且最常用的检验方法是
53、F检验。1.F检验的思想F F检验的思想检验的思想来自于总离差平方和的分解式: TSS=ESS+RSS由于回归平方和ESS是解释变量X联合体对被解释变量Y的线性作用的结果,所以,如果ESS/RSS的比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。因此因此,可通过该比值的大小对总体线性关系进行推断可通过该比值的大小对总体线性关系进行推断。管理科学与工程学院 郑丽琳进一步根据数理统计学中的定义,如果构造一个统计量 FE S SkR S Snk()1则该统计量服从自由度为(k,n-k-1)的F分布。 由于iY服从正态分布,根据数理统计学中的定义,iY的一
54、组样本的平方和服从c2分布。所以有: 2)(YYESSic2( )k 2)(iiYYRSSc21()nk即回归平方和、残差平方和分别服从自由度为k和()nk1的c2分布。管理科学与工程学院 郑丽琳管理科学与工程学院 郑丽琳 1/) 1(22knyykyyknRSSkESSFiii管理科学与工程学院 郑丽琳见书例题管理科学与工程学院 郑丽琳F检验与检验与R2的关系的关系l拟合优度从已经得到的模型出发,检验它对样本检测值的拟合程度;F检验是从样本观测值出发检验模型总体线形关系的显著性。二者具有一定的相关性。l根据二者关系,有需注意的几个问题:F检验实际上也是判定系数的显著性检验。如果模型对样本有较
55、高的拟合优度,F检验一般都能通过。实际应用中不必过分苛求R2 2值的大小,重要的是考察模型的经济意义是否合理。1/1/22knRkRF管理科学与工程学院 郑丽琳三、解释变量的显著性检验三、解释变量的显著性检验l解释变量显著性检验即解释变量显著性检验即对回归系数的显著性进行检对回归系数的显著性进行检验验,如果变量是显著的,那么回归系数应该显著地,如果变量是显著的,那么回归系数应该显著地不为不为0。于是,在变量显著性检验中设计的原假设。于是,在变量显著性检验中设计的原假设为:为: H0: i=0而备择假设为:而备择假设为: H1: i 0 其中其中 的下角标的下角标i,在一元回归模型中取值,在一元
56、回归模型中取值1:在二元回归模型中取值在二元回归模型中取值1、2。管理科学与工程学院 郑丽琳然后根据样本观测值和估计值,构造计算统计量然后根据样本观测值和估计值,构造计算统计量: iiiSt) 1( kntt管理科学与工程学院 郑丽琳 ) 1(kntStiil若H0成立,则管理科学与工程学院 郑丽琳管理科学与工程学院 郑丽琳管理科学与工程学院 郑丽琳用用P值判定参数的显著性值判定参数的显著性l假设检验的假设检验的p值值 p值是根据既定的样本数据所计算的统计量,拒绝值是根据既定的样本数据所计算的统计量,拒绝原假设的最小显著性水平。原假设的最小显著性水平。 统计软件中(统计软件中(EViews,S
57、PSS,SAS)通常都给出)通常都给出了检验的了检验的p值。值。方法:将给定的的显著性水平方法:将给定的的显著性水平 与与p值比较:值比较: 若若p= , 则在显著性水平则在显著性水平 下接受原假设下接受原假设H0,即,即认为认为X对对Y没有显著影响。没有显著影响。规则规则:当当p 时,时,p值越小,越能拒绝原假设值越小,越能拒绝原假设H0。管理科学与工程学院 郑丽琳l解释变量显著性检验通不过原因可能在于:l 与 不存在线性相关关系;l 与 (ij)存在线性相关关系。 jxjxyixjx管理科学与工程学院 郑丽琳关于显著性水平的讨论:关于显著性水平的讨论:l 值究竟应取多少?l没有绝对的显著性
58、水平。关键仍然是考察变量在经济关系上是否对解释变量有影响,显著性检验起到验证的作用;同时还要看显著性水平不太高的变量在模型中及模型应用中的作用,不要简单的剔除变量。管理科学与工程学院 郑丽琳样本容量问题讨论样本容量问题讨论l样本容量必须不少于模型中解释变量的数目(包括常数项),这是最小样本容量。l但从参数检验的质量考虑,一般经验认为:当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。管理科学与工程学院 郑丽琳四、随机误差项的正态性检验四、随机误差项的正态性检验JB检验法检验法 雅克贝拉检验(Jarque-Bera test 是基于偏态和峰态的一种检验方法。正态分布是对称的,故偏态
59、S=0;正态分布的峰态为K=3 。3223)()(XEXES224)()(XEXEK服从正态分布:0HJB统计量在大样本下近似服从 分布 2c24) 3(622KSnJB )2(2c管理科学与工程学院 郑丽琳四、随机误差项的正态性检验四、随机误差项的正态性检验JB检验法检验法当 ,或者对应p值很小时,拒绝 JB2c0H当 ,或者对应p值很大时,接受 JB2c0He实际计算时,用估计出的残差去替代上公式中的 EVIEWSEVIEWS实现实现: :在方程窗口点击在方程窗口点击 View/Residual Test/Histogram-Normality TestView/Residual Test
60、/Histogram-Normality Test管理科学与工程学院 郑丽琳第三节第三节经典回归模型建立和应用经典回归模型建立和应用注意的问题注意的问题管理科学与工程学院 郑丽琳掌握利用回归模型进行边际分析和弹性分析。掌握回归模型优劣比较的标准。掌握利用回归模型进行预测。 教学目的及要求教学目的及要求管理科学与工程学院 郑丽琳1 1线性模型线性模型边际分析边际分析 :在其他因素不变时,:在其他因素不变时,x xj j变动一个单变动一个单 位,位,y y将平均变动将平均变动b bj j个单位个单位一、利用回归模型进行分析一、利用回归模型进行分析ikikiiiXbXbXbbY22110管理科学与工
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高中语文古诗词诵读《燕歌行并序》(同步教学课件)
- 2024届上海市宝山区建峰附属高中高考压轴数学试题
- DB11-T 2105-2023 特定地域单元生态产品价值核算及应用指南
- 5年中考3年模拟试卷初中道德与法治九年级下册07中考道德与法治真题分项精练(七)
- 2024-2025学年高考联考语文试题及参考答案
- 安全知识课件教学课件
- 阀门配件生产线技改项目可行性研究报告写作模板-备案审批
- 《凝铸时光》课件 2024-2025学年湘美版(2024)初中美术七年级上册
- (统考版)2023版高考化学一轮复习课时作业35分子结构与性质
- DB11-T 1901-2021 政务服务事项编码及要素规范
- 2024年婴幼儿发展引导员(中级)职业技能鉴定考试题库(含答案)
- 2024年浙江杭州江干区投资项目审批代办服务中心招考3人高频考题难、易错点模拟试题(共500题)附带答案详解
- 江苏省无锡市滨湖区2023-2024学年八年级上学期期中数学试卷
- -第4课《揭开人际吸引的奥秘》 心理健康八年级上册
- 2023-2024学年北京市海淀区首都师大二附中八年级(上)期中数学试卷【含解析】
- 2024年第九届“学宪法、讲宪法”试卷题库
- 外研版(三起)(2024)三年级上册英语全册教学设计
- 中国融通线上笔试真题
- DL∕T 1502-2016 厂用电继电保护整定计算导则
- 2022-2023学年广东省深圳某中学八年级(上)期中数学试卷(学生版+解析版)
- 2024美团商家入驻合作协议
评论
0/150
提交评论