第7章 线性回归模型的扩展_第1页
第7章 线性回归模型的扩展_第2页
第7章 线性回归模型的扩展_第3页
第7章 线性回归模型的扩展_第4页
第7章 线性回归模型的扩展_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章线性回归模型的扩展第一节

变量非线性回归模型第二节

参数非线性回归模型*第三节

虚拟解释变量回归模型第四节

虚拟被解释变量回归模型*2023年1月31日山东财经大学统计学院计量经济教研室第2页

前几章所讨论的,都是基于横截面数据的线性回归模型,涉及的变量均是数值变量。实际上,许多经济变量之间并不存在线性关系,建模中涉及的许多变量也不直接表现为数值,而是属于分类变量的范畴。

为了扩大计量经济建模方法的适用范围,本章拟将横截面数据的线性回归建模方法扩展到对非线性关系的分析,并将计量经济模型的变量类型从数值变量扩展到分类变量。2023年1月31日山东财经大学统计学院计量经济教研室第3页

线性回归分析的前提是作为被解释变量的经济变量与作为解释变量的经济变量之间存在着线性关系。这里所说的线性是指解释变量线性并且参数线性。但是,在众多的经济现象中,分析经济变量之间的关系,根据某种经济理论和对实际经济问题的分析,所建立的经济模型往往不符合上面的线性要求,即模型是非线性的,称为非线性模型(Non-linearModel)。非线性模型包括两种情况:(1)解释变量非线性,但是参数线性。(2)参数非线性。尤其参数非线性是对古典假定SLR.1和MLR.1的违背,对回归分析影响很大。

本节针对第一种情况进行讨论,常用的变量非线性回归模型包括对数函数模型、双曲线模型和多项式模型。这类模型有一个共同特点,可以利用变量转换等处理方法将模型线性化,线性化后的模型即可采用OLS方法进行参数估计。这类非线性模型被称为内蕴线性模型,或广义线性模型。第一节变量非线性回归模型2023年1月31日山东财经大学统计学院计量经济教研室第4页一、对数函数模型(一)双对数函数模型

回归分析经常使用的对数模型是双对数函数模型(Double-logModel),考虑如下形式的需求-收入模型(7.2)(7.2)中的参数是以线性形式出现在模型中的,虽然(7.1)中原变量x和y之间是非线性的,但因变量与自变量的对数形式是线性的,因而称双对数函数模型。

对数函数模型的自变量和因变量中,至少有一种是原始变量的对数形式。具体分为以下两种类型:两边取对数,模型可变换为:(7.1)2023年1月31日山东财经大学统计学院计量经济教研室第5页

实际工作中,双对数模型应用非常广泛,其原因在于,如果忽略误差项,(7.2)是一条直线(y和x都是对数形式),所以它的斜率(β1)为一常数,是y相对于x的弹性系数:

所以弹性为一常数。由于这个特殊的性质,双对数模型又称为不变(固定)弹性模型。

对这类模型可作如下代换,令双对数模型可化为标准线性模型在古典假定满足的情况下,可以使用OLS对模型进行估计。2023年1月31日山东财经大学统计学院计量经济教研室第6页对于多个解释变量的情形,(7.2)式可以扩展为(7.3)

称为偏弹性系数。它度量了在其他变量不变的条件下,被解释变量y对于解释变量的弹性系数。如著名的柯布—道格拉斯(Cobb—Douglas)生产函数模型,就是这类模型的一个典型,我们下面举例说明。例7-1表7-1列出了抽样调查得到的某市19个规模以上制造业企业的投入产出数据。试用回归分析法分析企业产出中各要素的贡献及其特点。2023年1月31日山东财经大学统计学院计量经济教研室第7页企业产值Q(万元)职工数L(人)固定资产K(万元)大华1291.878742051.92麒麟1347.058952151.3双剑1399.69172250.21衡麓1505.119572370.26六合1578.979532488.97春风1652.869662606.61联华1784.9110332754.66太岳1994.5710982953.78东海2123.2311753157.15荷佳2269.7711523376.42博世2411.9411543635.99科维2608.8112073918.47梅花2774.9812304223.82绿源2965.312964550.49人和3067.1213344846.77花都3290.313745205.33金鼎3540.5715925615.31谦祥3749.7714156098.25表7-1某市19个规模以上制造业企业的投入产出数据2023年1月31日山东财经大学统计学院计量经济教研室第8页用EViews建立双对数模型,回归结果如下:样本回归方程为:DependentVariable:LOG(Q)Method:LeastSquaresIncludedobservations:19afteradjustmentsVariableCoefficientStd.Errort-StatisticProb.

C-1.5452110.590710-2.6158550.0187LOG(L)0.3397010.1889871.7974790.0912LOG(K)0.8419100.0951418.8491220.0000R-squared0.994499

Meandependentvar7.651499AdjustedR-squared0.993811

S.D.dependentvar0.365836S.E.ofregression0.028780

Akaikeinfocriterion-4.114328Sumsquaredresid0.013253

Schwarzcriterion-3.965206Loglikelihood42.08611

F-statistic1446.223Durbin-Watsonstat0.432115Prob(F-statistic)0.0000002023年1月31日山东财经大学统计学院计量经济教研室第9页

对样本回归方程解释如下:斜率系数0.3397表示产出对劳动投入的弹性,即表明在资本投入保持不变的条件下,劳动投入每增加一个百分点,平均产出将增加0.3397个百分点。同样地,在劳动投入保持不变的条件下,资本投入每增加一个百分点,产出将平均增加0.8419个百分点。两个弹性系数相加为规模报酬系数,其数值大于1,表明该市经济的特征很可能是规模报酬递增的(如果数值等于1,属于规模报酬不变;小于1,则属于规模报酬递减)。2023年1月31日山东财经大学统计学院计量经济教研室第10页

根据单边检验的结果,这两个系数各自均是统计显著的(这是用单边检验,即,因为我们预期劳动力和资本对产出影响都是正向的),模型的F值也是高度显著的(因为prob=0.0000),因此能够拒绝零假设:劳动力与资本对产出无影响。R2值为0.995,表明劳动力和资本(对数)的变动解释了大约99.5%的产出(对数)的变动,说明了模型很好地拟合了样本数据。

2023年1月31日山东财经大学统计学院计量经济教研室第11页(二)半对数函数模型线性模型与对数函数模型的混合就是半对数模型(Semi-logModels)。因变量是对数形式(对数-线性模型):

(7.4)

解释变量是对数形式(线性-对数模型):

(7.5)

这两个模型的参数是以线性形式出现的,虽然原变量之间是非线性的,但被解释(解释)变量的对数与解释(被解释)变量之间是线性关系,因此,半对数函数模型可以很容易地转换成线性模型,并使用OLS估计参数。2023年1月31日山东财经大学统计学院计量经济教研室第12页对于半对数模型(7.4),显然有

可见,表示x每变化一个相对单位(变动率)对应的y的平均绝对变动量,所以,半对数函数模型又称增长率模型。(7.4)常用于度量由解释变量相对变动率导致的被解释变量平均变动的绝对数量;(7.5)常用于度量由解释变量绝对量变化导致的被解释变量的平均相对变动率。两个模型中的斜率系数又被称为半弹性(Semi-elasticity)系数。2023年1月31日山东财经大学统计学院计量经济教研室第13页二、双曲线模型形如的模型,称为双曲线模型(Double-curveModel)。该模型刻画了

y与x的反向变动关系,其显著特点是随着x的无限增大(即1/x接近于零),

y趋近于。令,原模型可化为线性形式即可用OLS的方法进行估计。

菲利普斯曲线(PhillipsCurve)就是这个模型在经济分析中应用的典型体现。菲利普斯曲线刻画了通货膨胀率与失业率的反向变动关系,如图7-1。2023年1月31日山东财经大学统计学院计量经济教研室第14页

失业率与通货膨胀率负向相关,同时通货膨胀率变化有一个渐近底限。当失业率x趋于无穷大时,通货膨胀率y将取渐近值。0失业率菲利普斯曲线2023年1月31日山东财经大学统计学院计量经济教研室第15页三、多项式函数模型

多项式回归模型(PolynomialRegressionModel)在生产与成本函数分析中被广泛地使用。

如果用y表示成本,x表示产出,则可以建立以下多项式模型,体现微观经济分析中的二者关系:总成本(TC):边际成本(MC)和平均成本(AC)的PRF为:(7.8)即总体回归函数(PRF)为:2023年1月31日山东财经大学统计学院计量经济教研室第16页产出x成本y产出x成本yMCTCAC

成本曲线

如果模型的解释变量为时间变量t,多项式函数模型又称为曲线回归模型,常常用于对非线性长期趋势的拟合。

有时为了反映自变量之间的交互影响,也需要用到多项式回归模型。2023年1月31日山东财经大学统计学院计量经济教研室第17页

如以y、x、z分别表示单位面积上的粮食产量、施肥量和灌溉用水量。由于施肥量和灌溉用水量对粮食产量的效应之间存在交互影响,所以,可以建立以下模型:施肥量x对粮食产量y的总边际影响是:

是施肥量对粮食产量的直接效应(假定灌溉用水量不变),是施肥量对粮食产量的间接效应,随灌溉用水量的不同而变化,说明肥效的发挥取决于灌溉用水的多少。同样,灌溉用水z对粮食产量y的总边际影响也可以这样分解。显然,该模型比单纯的二元回归模型更符合实际情况。2023年1月31日山东财经大学统计学院计量经济教研室第18页例7-2表7-3给出了某市16个企业的产品产量(x)与单位产品成本(y)的抽样调查数据。试研究二者的依存关系。企业序号产品产量(吨)x单位产品成本(元/吨)y企业序号产品产量(吨)x单位产品成本(元/吨)y143034629602310824103433106193068343232751175630514501315112738300755523108136953068656530761464730347588314615635298186653057167882962

企业产品产量与单位产品成本数据2023年1月31日山东财经大学统计学院计量经济教研室第19页

根据规模经济的原理,产品产量是单位产品成本变化的原因。为了明确二者的具体关系类型,使用EViews的Graph功能,绘制散点图如下:2023年1月31日山东财经大学统计学院计量经济教研室第20页

显然,二者的关系不是线性关系。可供选择的模型有以下两种:双曲线模型:半对数模型:分别拟合两种模型,回归结果整理如下:模型

的估计值与t检验值

的估计值与t检验值R2AICSCt检验值t检验值双曲线半对数2489.77247.833.4413.18367183.6-646.28.70-7.510.840.8011.1411.3811.2311.48

双曲线模型和幂函数模型的系数均通过了显著性检验,但前者无论是R2还是AIC、SC均好于后者,所以,最终的模型应为双曲线模型:2023年1月31日山东财经大学统计学院计量经济教研室第21页

该回归结果说明,单位产品成本随产量的上升而下降,当产品产量趋近于无穷大时,单位产品成本趋近于2489.7元/吨,这就是单位产品成本的理论最低值(实际上是可变成本部分)。四、Box-Cox变换

在考察被解释变量y和解释变量的关系时,经常用的两种模型是线性模型和对数线性模型事实上,经济学家对被解释变量和解释变量之间的具体的函数关系并不是很清楚的。2023年1月31日山东财经大学统计学院计量经济教研室第22页

由博克斯和考克斯(Box,Cox,1964)引进的Box-Cox变换对于利用样本数据确定函数形式非常有益的。对一种关系中的所有变量进行某个变换就会得到一个由变换参数决定的函数族,线性和对数线性关系是这个函数族中的两个特例。函数形式最终由估计的变换参数值确定。

我们考虑变量z的下列Box-Cox变换:时,;时,;时,,……。2023年1月31日山东财经大学统计学院计量经济教研室第23页

对某个特殊的关系式的所有变量都进行Box-Cox变换可得到下列模型

时,这个模型就是双对数模型(7.13)。时,可得即它和线性模型(7.12)是等价的。对于其它的的值,确定其它的函数形式。

2023年1月31日山东财经大学统计学院计量经济教研室第24页

也可以进行更一般的变换,它就是每个变量的变换参数不一样。此时变换后得到的模型为可能有些变量以线性的形式出现(,有些变量以对数的形式出现(,有些变量以倒数的形式出现(,等等。这样得到的函数族更大些,但是它也给我们估计参数带来困难。

接下来,我们需要做的事情就是利用样本数据估计变换参数或()以及,得到估计的函数形式。一般采用极大似然估计方法估计参数,在此不展开讨论。2023年1月31日山东财经大学统计学院计量经济教研室第25页五、小结

计量经济模型设定的重要方面是要使所设定的变量间函数形式能够体现变量间的基本关系。总体回归模型是对总体回归函数的描述,总体回归函数正是计量经济要去估计的目标。但其真实的函数形式事先并不知道。所谓模型函数形式的设定,是指根据对变量间相互关系的已有认识,把y的条件期望设定为解释变量x的某种函数。总体条件期望函数,可以设定为各种具体的函数形式。在计量经济学的实践中,通常把总体回归函数的具体函数形式设定为初等函数,应当注意的是不同函数形式中参数的经济意义有较大差异。常用的函数形式见课本P217表7-5(课件略)。2023年1月31日山东财经大学统计学院计量经济教研室第26页

大多数模型中,边际和弹性系数为变量,其大小取决于具体样本点自变量或(和)因变量的取值。在实际应用时,一般用代替具体的计算,得到的是平均的边际效应或弹性系数。2023年1月31日山东财经大学统计学院计量经济教研室第27页第三节虚拟变量虚拟变量含义虚拟解释变量的回归分类变量表现为多种状态2023年1月31日山东财经大学统计学院计量经济教研室第28页

迄今为止,本教材涉及的变量都是数值变量,诸如市场需求量、商品的价格、收入、产量等;但我们在建模时还经常遇到另外一些“变量”,如职业、性别、地区、季节等等。例如,季节的变化会对某些商品的需求量产生影响;性别或者职业的不同,其收入水平可能会有很大的差异。再如,当研究某一经济问题时还可能有些起暂时作用的“变量”,诸如在某一时期出现了战争、天灾、人祸等。诸如此类的“变量”都是分类变量,或称为“非数值变量”、“定性变量”或“名义变量”。一、虚拟变量

2023年1月31日山东财经大学统计学院计量经济教研室第29页

在计量经济建模过程中,有时候分类变量是不可缺少的。但由于在一般情况它们并不表现为具体的数值,为了将分类变量引入计量经济模型中,需要率先将其数量化,即转化为所谓的“虚拟变量”(DummyVariable),又被称为二元变量或二进制变量(BinaryVariable),一般用D来表示。

分类变量数量化的方法是,当分类变量起作用时,赋值“D=1”;不起作用时,赋值“D=0”。通过定义虚拟变量,就可以将分类变量等同于数值变量,引入回归模型之中。2023年1月31日山东财经大学统计学院计量经济教研室第30页

计量经济模型中,虚拟变量可以发挥多方面的作用:比如,作为属性因素的代表,如性别、所有制等;可以作为某些非精确计量的数量因素的代表,如受教育程度、管理者素质等;作为某些偶然因素或政策因素的代表,如战争、灾害、改革前后等;实现分段回归,研究斜率、截距的变动,或比较两个回归模型的结构差异;作为时间序列分析中季节(月份)的代表;等等。2023年1月31日山东财经大学统计学院计量经济教研室第31页

在计量经济学中,把包含有虚拟变量的模型称为虚拟变量模型。常用的虚拟变量模型有三种类型:

1.解释变量中只包含虚拟变量,作用是在假定其他因素都不变时,只研究分类变量是否使被解释变量表现出显著差异;

2.解释变量中既含数值变量,又含虚拟变量,研究数值变量和虚拟变量同时对被解释变量的影响;

3.被解释变量本身为虚拟变量的模型,即被解释变量本身取值为0或1的模型,适于对某社会经济现象进行“是”与“否”的判断研究。本节讨论前两种情形。2023年1月31日山东财经大学统计学院计量经济教研室第32页二、虚拟解释变量的回归

在计量经济模型中,加入虚拟解释变量的途径有两种基本类型:一是加法类型;二是乘法类型。不同的途径引入虚拟变量有不同的作用,加法方式引入虚拟变量改变的是模型的截距;乘法方式引入虚拟变量改变的是模型的斜率。(一)用虚拟变量表示不同截距的回归—加法类型

以加法类型引入虚拟解释变量的模型,虚拟解释变量与其他解释变量是相加关系;从计量经济模型的意义看,其作用是改变了设定模型的截距水平。比如:2023年1月31日山东财经大学统计学院计量经济教研室第33页例:研究性别与收入(yi)的关系:我们可以定义虚拟变量Di,Di=0时表示女性,Di=1时表示男性,即:对于线性回归模型(7.18),若假设H0:β1=0成立,则说明收入与性别将没有太大关系;若假设H0:β1=0不成立,则说明收入与性别有关。

以加法类型引入虚拟变量时,分为两种情形:解释变量只有分类变量而无数值变量;解释变量既有数值变量又有分类变量。1.解释变量只有分类变量而无数值变量的回归2023年1月31日山东财经大学统计学院计量经济教研室第34页例7-4研究学历与收入(yi)的关系:可以建立如下模型:2023年1月31日山东财经大学统计学院计量经济教研室第35页表7-6为从某城市随机获取的10名职工的学历情况与最初参加工作时的起薪。试建立样本回归模型。起薪(元)教育(1=大学,0=非大学)起薪(元)教育(1=大学,0=非大学)2300150014002100250010011170013009001700220001001表7-6起薪与受教育程度数据2023年1月31日山东财经大学统计学院计量经济教研室第36页

由结果可知,对应的t检验值为2.3,在统计上显著,说明学历对收入有着显著的影响,即说明受教育水平不同的两类人群的起薪是不同的。由方程可得,大学毕业的起薪均值为2080元,而非大学毕业的起薪均值为1440元,前者比后者高出640元(的系数)。最小二乘估计结果:2023年1月31日山东财经大学统计学院计量经济教研室第37页

因为这种案例实际上是不同组别的均值比较,可以通过方差分析完成,这种情况的模型又被称为方差分析模型。该例的excel方差分析结果如表7-7:组观测数求和平均方差非大学572001440108000大学5104002080212000方差分析差异源SSdfMSFP-valueFcrit组间1024000110240006.40.0352655.317655组内12800008160000总计23040009

表7-7excel方差分析输出结果2023年1月31日山东财经大学统计学院计量经济教研室第38页2.解释变量同时包含常规数值变量和虚拟变量的回归例如,我们认为,某个企业工人的月工资(y)与工作岗位类型(分为一般岗位和特殊岗位)有关,也与工作年限(x)有关。回归模型如下:(7.19)其中岗位类型用虚拟变量表示:于是有2023年1月31日山东财经大学统计学院计量经济教研室第39页

因而可以看出(7.19)实际上是两条截距不同、斜率相同的直线的组合,如图7-4。这里斜率相同是在模型设定时隐含的假定。xy在的假设下,用t检验,可以进行工作岗位不同状态时月工资是否存在差异的检验。2023年1月31日山东财经大学统计学院计量经济教研室第40页(二)用虚拟变量表示不同斜率的回归——乘法类型

以乘法类型引入虚拟解释变量,是在所设定的计量经济模型中,将虚拟解释变量与其他解释变量相乘作为解释变量,以表示模型中斜率系数的差异。以乘法类型引入虚拟解释变量,可以进行两个回归模型的比较、进行因素间的交互影响分析和提高模型对现实经济现象的描述精度。1.回归模型的比较——结构变化检验以加法类型引入虚拟解释变量,分类变量仅影响不同类型模型截距项,但是在现实经济生活中,分类变量也可能导致模型的斜率系数发生变化。2023年1月31日山东财经大学统计学院计量经济教研室第41页例如,随着可支配收入水平的提高,城乡居民的消费结构将出现较大的差异,这种差异会表现在分类变量(如城乡、职业)对斜率的影响上。这类问题可归结于两个回归模型的比较。例如,在研究城乡之间储蓄——收入总量关系时,所设定的模型为:城市:i代表城市居民家庭(7.21)农村:j代表农村居民家庭(7.22)其中,y为储蓄总额(亿元),x为收入总额(亿元),

u为随机扰动项。2023年1月31日山东财经大学统计学院计量经济教研室第42页

如果我们分别将式(7.21)和式(7.22)对不同的人群作回归,则可能得到以下四种结果:(1)表明这两个回归模型是相同的,或称为重合回归;(2)表明这两个回归模型仅在位置水平上(即截距水平上)存在差异,或称为平行回归;(3)表明这两个回归模型具有相同的位置水平(或起点相同)而变化速率不等,或称为共点回归;(4)表明这两个回归模型完全不相同,或称为不同的回归。2023年1月31日山东财经大学统计学院计量经济教研室第43页以上四种情形可用图示法描述(见图7-5):储蓄收入11储蓄收入1(a)重合回归(b)平行回归2023年1月31日山东财经大学统计学院计量经济教研室第44页11储蓄收入

(d)不同的回归(c)共点回归11储蓄收入2023年1月31日山东财经大学统计学院计量经济教研室第45页现在的问题是,当我们运用样本数据对模型(7.21)和模型(7.22)进行回归后,如何界定所得结果在统计意义上属于哪一种类型呢?这时可采用以乘法类型引入虚拟变量的方法,将模型(7.21)和模型(7.22)连接为一个模型:(7.23)其中,y为储蓄总额(亿元),x为收入总额(亿元),

u为随机扰动项,D为虚拟变量。显然在式(7.23)中,以乘法类型引入了虚拟变量所形成的解释变量为,以加法形式引入虚拟变量所形成的解释变量是。2023年1月31日山东财经大学统计学院计量经济教研室第46页假如根据100个居民家庭调查数据,对(7.23)式用OLS法估计得结果表明,截距和斜率差异系数、在统计意义下均为显著的,说明城乡之间的储蓄——收入行为确实不相同。即农村家庭(Di=0):城市家庭(Di=1):即2023年1月31日山东财经大学统计学院计量经济教研室第47页

以乘法类型引入虚拟变量作回归模型的比较和结构变化检验有一些优点:(1)用一个回归替代了多个回归,简化了分析过程;(2)可以方便地对模型结构的差异作各种假设检验;(3)合并了的回归增加了自由度,提高了参数估计的精确性。但是,也应注意合并后模型的应服从基本假定,特别是所比较的方程的方差应相同(如城乡之间),否则会出现异方差问题,需要用WLS法进行校正。

2023年1月31日山东财经大学统计学院计量经济教研室第48页2.交互效应分析

当分析解释变量对被解释变量的影响时,不仅要分析解释变量自身变动对被解释变量的影响作用,而且还要深入分析解释变量间的相互作用对被解释变量的影响。

在实际经济活动中,两个分类变量对被解释变量的影响可能存在一定的交互作用,即一个解释变量的边际效应有时可能要依赖于另一个解释变量。为描述这种交互作用,可以把两个虚拟变量的乘积以加法形式引入模型。2023年1月31日山东财经大学统计学院计量经济教研室第49页考虑下列模型:(7.24)

其中,为农副产品生产总收益;为农副产品生产投入;为代表油菜籽生产虚拟变量;为代表养蜂生产虚拟变量。

显然(7.24)式描述了是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响。虚拟解释变量和是以加法类型引入的,那么暗含着假设:油菜籽生产和养蜂生产是分别独立地影响农副品生产总收益。2023年1月31日山东财经大学统计学院计量经济教研室第50页

在发展油菜籽生产时,同时也发展养蜂生产,所取得的农副产品生产总收益,可能会高于不发展养蜂生产的情况。即在是否发展油菜籽生产与养蜂生产的虚拟变量和间,很可能存在着一定的交互作用,且这种交互影响对被解释变量农副产品生产收益会有影响。

为了描述交互作用对被解释变量的效应,在(7.24)式中以加法形式引入两个虚拟解释变量的乘积,即(7.25)(7.25)式中各变量的含义与(7.24)式相同。2023年1月31日山东财经大学统计学院计量经济教研室第51页

基础类型:为不发展油菜籽生产,也不发展养蜂生产时农副产品生产的平均总收益(7.26)

对比类型:为同时发展油菜籽生产和养蜂生产时,农副产品生产的平均总收益(7.27)这里的截距水平由四项组成,其中:

为是否发展油菜籽生产对农副产品生产总收益的截距差异系数;为是否发展养蜂生产对农副产品生产总收益的截距差异系数;为同时发展油菜籽生产和养蜂生产时对农副产品生产总收益的交互效应系数。2023年1月31日山东财经大学统计学院计量经济教研室第52页

关于交互效应是否存在,可借助于交互效应虚拟解释变量系数的显著性检验来加以判断。如果t检验表明交互效应虚拟变量在统计意义上是显著的,则说明交互效应对存在显著影响。3.分段线性回归

有的社会经济现象的变动,会在解释变量达到某个临界值时发生突变,为了区分不同阶段的截距和斜率可利用虚拟变量进行分段回归。例如,某公司为了激励公司销售人员,按其销售额的一定比例计提奖励,但是销售额在某一目标水平以下和以上时计提奖励的方法不同。2023年1月31日山东财经大学统计学院计量经济教研室第53页

当销售额高于时,计提奖励额与销售额的比例要高于销售额低于时的比例,也就是高于时,奖励额与销售额的线性关系更为陡峭(如图7-6所示)。为了确切地描述奖励额度(y)与销售额(x)间的关系,需要分两段进行回归。这种分段回归可以用虚拟变量来实现。ⅠⅡ0图7-6奖励额与销售额的关系2023年1月31日山东财经大学统计学院计量经济教研室第54页设虚拟变量D为:则奖励额度()和销售额()间的关系式可以统一地表示为:(7.28)

为奖励额,为销售额,为已知的销售目标临界水平。利用统计资料估计(7.28)式的参数,就可以得到不同斜率和截距的回归方程:销售额低于时:销售额不低于:2023年1月31日山东财经大学统计学院计量经济教研室第55页

是图7-6中第Ⅰ段回归直线的斜率,而则是第Ⅱ段回归直线的斜率。只要检验的统计显著性,就可以判断在所设定的临界水平处是否存在着“突变”。应当注意,在分段回归中,第一、二段回归不仅截距不同,而且斜率也不同。在分为两段回归时,使用了一个虚拟变量,容易推广,分为k段回归时,可用

k-1个虚拟变量。2023年1月31日山东财经大学统计学院计量经济教研室第56页三、分类变量表现为多种状态

上面讨论的定性(分类)变量其表现的状态仅有两种情况,如性别仅表现为男性和女性,学历仅区分为“大学”和“非大学”。

但有时分类变量可表现为多种状态,如文化程度可区分为大学、中学、小学、文盲四种状态,省份分为东部、中部和西部三种状态,等等。

含此类分类变量模型的建立,应避免犯以下两类错误:第一,设置一个虚拟变量,分别用0,1,2,3,…表示其不同的状态。此方法缺陷在于,它在设定模型时,假定各种状态均值之间差量为固定值,这显然与事实不符。2023年1月31日山东财经大学统计学院计量经济教研室第57页第二,设立与状态数相同个数的虚拟变量,分别表示各个不同状态。例如文化程度区分为大学、中学、小学、文盲四种状态,如果设置四个虚拟变量,即为:

此方法缺陷在于,由于D1+D2+D3+D4=1,如果模型存在常数项,这会使得多元回归模型的自变量观测值矩阵X不满秩,产生完全的多重共线性。这类问题称为“虚拟变量陷阱”(TrapofDummyVariable)。正确的虚拟变量设置方法是:如分类变量有k种表现状态,可引入(k-1)个虚拟变量。

2023年1月31日山东财经大学统计学院计量经济教研室第58页例7-5科学家认为某种药用树种中的药用成分PDM含量可能随着植物生长时间(树龄)而增加,而且其基础含量与种植地的地理环境有关,但其变化速度与地理环境无关。某县地理单元分为平原、山区和海岛三种。随机抽取20棵植株进行化验,结果如表7-8所示。据此验证上述假说。2023年1月31日山东财经大学统计学院计量经济教研室第59页植株序号PDM含量(y)树龄(x)地理单元D1D2D3119.98510平原100232.83912海岛001320.5778平原100435.42521山区010532.83920山区010631.0005海岛001732.94915山区010836.99816海岛001937.10220海岛0011024.09230平原1001130.6355海岛0011228.60211山区0101337.77918海岛0011435.13522山区0101520.7363平原1001631.6095海岛0011738.05918海岛0011838.73029山区0101922.58819平原1002020.83016平原100表7-8样本调查数据表2023年1月31日山东财经大学统计学院计量经济教研室第60页以代表树龄,代表PDM含量,各地理单元植株中PDM含量随树龄增长率()相同,但基础含量()不同。如果设置三个地理单元的虚拟变量如下科学家的假定实际上可以表述为:平原种植山区种植海岛种植2023年1月31日山东财经大学统计学院计量经济教研室第61页引入地理单元虚拟变量建立如下模型:(7.29)此模型中只引入了代表平原和山区两个地理单元的虚拟变量,分别为和,代表海岛的虚拟变量没有引进。因此有下面的关系式:即和分别是种植在平原和山区植株的PDM

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论