第三章多元线性回归模型_第1页
第三章多元线性回归模型_第2页
第三章多元线性回归模型_第3页
第三章多元线性回归模型_第4页
第三章多元线性回归模型_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章多元线性回归模型2第一节多元回归模型及基本假定

现实中引起被解释变量变化的因素可能有很多个。

多元总体线性回归模型的形式为

Yi=b1+

b2X2i+

b3X3i

+…

+bkXki

+ui一、多元线性回归模型的形式3Yi=β1

+β2

X2i+β3

X3i+ui如二元线性回归模型:被解释变量截距项解释变量随机误差项偏回归系数(partialregressioncoefficients)4偏回归系数的含义Yi=β1

+β2

X2i+β3

X3i+ui度量X3i保持不变的情况下,E(Y

|X2i,X3i)的变化,即β2度量X2i

的单位变化对Y均值的“直接”或“净”影响。β3的含义呢?5若总体个数为n,则写成矩阵形式:6即X称为数据矩阵或设计矩阵。7二、古典假定假定1:零均值假定矩阵形式:8假定2:同方差假定假定3:无自相关假定统一成矩阵形式:9假定4:随机扰动项与解释变量不相关假定5:正态性假定,即假定6:解释变量之间无多重共线性即各解释变量的样本观测值之间线性无关,解释变量的样本观测值矩阵的秩为参数个数,从而保证参数的估计值唯一。10

当总体观测值难于得到时,回归系数向量b是未知的,这时可以由样本观测值进行估计,可表示为但实际观测值与计算值有偏差,记为:称为多元样本回归函数。于是11分别称为回归系数估计值向量、剩余项或残差向量、

Y的样本估计值向量。12第二节多元回归模型的估计设(Yi,X2i,X3i,…

,Xki)为第i个观测样本(i=1,2,…,n),一、参数的最小二乘估计要使残差平方和其必要条件是于是13即或14将两边同时左乘得由无多重共线性假定,即可得参数向量b的最小二乘估计式的矩阵表达式对于只有两个解释变量的线性回归模型的参数的最小二乘估计,书上给出了具体的代数表达式(P80)15回归残差为:设残差平方和为Q

:令1617正规方程组(NormalEquation)18下面推导参数估计式公式:

即1920类似地于是21同理22(1)无偏性二、OLS估计式的统计性质23(3)最小方差性参数最小二乘估计是所有线性无偏估计量中方差最小的估计量。(2)线性性每个参数估计量是Yi

(i=1,2,…,n)的线性组合。

即在古典假定条件下,多元线性回归模型的最小二乘估计是最佳线性无偏估计式。(BestLinearUnbiasedEstimator,BLUE)24

在古典假定条件下,三、OLS估计的分布性质而是Yi的线性函数,故它们也服从正态分布。

为了进行区间估计和假设检验,需要弄清参数估计量的分布。从而由无偏性25所以是矩阵中第j行第j列上的元素26四、随机扰动项方差的估计

通常s2是未知的,参数估计量的无法计算,可以证明:是s2的无偏估计量。27五、参数的区间估计

当用代替s2时,给定显著性水平a,查t分布自由度为n-k的临界值t0,则回归系数bj的置信度为1-

a的置信区间为:28例1

已知线性回归模型

n=5,并且根据各个变量的数据计算出:

(1)求模型中三个参数的最小二乘估计;(保留二位小数)

(2)求估计参数的标准差的估计量。29解:(1)于是又30解:(2)又于是31第三节多元回归模型的检验

为了从估计出的模型出发(即SRF),检验SRF对样本观测值的拟合程度。与简单线性回归一样,考察在Y的总变差中由多个解释变量作出了解释的那部分比重。一、拟合优度检验32在中,TSS=RSS+ESS自由度:

n-1=(k-1)+(n-k)由于RankX=k,所以在中独立的变量只有k个,又已知,故的自由度为k-1.33我们用回归平方和(RSS)与总离差平方和(TSS)的比值表示二元回归方程的拟合优度,称为多重可决系数或多重判定系数即:=RSS+ESS34可用矩阵表示:P79(3.25)式:35由知当R2=1时,从而ei=0,这时,被解释变量的总变差完全由解释变量解释。此时,从取得样本看,样本观测值完全落在样本回归线上;当R2=0时,总变差完全不能由解释变量解释。R2越接近于1,拟合状态越好。36所以可决系数也可表示为:37问题:

在多元线性回归模型中增加一个解释变量,残差平方和一般会减小,从而可决系数会相应增大,那是不是解释变量越多越好呢?事实上不是这样,实际情况中,经济现象是错综复杂的,一个模型不可能把它的所有影响因素都考虑进去,有时越追求全面,丧失的是越不准确,另外,解释变量越多,损失的自由度越多。38

为了消除因解释变量个数不同对可决系数的影响,提出了修正的可决系数(Adjustedcoefficientofdetermination)注意上式右边可能为负值,这是规定:39

可决系数只是对模型拟合优度的度量,可决系数或修正的可决系数越大,表明列入模型中的解释变量对被解释变量的联合影响程度越大,并非各个解释变量对被解释变量的影响都很大。在回归分析中,不仅模型的拟合程度要高,而且要求各个解释变量对被解释变量的影响都是显著的,即对总体回归参数的估计值要可靠。因此,在建立模型时,不能单凭可决系数的高低断定模型的优劣,在通盘考虑时,可以适当降低对可决系数的要求。40

被解释变量与多个解释变量之间是否存在显著的线性关系呢?需在总体上是否显著作出推断。二、回归方程的显著性检验(F检验)假设的形式为原假设H0:b2=b3=…=bk=0备择假设H1:bj(j=2,3,…,k)不全为0统计量41(3)给定显著性水平a,在F分布表查自由度为k-1和n-k的临界值Fa

。(1)提出检验假设(4)比较F值与临界值Fa的大小,检验步骤:(2)用样本观测值计算统计量F的值若F>Fa,则拒绝原假设,表明回归方程显著;若F<Fa,则接受原假设,表明回归方程不显著,即列入模型的各个解释变量联合起来对被解释变量的影响不显著。42需要指出的是:在一元线性回归中,由于解释变量只有一个,不存在解释变量联合影响的整体检验问题,也就用不着进行F检验。事实上,对一元回归模型的t检验与F检验是一致的。事实上P39(2.43)P48(2.67)而临界值与也存在平方关系。43F与R2的关系F与R2成正比,R2越大,F

值也越大。所以可以把F检验看成是对拟合优度的检验。但拟合优度的检验不能取代F检验。因为可决系数或修正可决系数只能提供拟合优度的度量,但它没有回答它的值究竟要达到多大才算模型通过了检验。44

因为方程的整体线性关系显著,并不表示每个解释变量对被解释变量的影响都是显著的,因此,还必须分别对每个解释变量进行显著性进行检验。三、回归参数的显著性检验(t检验)我们知道标准化后这里Cjj是第j行第j列元素45而总体方差s2未知,当用代替s2时,此时构造的t

统计量对回归参数的显著性检验分两种情况:1)检验估计的参数的显著性:2)检验解释变量对被解释变量影响的显著性:46(3)给定显著性水平a,在

t分布表查自由度为n-k的临界值ta/2

;(1)提出检验假设(4)比较

t值与临界值ta/2的大小,对各个回归参数显著性检验的步骤:(2)用样本观测值计算统计量

的值;若|t|>ta/2,则拒绝原假设,表明在其他解释变量不变的情况下,Xj对Y的影响显著;反之,若|t|<ta/2

,则接受原假设,不显著。H0:bj=bj*(j=1,2,…,k)H1:bj≠bj*(j=1,2,…,k)47(3)给定显著性水平a,在

t分布表查自由度为n-k的临界值ta/2

;(1)提出检验假设(4)比较

t值与临界值ta/2的大小,对各个解释变量的显著性检验的步骤:(2)用样本观测值计算统计量

的值;若|t|>ta/2,则拒绝原假设,表明在其他解释变量不变的情况下,Xj对Y的影响显著;反之,若|t|<ta/2

,则接受原假设,不显著。H0:bj=0(j=2,…,k)H1:bj≠0(j=2,…,k)48第四节多元线性回归模型预测一、对Y

平均值的点预测将解释变量预测值的行向量代入样本回归函数即得Y的平均值的点预测值49二、对Y

平均值的区间预测

因为是随机变量,所以也是随机变量,为了由预测值去对总体真实均值E(Yf|Xf)

作区间估计,需要知道的分布及相关统计量。5051由于s2未知,当用无偏估计代替s2时给定显著性水平a,查t分布表,得临界值ta/2,可得均值E(Yf)

置信度为1-a的预测区间为52三、对Y个别值的区间预测因为均服从正态分布,所以也服从正态分布,且即53由于s2未知,当用无偏估计代替s2时给定显著性水平a,查t分布表,得临界值ta/2,可得Y的真实值Yf

的置信度为1-a的预测区间为54例2

以企业研发支出(R&D)占销售额的比重为被解释变量(Y),以企业销售额(X1)与利润占销售额的比重(X2)为解释变量,一个容量为32的样本企业的估计结果如下:其中括号中为系数估计值的标准差。(1)解释log(X1)的系数。如果X1增加10%,估计Y会变化多少个百分点?这在经济上是一个很大的影响吗?(2)针对R&D强度随销售额的增加而提高这一备择假设,检验它不随X1而变化的假设。分别在5%和10%的显著性水平上进行这个检验。(3)利润占销售额的比重X2对R&D强度Y是否在统计上有显著的影响?55解(1)log(X1)的系数表明在其他条件不变时,log(X1)变化1个单位,Y变化的单位数,即Y=0.32log(X1)0.32(X1/X1)=0.32100%,换言之,当企业销售X1增长100%时,企业研发支出占销售额的比重Y会增加32个百分点。由此如果X1增加10%,Y会增加3.2个百分点。这在经济上不是一个较大的影响。56(2)针对备择假设

检验原假设

计算的t统计量的值为t=0.32/0.22=1.468。在5%的显著性水平下,自由度为32-3=29的t

分布的临界值为1.699(单侧),计算的t值小于该临界值,所以不拒绝原假设。意味着R&D强度不随销售额的增加而变化。在10%的显著性水平下,t分布的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论