版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
会计学1第3章多元线性回归3.1多元线性回归模型一、多元线性回归模型的一般形式
对n组观测数据(xi1,xi2,…,xip;yi),i=1,2,…,n,线性回归模型表示为:第1页/共58页3.1多元线性回归模型一、多元线性回归模型的一般形式
写成矩阵形式为:y=Xβ+ε,其中,第2页/共58页3.1多元线性回归模型二、多元线性回归模型的基本假定
1.解释变量x1,x2,…,xp是确定性变量,不是随机变量,且要求rk(X)=p+1<n。表明设计矩阵X中的自变量列之间不相关,X是一满秩矩阵。第3页/共58页3.1多元线性回归模型二、多元线性回归模型的基本假定
2.随机误差项具有0均值和等方差,即这个假定称为Gauss-Markov条件第4页/共58页3.1多元线性回归模型二、多元线性回归模型的基本假定
3.正态分布的假定条件为:用矩阵形式(3.5)式表示为:ε~N(0,s2In)第5页/共58页3.1多元线性回归模型二、多元线性回归模型的基本假定
在正态假定下:y~N(Xβ,s2In)E(y)=Xβ
var(y)=s2In
第6页/共58页3.1多元线性回归模型三、多元线性回归方程的解释
y表示空调机的销售量,x1表示空调机的价格,x2表示消费者可用于支配的收入。y=β0+β1x1+β2x2+εE(y)=β0+β1x1+β2x2
在x2保持不变时,有在x1保持不变时,有第7页/共58页3.1多元线性回归模型三、多元线性回归方程的解释
考虑国内生产总值GDP和三次产业增加值的关系,
GDP=x1+x2+x3现在做GDP对第二产业增加值x2的一元线性回归,得回归方程第8页/共58页3.1多元线性回归模型年份GDP第一产业增加值x1第二产业增加值x2第三产业增加值x3199018547.95017.07717.45813.5199121617.85288.69102.27227.0199226638.15800.011699.59138.6199334634.46882.116428.511323.8199446759.49457.222372.214930.0199558478.111993.028537.917947.2199667884.613844.233612.920427.5199774462.614211.237222.723028.7199878345.214552.438619.325173.5199982067.514472.040557.827037.7200089468.114628.244935.329904.6200197314.815411.848750.033153.02002105172.316117.352980.236074.82003117390.216928.161274.139188.02004136875.920768.172387.243720.6第9页/共58页3.1多元线性回归模型三、多元线性回归方程的解释
建立GDP对x1和x2的回归,得二元回归方程=2914.6+0.607x1+1.709x2你能够合理地解释两个回归系数吗?第10页/共58页3.2回归参数的估计
一、回归参数的普通最小二乘估计
最小二乘估计要寻找第11页/共58页3.2回归参数的估计
一、回归参数的普通最小二乘估计
第12页/共58页3.2回归参数的估计
一、回归参数的普通最小二乘估计
经整理后得用矩阵形式表示的正规方程组
移项得存在时,即得回归参数的最小二乘估计为:第13页/共58页3.2回归参数的估计
二、回归值与残差为回归值
称为帽子矩阵,其主对角线元素记为hii
,则第14页/共58页3.2回归参数的估计
二、回归值与残差
此式的证明只需根据迹的性质tr(AB)=tr(BA),因而第15页/共58页3.2回归参数的估计
二、回归值与残差
cov(e,e)=cov((I-H)Y,(I-H)Y)=(I-H)cov(Y,Y)(I-H)′=σ2(I-H)In(I-H)′=σ2(I-H)得
D(ei)=(1-hii)σ2,i=1,2,…,n第16页/共58页3.2回归参数的估计
二、回归值与残差
是σ2的无偏估计
第17页/共58页3.2回归参数的估计
三、回归参数的最大似然估计
y~N(Xβ,σ2In)似然函数为等价于使(y-Xβ)′(y-Xβ)达到最小,这又完全与OLSE一样第18页/共58页3.2回归参数的估计
例3.1国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对旅游外汇收入的影响。《中国统计年鉴》把第三产业划分为12个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮业,x5金融保险业,x6房地产业,x7社会服务业,x8卫生体育和社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺术,x11党政机关,x12其他行业。采用1998年我国31个省、市、自治区的数据,以国际旅游外汇收入(百万美元)为因变量y,以如上12个行业为自变量做多元线性回归,数据见表3.1,其中自变量单位为亿元人民币。第19页/共58页3.2回归参数的估计
第20页/共58页3.3参数估计量的性质
性质1
是随机向量y的一个线性变换。性质2
是β的无偏估计。
第21页/共58页3.3参数估计量的性质
第22页/共58页3.3参数估计量的性质
当p=1时
第23页/共58页3.3参数估计量的性质
性质4Gauss-Markov定理预测函数是的线性函数
Gauss-Markov定理
在假定E(y)=Xβ,D(y)=σ2In时,β的任一线性函数的最小方差线性无偏估计(BestLnearUnbiasedEstimator简记为BLUE)为c′,其中c是任一p+1维向量,是β的最小二乘估计。第24页/共58页3.3参数估计量的性质
第一,取常数向量c的第j(j=0,1,…,n)个分量为1,其余分量为0,这时G-M定理表明最小二乘估计是βj的最小方差线性无偏估计。第二,可能存在y1,y2,…,yn的非线性函数,作为的无偏估计,比最小二乘估计的方差更小。第三,可能存在的有偏估计量,在某种意义(例如均方误差最小)下比最小二乘估计更好。第四,在正态假定下,是的最小方差无偏估计。也就是说,既不可能存在y1,y2,…,yn的非线性函数,也不可能存在y1,y2,…,yn的其它线性函数,作为的无偏估计,比最小二乘估计方差更小。第25页/共58页3.3参数估计量的性质
性质5cov(,e)=0此性质说明与e不相关,在正态假定下等价于与e独立,从而与独立。性质6
在正态假设(1)(2)第26页/共58页3.4回归方程的显著性检验
一、F检验
H0:β1=β2=…=βp=0SST=SSR+SSE
当H0成立时服从第27页/共58页3.4回归方程的显著性检验
一、F检验
方差来源自由度平方和均方F值P值回归残差总和pn-p-1n-1SSRSSESSTSSR/pSSE/(n-p-1)P(F>F值)=P值第28页/共58页3.4回归方程的显著性检验
二、回归系数的显著性检验
H0j:βj=0,j=1,2,…,p~N(β,σ2(X'X)-1)记(X'X)-1=(cij)i,j=0,1,2,…,p构造t统计量
其中第29页/共58页3.4回归方程的显著性检验
二、回归系数的显著性检验(剔除x1)第30页/共58页3.4回归方程的显著性检验
二、回归系数的显著性检验
第31页/共58页3.4回归方程的显著性检验
二、回归系数的显著性检验
从另外一个角度考虑自变量xj的显著性。y对自变量x1,x2,…,xp线性回归的残差平方和为SSE,回归平方和为SSR,在剔除掉xj后,用y对其余的p-1个自变量做回归,记所得的残差平方和为SSE(j),回归平方和为SSR(j),则自变量xj对回归的贡献为ΔSSR(j)=SSR-SSR(j),称为xj的偏回归平方和。由此构造偏F统计量第32页/共58页3.4回归方程的显著性检验
二、回归系数的显著性检验
当原假设H0j
:βj=0成立时,(3.42)式的偏F统计量Fj服从自由度为(1,n-p-1)的F分布,此F检验与(3.40)式的t检验是一致的,可以证明Fj=tj2第33页/共58页3.4回归方程的显著性检验
三、回归系数的置信区间可得βj的置信度为1-α的置信区间为:第34页/共58页3.4回归方程的显著性检验四、拟合优度
决定系数为:
y关于x1,x2,…,xp的样本复相关系数第35页/共58页3.5中心化和标准化
一、中心化
经验回归方程经过样本中心将坐标原点移至样本中心,即做坐标变换:回归方程转变为:回归常数项为第36页/共58页3.5中心化和标准化
二、标准化回归系数
当自变量的单位不同时普通最小二乘估计的回归系数不具有可比性,例如有一回归方程为:其中x1的单位是吨,x2的单位是公斤第37页/共58页3.5中心化和标准化
二、标准化回归系数
样本数据的标准化公式为:得标准化的回归方程第38页/共58页3.5中心化和标准化
二、标准化回归系数
标准化回归系数第39页/共58页3.6相关阵与偏相关系数
一、样本相关阵自变量样本相关阵
增广的样本相关阵为:
第40页/共58页3.6相关阵与偏相关系数
一、样本相关阵YX1X2X3X4X5X6X7X8X9X10X11X12Y1.0000.2600.3420.5800.4790.5180.5300.7410.3790.5750.6730.2570.038X10.2601.0000.6400.6910.7380.5820.5190.6630.6910.7190.1500.7580.301X20.3420.6401.0000.7730.6580.5020.4640.6020.6600.6860.1180.7600.337X30.5800.6910.7731.0000.9340.7420.7100.8850.8670.8890.3140.8550.457X40.4790.7380.6580.9341.0000.7800.7430.8870.9260.8920.3480.8490.437X50.5180.5820.5020.7420.7801.0000.9890.7400.7900.8500.6300.7050.515X60.5300.5190.4640.7100.7430.9891.0000.7030.7530.8210.6460.6660.493X70.7410.6630.6020.8850.8870.7400.7031.0000.7810.8340.5410.6490.190X80.3790.6910.6600.8670.9260.7900.7530.7811.0000.9310.4040.9060.548X90.5750.7190.6860.8890.8920.8500.8210.8340.9311.0000.5690.8950.533X100.6730.1500.1180.3140.3480.6300.6460.5410.4040.5691.0000.2410.155X110.2570.7580.7600.8550.8490.7050.6660.6490.9060.8950.2411.0000.613X120.0380.3010.3370.4570.4370.5150.4930.1900.5480.5330.1550.6131.000第41页/共58页3.6相关阵与偏相关系数
二、偏判定系数
当其他变量被固定后,给定的任两个变量之间的相关系数,叫偏相关系数。
偏相关系数可以度量p+1个变量y,x1,x2,xp之中任意两个变量的线性相关程度,而这种相关程度是在固定其余p-1个变量的影响下的线性相关。
第42页/共58页3.6相关阵与偏相关系数
二、偏判定系数
偏判定系数测量在回归方程中已包含若干个自变量时,再引入某一个新的自变量后y的剩余变差的相对减少量,它衡量y的变差减少的边际贡献。第43页/共58页3.6相关阵与偏相关系数
二、偏判定系数
以x1表示某种商品的销售量,
x2表示消费者人均可支配收入,
x3表示商品价格。从经验上看,销售量x1与消费者人均可支配收入x2之间应该有正相关,简单相关系数r12应该是正的。但是如果你计算出的r12是个负数也不要感到惊讶,这是因为还有其它没有被固定的变量在发挥影响,例如商品价格x3在这期间大幅提高了。反映固定x3后x1与x2相关程度的偏相关系数r12;3会是个正数。第44页/共58页3.6相关阵与偏相关系数
1.两个自变量的偏判定系数二元线性回归模型为:yi=β0+β1xi1+β2xi2+εi记SSE(x2)是模型中只含有自变量x2时y的残差平方和,SSE(x1,x2)是模型中同时含有自变量x1和x2时y的残差平方和。因此模型中已含有x2时再加入x1使y的剩余变差的相对减小量为:此即模型中已含有x2时,y与x1的偏判定系数。第45页/共58页3.6相关阵与偏相关系数
1.两个自变量的偏判定系数同样地,模型中已含有x1时,y与x2的偏判定系数为:第46页/共58页3.6相关阵与偏相关系数
2.一般情况在模型中已含有x2,…,xp时,y与x1的偏判定系数为:第47页/共58页3.6相关阵与偏相关系数
三、偏相关系数
偏判定系数的平方根称为偏相关系数,其符号与相应的回归系数的符号相同。
例3.2
研究北京市各经济开发区经济发展与招商投资的关系,因变量y为各开发区的销售收入(百万元),选取两个自变量,
x1为截至1998年底各开发区累计招商数目,
x2为招商企业注册资本(百万元)。表中列出了至1998年底招商企业注册资本x2在5亿至50亿元的15个开发区的数据。第48页/共58页3.6相关阵与偏相关系数
三、偏相关系数
北京开发区数据x1x2yx1x2y253547.79553.967671.13122.2420896.34208.555322863.3214006750.323.175116046410012087.052815.440862.757.55251639.311052.12187672.99224.188253357.73427122901.76538.94120808.47442.82743546.182442.7928520.2770.12第49页/共58页3.6相关阵与偏相关系数
三、偏相关系数
偏相关系数表第50页/共58页3.6相关阵与偏相关系数
三、偏相关系数
用y与x1做一元线性回归时,x1能消除y的变差SST的比例为再引入x2时,x2能消除剩余变差SSE(X1)的比例为因而自变量x1和x2消除y变差的总比例为=1-(1-0.651)(1-0.546)=0.842=84.2%。这个值84.2%恰好是y对x1和x2二元线性回归的判定系数R2第51页/共58页3.6相关阵与偏相关系数
三、偏相关系数
对任意p个变量x1,x2,…,xp定义它们之间的偏相关系数其中符号Δij表示相关阵第i行第j列元素的代数余子式验证第52页/共58页3.7本章小结与评注
例3.3中国民航客运量的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 变频器维修技术培训课件
- 建筑企业员工行为培训
- 中考数学二轮复习专项18~20题对点提分训练(三)课件
- 2025蛇年年终总结新年计划工作总结模板
- 15.3 串联和并联(8大题型)(含答案解析)
- 期中模拟检测(1-4单元)(试题)(含答案)-2024-2025学年四年级上册数学北师大版
- 吉林省白山市抚松县 2024-2025学年七年级上学期期中道德与法治试卷(含答案)
- T-ZFDSA 22-2024 芦根蜂蜜饮制作标准
- 【山东省安全员A证】考试题库及答案
- 编舞基础理论知识单选题100道及答案解析
- 国开2024年秋《机械制图》形考作业1-4答案
- 运动安全与健康智慧树知到期末考试答案章节答案2024年浙江大学
- 中国哲学经典著作导读智慧树知到期末考试答案章节答案2024年西安交通大学
- (完整版)四宫格数独题目204道(可直接打印)及空表(一年级数独题练习)
- 2024中国中煤招聘笔试参考题库含答案解析
- 23S519 小型排水构筑物(带书签)
- GA/T 544-2021多道心理测试系统通用技术规范
- 矩阵论知到章节答案智慧树2023年哈尔滨工程大学
- 手机号码归属地数据库
- 个人车位租赁合同电子版
- 俄语建筑幕墙词汇
评论
0/150
提交评论