版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学线性回归(huíguī)分析第一页,共36页。变量之间的关系(guānxì)有两种:确定型的函数关系(guānxì)不确定型的函数关系(guānxì)这里主要研究不确定型的函数关系,如收入与受教育程度(chéngdù)之间的关系,等等问题。但它们之间存在明显的相互关系(称为相关关系),又是不确定的。回归分析是研究随机变量之间相关关系的统计方法。其研究一个被解释变量(因变量)与一个或多个解释变量(自变量)之间的统计关系。第二页,共36页。例:人均收入X与人均食品(shípǐn)消费支出Y的散点图的关系如图。1.一元线性回归(huíguī)是研究一个自变量与一个因变量的统计关系。一.一元(yīyuán)线性回归人均收入X人均食品支出Y第三页,共36页。这两个(liǎnɡɡè)变量之间的不确定关系,可以用下式表示:式中,人均食品消费支出Y是被解释变量,人均收入X是解释变量,1,2是待估计参数;u是随机(suíjī)干扰项,且与X无关,它反映了Y被X解释的不确定性。如果随机干扰项u的均值(jūnzhí)为0,对上式求条件均值(jūnzhí),有反映出从“平均”角度看,是确定性关系。第四页,共36页。例:地区(dìqū)的多孩率与人均国民收入的散点图如下:人均收入X多孩率Y这两个变量(biànliàng)之间的不确定关系,大致可以用下式表示:设Z=LnX,可将上式线性关系为:第五页,共36页。线性回归的任务:就是用恰当的方法,估计出参数1,2,并且使估计出来的参数具有良好的统计特征(tèzhēng),所以,回归问题从某种视角看,视同参数估计问题。如果把X,Y的样本(yàngběn)观测值代到线性回归方程中,就得到i=1,2,…,n,n为样本容量.从重复抽样的角度看,Xi,Yi也可以(kěyǐ)视为随机变量。第六页,共36页。2.高斯(ɡāosī)基本假设对于(duìyú)线性回归模型i=1,2,…,n,n为样本容量.高斯基本假设如下:ui为随机变量(本假设成立(chénglì),因为我们研究就是不确定关系).E(ui)=0,随机干扰项的期望值等于零(本假设成立(chénglì),如果其均值不是零,可以把它并入到1中).Var(ui)=2u,随机干扰项的方差等于常数(本假设有可能不成立(chénglì),以后讨论不成立(chénglì)时如何处理).E(uiuj)=0(ij)随机干扰项协方差等于零(本假设第七页,共36页。有可能不成立,以后讨论(tǎolùn)不成立时如何处理).(5)ui服从N(0,2u)分布;(6)E(Xiuj)=0,对Xi的性质有两种解释:a.Xi视为随机变量,但与uj无关,所以(6)成立.b.Xi视为确定型变量,所以(6)也成立.第八页,共36页。3.普通(pǔtōng)最小二乘法(OLS)设线性回归(huíguī)模型其中(qízhōng)为1,2
的估计值,则Y的计算值Ŷ,可以用下式表达:所要求出待估参数,要使Y与其计算值Ŷ之间的“误差平方和”最小.即:使得最小.为此,分别求Q对的偏导,并令其为零:第九页,共36页。由上两式,就可求出待估参数(cānshù)的值.4.所求参数(cānshù)的计算公式的另一个(yīɡè)表达式为:第十页,共36页。例::在上述家庭可支配收入-消费支出例中,对于(duìyú)所抽出的一组样本数,参数估计的计算可通过下面的表进行。
参数估计的计算(jìsuàn)表
iX
iY
ix
iy
iiyx
2ix
2iy
2iX
2iY
1
800
594
-1350
-973
1314090
1822500
947508
640000
352836
2
1100
638
-1050
-929
975870
1102500
863784
1210000
407044
3
1400
1122
-750
-445
334050
562500
198381
1960000
1258884
4
1700
1155
-450
-412
185580
202500
170074
2890000
1334025
5
2000
1408
-150
-159
23910
22500
25408
4000000
1982464
6
2300
1595
150
28
4140
22500
762
5290000
2544025
7
2600
1969
450
402
180720
202500
161283
6760000
3876961
8
2900
2078
750
511
382950
562500
260712
8410000
4318084
9
3200
2585
1050
1018
1068480
1102500
1035510
10240000
6682225
10
3500
2530
1350
963
1299510
1822500
926599
12250000
6400900
求和
21500
15674
5769300
7425000
4590020
53650000
29157448
平均
2150
1567
第十一页,共36页。因此,由该样本(yàngběn)估计的回归方程为:第十二页,共36页。5.几何(jǐhé)解释残差向量(xiàngliàng)e=Y–Ŷ=(Y-Y)-(Ŷ-Y)=y-ŷ向量(xiàngliàng)y,ŷ,e三者之间关系如图所示,普通最小二乘法(chéngfǎ)要使残差平方和e2i最小,也就是要使e的长度尽可能小,等价于在几何上ex.或者说,ŷ的长度应当是y在x上的投影长度.yxe第十三页,共36页。二.多元(duōyuán)线性回归本节要研究(yánjiū)一个被解释变量(因变量),多个解释变量(自变量)的线性模型,即1.基本(jīběn)假设
u为随机变量向量;
E(u)=0;
cov(u)=E(u
uT)=2uIn(包含了两个其本假设:一是不存在序列相关,即ij时,cov(ui,uj)=E(uiuj)=0;二是具有同方差性(齐次方差性),即Var(ui)=2u).第十四页,共36页。(4)u~N(0,2uIn)(5)E(XTu)=0,或者(huòzhě),X为确定矩阵(6)秩(X)=k,(k<n)第十五页,共36页。2.普通(pǔtōng)最小二乘法估计式在模型中,代入样本观测(guāncè)值之后,可得用矩阵(jǔzhèn)方式表达为Y=X+u其中,Y=(Y1,Y2,…,Yn)T
u=(u1,u2,…,un)T
=(
1,
2,…,k)T第十六页,共36页。若估计(gūjì)出,则有所以(suǒyǐ)于是(yúshì)有两边左乘XT,得由几何解释XT
e,故有XTe
=0,所以可以求出:这就是普通最小二乘法估计系数公式.第十七页,共36页。3.估计系数(xìshù)的性质高斯-马尔柯夫定理:在模型的基本假设(jiǎshè)下,所估计的参数值是最优的.即,满足最小方差(fānɡchà)性,线性的、无偏的,且有4.的方差及分布表示矩阵的对角线元素,简记cjj.(注:为向量)第十八页,共36页。所以(suǒyǐ),可以(kěyǐ)证明:(1)(2)5.干扰项方差的无偏(wúpiān)估计得到回归系数后,就可以得到Y的计算值如下:第十九页,共36页。从而(cóngér)有残差值ei向量(xiàngliàng)e由ei组成,称为(chēnɡwéi)残差平方和,记为Q.且为的无偏估计量。第二十页,共36页。R2称为判定系数,它反映了回归效果(xiàoguǒ)的好坏.其定义可以从线性回归的几何解释中引出.多元回归的几何解释的图形与一元回归的几何解释图形完全相同,只是(zhǐshì)横坐标x不再表示一个变量,而是表示k-1个变量.6.判定(pàndìng)系数R2判定系数R2的定义为:eyx式中,,其经济解释为第二十一页,共36页。已解释(jiěshì)变差占总变差的百分比.判定系数(xìshù)R2的另一种表达:7.回归效果(xiàoguǒ)的F检验检验回归效果的F统计量的定义式为:服从F(k-1,n-k)分布.F越大越好.当计算出的统计值f>f(k-1,n-k),就表示回归第二十二页,共36页。第三十四页,共36页。设Z=LnX,可将上式线性关系为:x3,···,xk如果随机干扰项u的均值(jūnzhí)为0,对上式求条件均值(jūnzhí),有一个二元线性回归(huíguī)的例子表示矩阵的对角线元素,简记cjj.本节要研究(yánjiū)一个被解释变量(因变量),多个解释变量(自变量)的线性模型,即05,则当t2时,有H1成立,即j显著异于0)判定系数R2的定义为:x3,···,xk判定系数R2的定义为:第二十五页,共36页。例如(lìrú):已知调整(tiáozhěng)后的R2=基本(jīběn)假设效果是好的,在水平下,已解释方差(fānɡchà)(Y的变化中已经解释的部分)明显大于未解释方差(fānɡchà)(Y的变化中尚未解释的部分).8.F与R2的关系(guānxì)F统计(tǒngjì)量与R2的统计(tǒngjì)量的关系,可以从下式的推演中看到:推演中用到勾股定理:。第二十三页,共36页。一个二元线性回归(huíguī)的例子销售额、人口数和年人均收入数据地区编号销售额(万元)y人口数(万人)x1年人均收入(元)x21234567891033.335.527.630.431.953.135.629.035.134.532.429.126.331.229.240.729.823.028.226.91250165014501310131015801490152016201570【例】一家百货公司在10个地区设有经销分公司。公司认为商品销售额与该地区的人口数和年人均收入有关,并希望建立它们之间的数量关系式,以预测销售额。有关数据如下表。试确定销售额对人口数和年人均收入的线性回归方程,并分析回归方程的拟合程度(chéngdù),对线性关系和回归系数进行显著性检验(=0.05)。第二十四页,共36页。一个二元线性回归的例子(lìzi)
(Excel输出的结果)第二十五页,共36页。一个二元线性回归(huíguī)的例子
(计算机输出结果解释)销售额与人口数和年人均收入的二元回归方程为多重判定系数R2=;调整(tiáozhěng)后的R2=回归方程的显著性检验F=52.3498F>F,回归方程显著回归系数的显著性检验t=9.3548>t,;t2=4.7962>t;两个回归系数均显著一个含有(hányǒu)四个变量的回归第二十六页,共36页。9.校正(jiàozhèng)的判定系数(AdjustedR2)统计量R2中不含有(hányǒu)自由度。所谓校正的判定系数,就是指“考虑了自由度的判定系数R2adj”。其定义如下:这样,R2adj剔除(tīchú)了自由度的影响。10.回归系数的T检验假设Ho:j=0;备择假设H1:j0(即Ho不成立).第二十七页,共36页。用统计(tǒngjì)量:服从t(n-k),可以(kěyǐ)完成上述假设检验.当时,H1成立(chénglì),即j显著异于0.(n5时,若取=0.05,则当t2时,有H1
成立,即j显著异于0)
针对回归系数的t统计量的显著性检验,决定了相应的变量能否作为解释变量进入回归方程.注意:第二十八页,共36页。11.回归系数的置信区间得到区间(qūjiān)为水平上的置信区间(qūjiān).例:=0.05,则给定(ɡěidìnɡ)一置信水平,用统计量即第二十九页,共36页。12.偏相关系数的另一种几何(jǐhé)解释定义:偏相关系数是在其他变量不变的情况下,任意(rènyì)两个变量之间的相关系数.例如(lìrú):已知偏相关系数表示排除X3,···,Xk影响后的Y和X2之间的相关关系,其计算过程如下:(1)求中心化数据y
对中心化数据x3,···,xk的OLS估计值:第三十页,共36页。要求出上式结果(jiēguǒ),需经两个步骤:a.用中心化数据(shùjù)y对中心化数据(shùjù)x3,···,xk回归,求出回归系数b.依托(yītuō)已经求出的回归系数和由样本得到的中心化数据,计算.(2)令(从
yi
中剔除x3,···,xk
的影响).(3)求x2对x3,···,xk的最小二乘估计值:要求出上式结果,同样需经两个步骤:先用x2对x3,···,xk第三十一页,共36页。回归(huíguī),求出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东外语外贸大学南国商学院《国际结算B》2023-2024学年第一学期期末试卷
- 广东食品药品职业学院《测试技术》2023-2024学年第一学期期末试卷
- 广东生态工程职业学院《资源环境统计分析》2023-2024学年第一学期期末试卷
- 二年级数学计算题专项练习
- 【2021届备考】2020全国名校数学试题分类解析汇编(12月第一期):E5简单的线性规划问题
- 2021年高考生物(人教版)一轮复习强化练习:生命活动的主要承担者-蛋白质
- 【名师一号】2021年新课标版历史选修2-单元测试2
- 2025年人教版七年级数学寒假预习 第07讲 实数及其简单计算
- 2021年高考语文考点总动员专题65-鉴赏文学作品的形象、语言和表达技巧之语言风格(解析版)
- 2021年高考语文二轮复习讲练测专题02-识记现代汉语字形(测)(解析版)
- 山东省烟台市2025届高三上学期期末学业水平诊断政治试卷(含答案)
- 2025北京石景山初二(上)期末数学真题试卷(含答案解析)
- 北师大版四年级下册数学课件第1课时 买文具
- 中考语文真题专题复习 小说阅读(第01期)(解析版)
- GB 45067-2024特种设备重大事故隐患判定准则
- 《陆上风电场工程概算定额》NBT 31010-2019
- 生物医学电子学智慧树知到期末考试答案章节答案2024年天津大学
- 幸福创业智慧树知到期末考试答案章节答案2024年山东大学
- 2023 版《中国近现代史纲要》 课后习题答案
- (沪教牛津版)深圳市小学1-6年级英语单词默写表(英文+中文+默写)
- 2023-2024学年湖北省数学三年级第一学期期末统考试题含答案
评论
0/150
提交评论