版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章一元线性回归模型
(教材第二、三章)第三章一元线性回归模型
(教材第二、三章)第三章一元线性回归模型3.1回归的涵义3.2随机扰动项的来源3.3参数的最小二乘估计3.4参数估计的性质3.5显著性检验3.6拟合优度3.7预测学习要点回归模型的涵义,参数的OLS估计及其性质,显著性检验第三章一元线性回归模型3.1回归的涵义3.1回归的涵义回归分析(regressionanalysis)用于研究一个变量(称为被解释变量或应变量)与另一个或多个变量(称为解释变量或自变量)之间的关系。Y代表被解释变量,X代表解释变量;解释变量有多个时,用X1,X2,X3等表示。 例:商品的需求量与该商品价格、消费者收入以及其他竞争性商品价格之间的关系。3.1回归的涵义回归分析(regressionanal总体回归函数(populationregressionfunction,PRF)例:学生的家庭收入与数学分数有怎样的关系?3.1回归的涵义总体回归函数(populationregressionf3.1回归的涵义总体回归函数(populationregressionfunction,PRF)根据上面数据做散点图3.1回归的涵义总体回归函数(populationre3.1回归的涵义总体回归函数(populationregressionfunction,PRF)上图中,圆圈点称为条件均值;条件均值的连线称为总体回归线。总体回归线表明了Y的均值与每个X的变动关系。上图近似线性的总体回归线可以表示成:表示给定的X值所对应的Y的均值;、称为参数(parameters),也称回归系数(regressioncoefficients);称为截距(intercept),称为斜率(slope)。斜率系数度量了X每变动一单位,Y(条件)均值的变化率。举例:,含义?3.1回归的涵义总体回归函数(populationre3.1回归的涵义样本回归函数(sampleregressionfunction,SRF)实际中往往无法获得整个总体的数据,怎么估计总体回归函数?即如何求参数B1、B2?通常,我们仅仅有来自总体的一个样本。我们的任务就是根据样本信息估计总体回归函数。怎么实现?3.1回归的涵义样本回归函数(sampleregres3.1回归的涵义样本回归函数(sampleregressionfunction,SRF)表2-2、2-3的数据都是从表2-1中随机抽取得到的。3.1回归的涵义样本回归函数(sampleregres3.1回归的涵义样本回归函数(sampleregressionfunction,SRF)通过散点得到两条“拟合”样本数据的样本回归线。3.1回归的涵义样本回归函数(sampleregres3.1回归的涵义样本回归函数(sampleregressionfunction,SRF)可用样本回归函数(SRF)表示样本回归线:其中,总体条件均值的估计量;并非所有样本数据都准确地落在样本回归线上,因此建立随机样本回归函数:其中,是的估计量,称为残差(residual)。表示了Y的实际值与样本回归估计值的差。
3.1回归的涵义样本回归函数(sampleregres3.1回归的涵义样本回归函数(sampleregressionfunction,SRF)回归分析:根据样本回归函数估计总体回归函数。3.1回归的涵义样本回归函数(sampleregres3.1回归的涵义“线性”回归的特殊含义对“线性”有两种解释:变量线性和参数线性。变量线性:例如前面的总体(或样本)回归函数;下面的函数不是变量线性的:参数线性:参数B1、B2仅以一次方的形式出现。下面的模型是参数非线性的:本书主要关注参数线性模型。从现在起,线性回归(linearregression)是指参数线性的回归,而解释变量并不一定是线性的。3.1回归的涵义“线性”回归的特殊含义3.2随机扰动项的来源总体回归函数说明在给定的家庭收入下,美国学生平均的数学分数。但对于某一个学生,他的数学分数可能与该平均水平有偏差。可以解释为,个人数学分数等于这一组的平均值加上或减去某个值。用数学公式表示为:其中,表示随机扰动项,简称扰动项。扰动项是一个随机变量,通常用概率分布来描述。3.2随机扰动项的来源总体回归函数说明在给定的家庭收入下3.2随机扰动项的来源对于回归模型称为被解释变量(explainedvariable)也称应变量或因变量(dependentvariable)称为解释变量(explanatoryvariable)也称自变量(independentvariable)称为参数(parameter)称为随机扰动项(randomerrorterm)3.2随机扰动项的来源3.2随机扰动项的来源上式如何解释?可以认为,在给定家庭收入水平上,第i个学生的数学分数可以表达为两部分之和:一是,即,是该收入水平上的平均数学分数。这一部分称为系统或确定性部分。二是,称为非系统或随机成本,由收入以外的因素决定。此时,称为随机总体回归函数(stochasticPRF)。3.2随机扰动项的来源3.2随机扰动项的来源
3.2随机扰动项的来源3.2随机扰动项的来源性质1:扰动项代表了未纳入模型变量的影响。例如个人健康状况、居住区域等等。性质2:反映了人类行为的内在随机性。即使模型中包括了决定数学分数的所有变量,其内在随机性也不可避免,这是做任何努力都无法解释的。性质3:还代表了度量误差,例如收入的数据可能不等于真实值。性质4:“奥卡姆剃刀原则”——即描述应该尽可能简单,只要不遗漏重要的信息,此时可以把影响Y的次要因素归入随机扰动项。3.2随机扰动项的来源3.3参数的最小二乘估计参数估计:普通最小二乘法(OLS)根据样本回归函数估计总体回归函数,要回答两个问题:如何估计PRF?如何验证估计的PRF是真实的PRF的一个“好”的估计值?这里先回答第一个问题。回归分析中使用最广泛的是普通最小二乘法(methodofordinaryleastsquares,OLS)3.3参数的最小二乘估计参数估计:普通最小二乘法(OLS3.3参数的最小二乘估计参数估计:普通最小二乘法(OLS)最小二乘原理:由于不能直接观察PRF:所以用SRF来估计它,因而最好的估计方法是,选择使得残差尽可能小。3.3参数的最小二乘估计参数估计:普通最小二乘法(OLS3.3参数的最小二乘估计参数估计:普通最小二乘法(OLS)普通最小二乘法就是要选择参数,使得残差平方和(residualsumofsquares,RSS)最小。即3.3参数的最小二乘估计参数估计:普通最小二乘法(OLS3.3参数的最小二乘估计参数估计:普通最小二乘法(OLS)如何确定的值?根据微积分,当
对的一阶偏导数为0时,Q达到最小。即3.3参数的最小二乘估计参数估计:普通最小二乘法(OLS3.3参数的最小二乘估计参数估计:普通最小二乘法(OLS)以上联立方程组称为正规方程组(normalequations)。求解,得注意:,即小写字母代表了变量与其均值的离差。上面给出的估计量称为OLS估计量(OLSestimator)。3.3参数的最小二乘估计参数估计:普通最小二乘法(OLS3.3参数的最小二乘估计参数估计:普通最小二乘法(OLS)OLS估计量的一些重要性质用OLS法得出的样本回归线经过样本均值点,即残差的均值总为0。对残差和解释变量的积求和,其值为零,即对残差与(估计的)的积求和,其值为零,即3.3参数的最小二乘估计参数估计:普通最小二乘法(OLS3.3参数的最小二乘估计例子:数学S.A.T分数3.3参数的最小二乘估计例子:数学S.A.T分数3.3参数的最小二乘估计例子:数学S.A.T分数根据公式可以得到回归结果:3.3参数的最小二乘估计例子:数学S.A.T分数3.3参数的最小二乘估计例子:数学S.A.T分数根据公式可以得到回归结果:对估计结果的解释:斜率系数0.0013表示在其他条件保持不变的情况下,家庭年收入每增加1美元,数学S.A.T.分数平均提高0.0013分截距432.4138表示,当家庭年收入为0时,数学平均分大约为432.4138。(这样的解释没有什么经济意义)对截距最好的解释是,它代表了回归模型中所有省略变量对Y的平均影响。3.3参数的最小二乘估计例子:数学S.A.T分数3.3参数的最小二乘估计例子:受教育年限与平均小时工资预期平均工资随受教育年限的增加而增加回归结果:3.3参数的最小二乘估计例子:受教育年限与平均小时工资3.3参数的最小二乘估计例子:股票价格与利率经济理论表明,股票价格和利率之间存在反向关系。3.3参数的最小二乘估计例子:股票价格与利率3.3参数的最小二乘估计例子:股票价格与利率看起来两个变量之间的关系不是线性的(即不是直线),因此,假设实际关系如下:回归结果为:作为比较,线性回归结果为:引发的一个重要问题:哪一个模型更好?如何进行判断?在模型选择中使用那些检验?后面将逐一回答。3.3参数的最小二乘估计例子:股票价格与利率3.4参数估计的性质古典线性回归模型(CLRM)的假定前面我们回答了“如何估计PRF”的问题——OLS。下面我们要回答“怎样判别它是真实PRF的一个好的估计”的问题。只有假定了随机扰动项u的生成过程,才能判定SRF对PRF拟合得是好是坏。OLS估计量的推导与随机扰动项的生成过程无关;但根据SRF进行假设检验时,就必须对随机扰动项的生成做一些特殊的假定,否则无法进行假设检验。下面仍然沿用一元线性回归模型来讨论。3.4参数估计的性质古典线性回归模型(CLRM)的假定3.4参数估计的性质古典线性回归模型(CLRM)的假定假定1.回归模型是参数线性的,但不一定是变量线性的。回归模型形式如下(可扩展到多个解释变量):假定2.解释变量与随机扰动项不相关。如果X是非随机的,该假定自动满足;即使X是随机的,如果样本容量足够大,也不会对分析产生严重影响。3.4参数估计的性质古典线性回归模型(CLRM)的假定3.4参数估计的性质古典线性回归模型(CLRM)的假定假定3.给定,扰动项的均值为零。即3.4参数估计的性质古典线性回归模型(CLRM)的假定3.4参数估计的性质古典线性回归模型(CLRM)的假定假定4.同方差(homoscedastic),即3.4参数估计的性质古典线性回归模型(CLRM)的假定3.4参数估计的性质古典线性回归模型(CLRM)的假定假定5.无自相关(noautocorrelation),即两个扰动项之间不相关:3.4参数估计的性质古典线性回归模型(CLRM)的假定3.4参数估计的性质古典线性回归模型(CLRM)的假定假定6.回归模型是正确设定的,即模型不存在设定偏差或设定误差。为什么需要以上6个假定?这些假定现实吗?如果不满足这些假定,情况又会怎样?如何得知是否满足所有这些假定?这些重要的问题暂时没有答案,事实上,教材“第二部分”都是围绕“如果假定不满足时会怎样”而展开的。3.4参数估计的性质古典线性回归模型(CLRM)的假定3.4参数估计的性质OLS估计量的方差与标准差有了上述假定后可以计算出估计量的方差和标准差。OLS估计量是随机变量,因为其值随样本的不同而变化,这些估计量的抽样变异性通常由估计量的方差或其标准差来度量。
OLS估计量的方差(variance)及标准差(standarderror):怎么估计?3.4参数估计的性质OLS估计量的方差与标准差3.4参数估计的性质OLS估计量的方差与标准差根据下式估计:(n-2)称为自由度。在一元线性回归模型中有两个参数,在计算这两个未知参数时,失去了两个自由度。因此,虽然有n个观察值,但自由度仅为(n-2)。顺便指出,称为回归标准差(standarderroroftheregression,SER)。3.4参数估计的性质OLS估计量的方差与标准差3.4参数估计的性质OLS估计量的方差与标准差:数学S.A.T一例(教材有误)3.4参数估计的性质OLS估计量的方差与标准差:数学S.3.4参数估计的性质估计结果的报告估计的数学SAT函数如下(括号内数字为标准差):OLS估计量的性质可以概括为高斯-马尔柯夫定理(Gauss-Markovtheorem):如果满足古典线性回归模型的基本假定,则在所有线性估计两种,OLS估计量具有最小方差性,即OLS估计是最优线性无偏估计量(BLUE)。具体见教材PP46。3.4参数估计的性质估计结果的报告3.5显著性检验OLS估计量的抽样分布或概率分布知道如何计算OLS估计量及其标准差仍然不够,必须求出其抽样分布才能进行假设检验。为了推导抽样分布,再增加一条假定。假定7.
在总体回归函数中,扰动项服从均值为0,方差为的正态分布。即为什么可以作这样一个假定?3.5显著性检验OLS估计量的抽样分布或概率分布3.5显著性检验OLS估计量的抽样分布或概率分布
可以证明,是的线性函数,根据“正态变量的线性函数仍服从正态分布”,得知服从正态分布。中心极限定理:随着样本量的增加,独立同分布随机变量构造的统计量近似服从正态分布。3.5显著性检验OLS估计量的抽样分布或概率分布3.5显著性检验OLS估计量的抽样分布或概率分布
3.5显著性检验OLS估计量的抽样分布或概率分布3.5显著性检验假设检验假定:家庭年收入对学生的数学成绩没有影响数值结果表明:。因此,零假设不成立?不能仅看数值结果,抽样波动性会导致数值结果因样本变化而不同需要进行假设检验。怎么进行?前面指出:当我们知道估计量的抽样分布后,假设检验将不成问题。讨论以下两种方法:(1)置信区间法(2)显著性检验法3.5显著性检验假设检验3.5显著性检验假设检验
能否使用上式进行假设检验?问题在哪里?问题在于真实的是未知的!可以用来估计它,则有:3.5显著性检验假设检验3.5显著性检验假设检验:置信区间法
在数学S.A.T一例中,共有10个观察值,因此自由度为(10-2)=8。假定,显著性水平或犯第一类错误(弃真)的概率为5%,于是有即3.5显著性检验假设检验:置信区间法3.5显著性检验假设检验:置信区间法整理或上式给出了的一个95%的置信区间:重复上述过程,100个这样的区间中将有95个包括真实的。代入,得区间不包括0,所以拒绝零假设:家庭年收入对数学S.A.T没有影响。3.5显著性检验假设检验:置信区间法3.5显著性检验假设检验:置信区间法图形(教材
有误)
0.000740.001873.5显著性检验假设检验:置信区间法3.5显著性检验假设检验:置信区间法按照上述过程,同样可得截距95%的置信区间:如果,则显然拒绝零假设,因为上述95%的置信区间不包括0。如果,则不能拒绝该假设,因为95%的置信区间包括了这个值。3.5显著性检验假设检验:置信区间法3.5显著性检验假设检验:显著性检验法核心思想是根据从样本数据求得的检验统计量的值决定接受或拒绝零假设。前面曾介绍如果令,其中,是的某个给定数值(例如,),则根据样本数据很容易求得可用计算出的t值作为检验统计量,它服从自由度为(n-2)的t分布。相应的检验过程称为t检验。3.5显著性检验假设检验:显著性检验法3.5显著性检验假设检验:显著性检验法在具体进行t检验时(1)对于一元线性回归模型(双变量模型),自由度为(n-2)。(2)常用的显著水平有1%、5%或10%。为了避免选择显著水平的随意性,通常求出p值(精确的显著水平),如果计算的p值充分小,则拒绝零假设。(3)可用单边或双边检验。3.5显著性检验假设检验:显著性检验法3.5显著性检验假设检验:显著性检验法先看双边检验(two-tailedtest)假设,有自由度为8时,t的(双边)临界值如果计算得到的超过临界值,则拒绝零假设。显著水平临界值t0.013.3550.052.3060.101.8603.5显著性检验假设检验:显著性检验法显著水平临界值t03.5显著性检验假设检验:显著性检验法
本例t=5.4354,拒绝零假设。相伴概率p约为0.0006,说明如果拒绝零假设,犯错的概率只有万分之六。3.5显著性检验假设检验:显著性检验法3.5显著性检验假设检验:显著性检验法再看单边检验(one-tailedtest)由于预期家庭收入对数学成绩的影响是正向的,因此假设(备择假设是单边的)。此时犯第一类错误的概率不是均等分布在t分布的两侧,而是集中于一侧。左侧还是右侧?自由度为8时,临界
t值(右侧)为:结论:拒绝零假设!显著水平临界值t0.012.8960.051.8600.101.3973.5显著性检验假设检验:显著性检验法显著水平临界值t03.5显著性检验假设检验:显著性检验法单边t检验:3.5显著性检验假设检验:显著性检验法3.6拟合优度拟合回归直线的优度:判定系数r2t检验表明样本回归函数很好地拟合了样本数据。但并非每一个Y值都准确地落在了估计的PRF上。能否建立一个“拟合优度”的判定规则,从而辨别估计的回归线拟合真实的Y值的优劣程度?判定系数r2(coefficientofdetermination)前面讲到,作恒等变化,得由X变异所解释的部分未解释部分或残差的变异Yi的变异3.6拟合优度拟合回归直线的优度:判定系数r2由X变异所3.6拟合优度拟合回归直线的优度:判定系数r2
小写字母表示与均值的离差,得或写为两边同时平方再求和,得由X变异所解释的部分未解释部分或残差的变异Yi的变异3.6拟合优度拟合回归直线的优度:判定系数r2由X变异所3.6拟合优度拟合回归直线的优度:判定系数r2
上式出现的各种平方和定义如下:(totalsumofsquares,TSS),真实Y值围绕其均值的总变异。(explainedsumofsquares,ESS),估计的Y值围绕其均值的变异,也称回归平方和(由解释变量解释的部分)。(residualsumofsquares,RSS),即Y变异未被解释的部分。于是上式可以简化为:3.6拟合优度拟合回归直线的优度:判定系数r23.6拟合优度拟合回归直线的优度:判定系数r2表明Y与其均值的总离差可分解为两部分:一部分归于回归线,另一部分归于随机因素。3.6拟合优度拟合回归直线的优度:判定系数r23.6拟合优度拟合回归直线的优度:判定系数r2对于,一般的情形是:ESS和RSS均不为零,如果ESS远大于RSS,则SRF在很大程度上解释了Y的变异;如果RSS远大于ESS,则SRF只能部分解释Y的变异。如何量化“拟合优度”?两边同时除以TSS,得:定义,称为判定系数。度量回归线的拟合优度,或者说度量了回归模型对Y变异的解释比例。3.6拟合优度拟合回归直线的优度:判定系数r23.6拟合优度拟合回归直线的优度:判定系数r2计算公式:数学S
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 卫生院公共卫生工作参考计划范文5篇
- 2025年个人三支队伍学习心得体会例文(三篇)
- 二零二五版钢构工程安装与绿色施工管理合同2篇
- 二零二五版路灯安装与照明效果评估合同4篇
- 二零二五版担保业务风险控制协议书范例3篇
- 2025年度文化演出经纪合同补充协议4篇
- 烟囱施工工程设计与2025年度施工合同
- 2025年度全铝门窗定制安装服务合同4篇
- 二零二五版文化创意产品设计与制作合同3篇
- 惠州2025年法务专员招聘与合同管理优化合同3篇
- 完整版秸秆炭化成型综合利用项目可行性研究报告
- 油气行业人才需求预测-洞察分析
- 《数据采集技术》课件-Scrapy 框架的基本操作
- 2025年河北省单招语文模拟测试二(原卷版)
- 高一化学《活泼的金属单质-钠》分层练习含答案解析
- DB34∕T 4010-2021 水利工程外观质量评定规程
- 2024老年人静脉血栓栓塞症防治中国专家共识(完整版)
- 四年级上册脱式计算100题及答案
- 上海市12校2023-2024学年高考生物一模试卷含解析
- 储能电站火灾应急预案演练
- 人教版(新插图)二年级下册数学 第4课时用“进一法”和“去尾法”解决简单的实际问题 教学课件
评论
0/150
提交评论