[研究生入学考试]02一元线性回归分析.ppt_第1页
[研究生入学考试]02一元线性回归分析.ppt_第2页
[研究生入学考试]02一元线性回归分析.ppt_第3页
[研究生入学考试]02一元线性回归分析.ppt_第4页
[研究生入学考试]02一元线性回归分析.ppt_第5页
已阅读5页,还剩146页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,Econometrics 计量经济学 攸频 南开大学经济学院数量经济研究所,2,第1章 Review,什么是计量经济学? 计量经济学的研究内容和目的是什么? 计量经济学一般建模过程是什么? 为什么要养成画散点图的习惯? 模型的检验包括几个方面?,3,计量经济学(Econometrics)是用定量的方法研究经济活动规律及其应用的科学。是经济学与统计学、数学相结合的交叉学科。,1.1.1 计量经济学的定义,4,1.2 计量经济学的研究内容和目的,1定量描述与分析经济活动 2. 做经济预测,5,1.3 计量经济学的建模步骤,6,7,根据数据结构模式,初步确定模型形式: 线性 or 非线性? 是否存在结构变化? 是否存在异常值,什么原因? 如为时间序列,存在季节性吗? 可能存在异方差吗?,画散点图的重要性,8,1.经济意义检验:根据拟定的符号、大小、关系。 2.统计检验:由数理统计理论决定。 3.计量经济学检验:由计量经济学理论决定。 4.预测检验:由模型的应用要求决定。,模型的检验,异方差性检验 序列相关性检验 共线性检验,稳定性检验:扩大样本重新估计 预测性能检验:对样本外一点进行实际预测,拟合优度检验(R2检验) 变量的显著性检验(t 检验) 方程的显著性检验(F 检验),9,对整个回归 方程的检验,对各回归 系数的检验,显著性检验,从基本假设角度检验 OLS的适用性及其改进,计量经济检验,线性回归模型的检验,统计检验,从统计学的角度检验样本 回归函数估计量的有效性,拟合优度 检验,异方差,多 重 共 线 性,随机解释变量,自相关,10,时间序列分析,单方程回归分析,一元回归、多元回归、 非线性模型的线性化,违背古典假定条件的计量经济学问题,联立方程分析,时间 序列 模型,非经典 计量 经济学,初级计量经济学,本课程的内容体系,11,?,Y,X,Height,Weight,第二章 一元线性回归模型,12,第三章 多元线性回归模型,Y = 0 + 1 X1 + 2 X2 + 3 X3 +u,13,第四章 非线性回归模型的线性化,对数函数模型,多项式函数模型,生长曲线模型,幂函数模型,14,第五章 异方差,X,Y,概率密度,X:收入 Y:储蓄或消费支出,15,第六章 自相关,a. 正相关序列 b. 正相关,c. 负相关序列 d. 负相关,e. 非自相关序列 f 非自相关,16,第七章 多重共线性,17,第八章 特殊解释变量,1. 随机解释变量 2. 滞后变量 3. 虚拟变量,18,教学基本要求,了解线性单方程计量经济学模型的基本理论与方法;掌握普通最小二乘估计(OLS)有关的参数估计过程和结论。 掌握关于线性单方程计量经济学模型的基本假设,了解各类违背基本假设的模型的经济背景;掌握各类违背基本假设的计量经济学模型的主要检验方法和主要克服方法,了解它们的基本原理。 学完本阶段,要用所学知识独立完成一个综合练习。,19,第二章 一元线性回归模型,2.1 模型的建立及古典假定 2.2 最小二乘估计(OLS) 2.3 OLS的统计性质 2.4 回归方程的拟合优度检验 2.5 回归系数估计值的显著性检验与置信区间 2.6 预测 2.7 案例分析,20,2.1 模型的建立及古典假定,2.1.1 回归分析的性质 2.1.2 一元线性回归模型的建立,21,1. 回归分析的定义 2. 相关分析 3. 回归分析与相关分析的区别,2.1.1 回归分析的性质,22,1. 回归分析的定义,回归分析研究一个变量关于另一个或多个变量的依赖关系,主要是从已知的或者确定的解释变量的值(x1,x2,xk)来估计或预测被解释变量(y)的总体均值。,y 被解释变量(Explained Variable) 因变量(Dependent Variable),x 被解释变量(Explanatory Variable) 自变量(Independent Variable),23,(F.Galton , 1822-1911),“回归” 的由来,英国生物统计学家 FGalton 首次提出“回归”。 父辈身高(x) 子辈身高(y),遗传的身高向平均数方向的回归(1855 年),yi = f(xi)+ui 或 E (yi | xi)=f (xi),24,2. 相关分析,(1) 变量之间是否存在关系? (2)如果存在,它们之间是什么样的关系? (3)变量之间的关系强度如何? (4)相关分析有何局限性?,25,相关分析,一些人相信他们手掌生命线的 长度可以用来预测他们的寿命。 M.E. Wilson和L.E. Mather在 美国医学协会学报上发表的一封信 中,通过对尸体的研究对此给予了驳斥。 死亡时的年龄与手掌生命线的长度被一 起记录下来。作者得出死亡时的年龄与 生命线的长度不存在显著相关的结论。 手相术失传了,手也就放得下了。,看手相:,26,(1)变量间是什么样的关系?,(a)函数关系 (b) 相关关系,27,(2)用散点图描述相关关系,28,(3) 相关系数,相关系数:度量变量之间线性关系强度的一个统计量。 总体相关系数用 表示,计算公式为:,29,30,相关系数的性质,性质1:r 的取值范围是 -1,1 | r | =1,为完全相关 r = 0,不存在线性相关关系 -1 r 0,为负相关 0 r 1,为正相关 | r | 越趋于1表示关系越强;| r | 越趋于0表示关系越弱 性质2:仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意为着,r = 0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系。 性质3:r 虽然是两个变量之间线性关系的一个度量,却不一定意味着 x 与 y一定有因果关系。,31,32,注意:相关性易受异常值影响,y,x,r =0.95,r =0.70,33,判断对错,如果(Xi ,Yi )的相关系数 r为正值,判断下列陈述对错: (1) (-Xi ,-Yi )之间的相关系数也是正的。 (2) (-Xi ,Yi )之间以及(Xi ,-Yi )的相关系数可正可负。 (3) Cov ( Xi , Yi )的取值范围为-1, 1 (4)如果r =0,意味着两个变量之间没有任何关系。,34,(4)相关系数的局限性,相关系数的计算是一个数学过程,但不能揭示变量间关系的实质。 一般说二变量相关时,可能属于如下一种关系。 单向因果关系 双向因果关系 另有隐含因素影响二变量变化: 虚假相关,35,回归分析是在相关分析和因果关系分析的基础上,去研究解释变量对被解释变量的影响。 从对变量的处理看: 相关分析对称地处理变量,X和Y都为随机变量,不考虑因果关系; 回归分析对变量的处理是不对称的:假定Y是非随机的,X是随机变量,需要考虑因果关系。,3. 回归分析与相关分析的区别,36,计量经济学成绩与统计学成绩 家庭收入与恩格尔系数 计算机销量与电视机销量 被访者初婚年龄与当前的收入水平 葡萄酒的质量和品酒师的评分值 中国羊肉消费量和牙买加短跑成绩,虚假相关,思考如下变量之间的关系,37,2.1.2 一元线性回归模型的建立,1. 一元线性回归模型的定义 2. 随机误差项的来源 3. 回归分析的主要目的,38,如下数据发表在1984年3月1日的华尔街日报上。它将1983年21家企业的广告预算(以百万美元计)与阅读者每周对其保留的印象次数(以百万次计)相联系。这些数据基于对4000个读者的调查。 你认为这两个变量之间的关系具有什么样的性质? 你认为值得做广告吗?,案例1:广告支出的影响,39,印象次数与广告支出的调查数据,如何设定模型?,40,案例2:凯恩斯消费函数模型,凯恩斯绝对收入假设消费理论: 消费(C)是由收入(Y)唯一决定的,是收入的线性函数:C = + Y 。 但实际中上述等式不能准确实现: (1)消费除受收入影响外,还受其他因素的影响; (2)线性关系只是一个近似描述; (3)收入的观测值是近似的,其本身并不绝对准确地反映收入水平。,41,因此,一个更符合实际的数学描述为: C = + Y+ 其中: 是一个随机误差项,代表其他随机因素的影响。 线性回归模型的特征: 通过引入随机误差项,将变量之间的关系用一个线性随机方程来描述,并用随机数学的方法来估计方程中的参数; 在线性回归模型中,被解释变量的特征由解释变量与随机误差项共同决定。,42,1. 一元线性回归模型的定义,Yt = 0 + 1 Xt + ut 其中:Yt 被解释变量 Xt解释变量 ut随机误差项 0常数项(截距项) 1回归系数。 0和1又统称为模型参数(回归参数)。 Xt是影响Yt变化的重要解释变量,回归参数0和1具体描述这种关系,0和1通常是未知的,需要估计。 ut包括除Xt以外的影响Yt变化的众多微小因素,其变化是不可控的。 模型可分为两部分: (1)0 +1Xt 是非随机部分;(2) ut是随机部分。,E(yt) = 0 + 1 xt,ut,(第3版教材第7页),43,2. 设定随机误差项ut的原因,(1)在解释变量中被忽略的因素的影响。 (2)存在观测误差。 (3)人的随机行为。,(第3版教材第7页),44,根据样本回归函数SRF,去估计总体回归函数PRF。 如果 是 的良好的估计,就可用样本函数代替总体函数, 研究Y与X之间的关系及变化规律。,3.回归分析的主要目的,回归分析的主要任务是采用适当的方法,充分利用样本信息,使估计的样本函数尽可能地接近于真实总体回归函数。需要对解释变量和随机项作出假设。,45,总体回归函数,假设一个总体有60个家庭构成,其周收入(X)和周消费(Y)支出数据如下表。,表1.1 周家庭收入与消费支出(美元),46,样本回归函数,47,注意:准确区分4个式子的关系,48,2.1.3 古典假定条件,49,古典线性回归模型(CLRM)的基本假定: Yi=0+1Xi+ui (i=1,2, ,n) (1)随机误差项具有均值: E(ui)=0 (2)随机误差项具有同方差: Var (ui)=2 (3)随机误差项在不同样本点之间是独立的,不存在序列相关: Cov(ui, uj)=0 ij i , j = 1,2, ,n (4)随机误差项与解释变量之间不相关: Cov(Xi, ui)=0 (5)随机误差项服从均值、同方差的正态分布: uiN(0, 2 ),2.1.3 古典假定条件,(第3版教材第9页),50,(1) 随机误差项具有零均值:E(i)=0,表明:平均地看,随机误差项有互相抵消的趋势。,(2) 随机误差项具有同方差:Var(i)=2,表明:对每个Xi,随机误差项i的方差等于一个常数2。即Y取不同值时, i相对各自均值(零均值)的分散程度是相同的。Yi具有与i相同的方差。Yi可能取值的分散程度也是相同的。,51,Cov(i, j)=0,(3) 随机误差项在不同样本点之间是独立的,不存在序列相关。,无自相关假定表明:产生误差(干扰)的因素是完全随机的,此次干扰与彼次干扰互不相关,互相独立。由此应变量Yi的序列值之间也互不相关。,因为i与j相互独立,有:,52,Cov(Xi, i)=0,(4)随机误差项与解释变量之间不相关,Xi与i相互独立,互不相关,即随机误差项i和解释变量Xi是各自独立对应变量Yi产生影响。事实上,在回归分析中, Xi在重复抽样(观测)中固定取值,是确定性变量,该假定自动满足。,(5)随机误差项服从正态分布 (在对回归参数进行统计检验时,须作此假定;并结合假定1、2),iN(0, 2),随机误差项i正态分布的假定对模型的统计检验是很重要的。如果认为每一个误差很小且相互独立,则正态分布的假定就是合理的。研究表明:如果一个随机变量受到大量微小的、相互独立的随机因素的影响,则这个随机变量就服从正态分布。如果误差项i服从正态分布,则Yi也服从正态分布(因Xi在重复抽样中是常数)。,yt N (0+1xt , ),53,重要提示,几乎没有哪个实际问题能够同时满足所有基本假设; 通过模型理论方法的发展,可以克服违背基本假设带来的问题; 违背基本假设问题的处理构成了单方程线性计量经济学理论方法的主要内容: 异方差问题(违背同方差假设) 序列相关问题(违背序列不相关假设) 共线性问题(违背解释变量不相关假设) 随机解释变量(违背解释变量确定性假设),54,2.2 一元线性回归模型的参数估计,2.2.1 普通最小二乘法 2.2.2 随机误差项及相关的一些分布,Yt = 0 + 1 Xt + ut 我们如何决定 0 和 1 ? 选择能够最接近这些点的拟合直线。,56,1. 确定回归直线的方法 2. 普通最小二乘法 3. OLS回归直线的性质,2.2.1普通最小二乘法 (Ordinary Least Square, OLS),57,x,y,(Xn , Yn),(X1 , Y1),(X2 , Y2),(Xi , Yi),通过这些样本点,可以得到很多条拟合直线,但是最佳的只有一条。从上图可以看出拟合残差(Residual):,58,用“残差和最小”确定直线位置 即, 达到最小。由于出现正负抵消,所以不能保证所求拟合直线为最佳。 用“残差绝对值和最小”确定直线位置 即, 达到最小。消除了正负抵消的缺陷,但绝对值在数学处理上带来了不方便。 以“残差平方和最小”确定直线位置 即, 达到最小。既消除了正负抵消的影响,同时数学处理上是方便的,得到的估计量还具有优良特性。,1. 确定回归直线的方法,59,谁提出的OLS估计方法?,(C F Gauss, 1777-1855),C F Gauss 1809年提出OLS估计方法。,60,解此方程组便得到参数估计值:,从而得到样本回归方程:,(OLS回归线的性质),2. 普通最小二乘法(OLS),(第3版教材第11页),61,例题2.1 人均鲜蛋需求量Y与人均可支配收入X关系,OLS估计结果:,(第3版教材第15页),(file: li-2-1),Yt:千克 Xt:元,62,3. OLS回归直线的性质,(1) 残差之和为0:ei=0 (2) 残差与解释变量不相关: Cov(Xi , ei)=0 (3) 样本回归线通过Y和X的样本均值 (4) Y估计值的均值等于观测值的均值,(第3版教材第13页),63,3. OLS回归直线的性质(证明过程),64,区分估计量和估计值,估计量是系数的估计量(随机变量)。 估计值是估计量的计算值。,65,关于截距项估计值,如果观测值离y轴较远,要注意截距项估计值的准确性。,66,思考,自己推导离差形式(原点变换)的OLS估计结果 过原点的回归(regression through the origin) 考虑截距为零的一元线性回归模型的参数估计。 只有在充分理论保证下才能使用零截距模型,比如奥肯定律或其他经济和金融理论。,(第3版教材第13页),(第3版教材第14页),67,(第3版教材第14页),68,一、 的估计量 二、 yt 的分布 三、 的分布,2.2.2 随机误差项及相关的一些分布,69,Y,X2,例:每月家庭收入与消费支出调查的数据(单位:元)如下,试建立回归模型。,70,模型参数估计值及其标准差的计算如下:,71,例题2.1 人均鲜蛋需求量Y与人均可支配收入X关系,估计结果:,(第3版教材第29页),(file: li-2-1),72,一、 的估计量,根据已有的样本信息可以求得 的一个无偏估计量为: 可用来考察观测值对回归直线的离散程度。 其平方根 为Y对估计的回归线的标准误差,也称为回归方程的精度。,(第3版教材第28页),73,二、yt 的分布,对于一元线性回归模型:yt=0+1xt+ut 根据假定条件ut N (0, u ) E(yt) = E(0+1xt+ut) =0+1xt+E(ut) = 0+1xt Var(yt)=Var(0+1xt+ut) =Var(0+1xt) +Var(ut) =u yt是ut的线性函数,所以 yt N (0+1xt , u ),74,三、 的分布,由线性性: 可得(证明略):,(第3版教材第18-21页:公式:2.29、2.33、2.37),75,两个系数的标准误差都包含随机误差项方差的估计量s2。 s2越大,则误差项关于均值的离散程度就越大,从而y关于其均值的离散程度就越大。 两个系数的标准误差都包含X的离差平方和x2。 x2越大,这两个系数的方差(标准误差)越小。 样本容量 n 越大,这两个系数的标准误差越小。 包含X2 , X2测度散点距离y轴的远近。,对系数的标准误差估计量的一些总结,76,思考:影响回归系数方差的因素有哪些?,77,课堂习题,对于计量经济学模型Y=0+1X+u,其OLS估计量参数的特性在下列情况下会受到什么影响? (1)观测值数目n增加; (2)X各观测值差额增加; (3)X各观测值近似相等。,78,基本概念,总体回归函数 总体回归模型 样本回归函数 样本回归模型 随机误差项和残差项 条件期望 回归系数或回归参数 回归系数的估计量 最小二乘法,79,2.3 最小二乘估计量的统计性质,高斯马尔可夫定理 (Gauss-Markov theorem) 如果经典线性回归的假定(1-4)成立,则最小二乘估计量是具有最小方差的线性无偏估计量。,80,1. 线性性(Linearity) 参数估计量 是Y的线性函数,故为随机变量。,(第3版教材第18页),81,2. 无偏性(Unbiasedness) 参数估计量的均值等于总体回归参数真值:,(第3版教材第18页),82,3. 有效性(Efficiency) 在所有线性无偏估计量中,最小二乘估计量具有最小方差。,在无偏性及有效性的证明过程中,用到基本假定14。证明过程略。,(第3版教材第19页),83,4. 一致性(Consistentcy) 随着样本容量无限的增大,估计量将收敛到它们的真值。,84,普通最小二乘估计量具有线性性、无偏性、最小方差性等优良性质。具有这些优良性质的估计量又称为最佳线性无偏估计量,即BLUE估计量(the Best Linear Unbiased Estimators)。,结 论,(第3版教材第23页),85,经济解释,基本含义: X增加1个单位,Y将平均增加 个单位,86,家庭可支配收入与消费的例子,其中,X表示月收入(样本范围为800到2600元),Y表示月消费,单位:元。 斜率项 0.51:X每增加1元,平均每月消费估计增加0.51元。 截距项 244.5:X样本中不含X=0的点,所以截距项没有什么意义,通常不用解释它。若要解释,需借助经济学常识。,87,咖啡的例子,其中,X表示咖啡价格(单位:美元),Y表示每日咖啡的消费(单位:杯)。 斜率项 0.4795:咖啡价格每上涨1美元,每日平均咖啡消费可望减少约半杯。 截距项 2.6911:即使咖啡价格降到0,则平均每人咖啡消费可望达到每日2.6911杯。而人们不会毫无节制饮用咖啡。,88,X增加1%,Y将平均增加 %。,经济解释,取对数以后的解释,89,在解释时,要考虑计量单位,经济解释,90,第一次作业,91,一、问答题,作业1.1 建立如下的一元线性回归模型: 模型1: Yt = 0 + 1 Xt + ut 模型2: Yt = a0 + a1 xt + ut (其中x为离差形式) (a)求1和a1估计量,它们是否相同?它们的方差是否相同? (b)求0和a0估计量,它们是否相同?它们的方差是否相同?,作业1.2 对于Yt = 0 + 1 Xt + ut,回答下列问题,并说明原因。 (a)如果我们用2去乘每个X值,会不会改变Y的残差及其拟合值? (b)如果我们用每个X值都加上一个常数2,会不会改变Y的残差及其拟合值?,92,作业1.1,93,作业1.2,94,二、证明题,作业1.3 证明,相关系数的另一个表达式是:r = 。 其中, 为一元线性回归模型的估计值,Sx和Sy分别为X和Y的样本标准差。 作业1.4 令 和 分别为Y对X回归和X对Y回归中的斜率,证明: 。其中,r为X和Y之间的线性相关系数。 作业1.5 证明相关系数对于尺度和原点的改变具有不变性: 令r1为(Xi ,Yi )的相关系数, r2为(aXi +b , cYi +d )的相关系数,证明r1=r2,95,作业1.5,96,重要结论,回归的斜率系数与原点的变化无关(作业1.1)。 回归的斜率系数与尺度的变化有关(上机练习1.12) 相关系数的另一个表达式是:r = (作业1.3) 相关系数对于尺度和原点的改变具有不变性(作业1.5)。 斜率系数对应的 t 值对尺度和原点的改变具有不变性。,97,思考,思考OLS估计原理。 (1)为什么OLS估计考虑的是观测值点到回归线的垂直偏差,而不是水平偏差? (2)OLS的估计原则为什么采用残差平方和最小,而非残差和最小或者残差的绝对值最小? 2. PRF与SRF的区别是什么?回归分析的任务是什么? 3. 5个经典假定条件有何用处?,98,自由落体运动规律: 公式: h=1/2 g*t2 重力加速度常数 g=9.80665米/秒2 公式是怎样产生的?,h,案例:牛顿的自由落体运动,99,牛顿的自由落体运动实验,多次重复实验,测量计录每 次下落的高度与时间数据: 采用什么方法找规律呢? 回归分析 y = a+b*x h 1/2 g t2,h,牛顿发现定律方法的探究,100,h 。 。 。 。 。 。 。 。 。 0 1 2 3 4 t 散 点 图,101,案例 刻卜勒(J. Kepler)行星运行第三定律,刻卜勒(Johannes Kepler, 1571-1630),102,103,用回归分析验证第三定律 (file:6kepler3),log(T) = 1.5 log(D) + (4492) R2 = 0.999999, N = 9 log(T) = (3/2) log(D) 2 log(T) = 3 log(D) log(T2) = log(D3) T 2 = D 3,104,案例分析,如何预测奥运会金牌数?,经济学预测的各国伦敦奥运会金牌数,105,如何预测东道主国奥运会金牌数?,106,107,如何预测东道主国下一届的奥运会金牌数?,108,109,110,111,112,对整个回归 方程的检验,对各回归 系数的检验,显著性检验,从基本假设角度检验 OLS的适用性及其改进,计量经济检验,线性回归模型的检验,统计检验,从统计学的角度检验样本 回归函数估计量的有效性,拟合优度 检验,异方差,多 重 共 线 性,随机解释变量,自相关,113,一元线性回归模型的统计检验 由统计理论决定的,目的在于检验模型的统计学性质。模型的参数是用变量的观测值估计得到的,为了检验参数估计值是否是抽样的偶然结果,需要运用数理统计中的统计推断方法,对模型及参数的统计可靠性作出说明。 统计检验包括: (1) 拟合优度检验(R2检验) ,用来检验样本回归函数与样本点的拟合程度。 (2) 参数估计值的检验,包括变量的显著性检验(t 检验)、方程的显著性检验(F检验)等,用来检验回归函数与总体回归函数的“接近”程度。,114,2.4 回归方程的拟合优度检验 (Testing the Simulation Level),2.4.1 拟合优度检验的概念 2.4.2 总离差平方和的分解 2.4.3 样本可决系数 2.4.4 样本相关系数与可决系数的关系,115,2.4.1 拟合优度检验的概念,检验模型对样本观测值的拟合程度。 通过构造一个可以表征拟合程度的统计量来实现。 拟合优度检验是通过对Yt的样本点距其样本均值的离差平方和的分解来进行的。,116,2.4.2 总离差平方和的分解,(第3版教材第23页),117,残差平方和,回归平方和,总离差平方和,118,1. 总离差平方和,2. 回归平方和,3. 残差平方和,回归平方和 RSS,残差平方和 ESS,来自样本回归线,来自残差,总离差 平方和 TSS,回归线上的点与样本均值离差的平方和,实际观测点与回归线上的点的离差的平方和,反映因变量的 n 个观察值与其均值的总误差。,反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和。,反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和。,119,2.4.3 样本可决系数 (coefficient of determination),回归平方和占总离差平方和的比例,对于一组数据,TSS是不变的,所以RSS(),ESS()。 反映回归直线的拟合程度,取值范围在 0 , 1 之间 4. R2 1,说明回归方程拟合的越好; R20,说明拟合的越差。 5. 可决系数平方根等于相关系数。,RSS:旧指回归平方和(Regression Sum of Squares), 现指残差平方和(Sum of Squared Residuals) ESS:旧指残差平方和(Error Sum of Squares (sum of squared errors)), 现指回归平方和(Explained Sum of Squares),(第3版教材第25页),120,121,例题2.1 人均鲜蛋需求量Y与人均可支配收入X关系,可决系数:,(file: li-2-1),122,2.4.4 样本相关系数与可决系数的关系,从数值上看: 取值范围:0 R2 1,-1 r 1 。 可决系数说明变量值的总离差平方和可以用回归线来解释的比例;相关系数只说明两变量间关联程度及方向; 相关系数仅考察两个变量的相关程度(对等),而不考虑因果关系;而样本决定系数则考察的是因果关系,即由X可以解释多少Y。,123,2.5 回归系数估计值的显著性检验与置信区间,2.5.1 回归参数估计值的显著性检验 2.5.2 回归参数的置信区间,124,根据样本信息判断总体分布是否具有指定特征,这个过程叫假设检验。即先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立。假设检验在统计模型的显著性检验中具有重要意义。 逻辑上运用反证法:即先假定假设成立,然后依据某种判别准则看能得出什么样的结果。如果得出合理结果,自然认为假设成立;如果得出不合理结果,则认为假设不成立。 统计上依据小概率原理:在一次试验中,小概率事件是几乎不可能发生。在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设。,假设检验的原理,125,假设检验步骤流程图,126,设XN(0, 1) , Y2(n) ,且X 和Y 相互独立,则随机变量 t 分布是对称分布,均值为0,取值范围-,+。 样本容量大于或等于30时, t 分布接近于标准正态分布。 t 分布是一个分布族,不同的样本容量对应不同的 t 分布。 与标准正态分布相比, t分布的分散程度较大。,t 分布,E(t)=0; D(t)=n/(n-2),0,127,t 分布图,不同的样本容量对应不同的自由度,因此对应的 t 分布也不同。 所谓“自由度”就是指可以自由取值的数据的个数,或者指不受任何约束、可以自由变动的变量的个数。,128,t 分布和正态分布之比较,t 分布的极限分布是正态分布t()=N(0,1)。 例: 显著性水平 N(0,1) t(40) t(4) 50% 0 0 0 5% 1.64 1.68 2.13 2.5% 1.96 2.02 2.78 0.5% 2.57 2.70 4.60,129,双侧检验与单侧检验 (假设的形式),130,131,132,2.5.1 回归参数估计值的显著性检验,(1) 提出假设 H0:1 = 0; H1:1 0 (2) 在H0成立条件下,构造检验统计量: (3) 统计推断:给定显著水平,将t 值与自由度为(n-2)的临界值 比较 若 ,则拒绝H0:1 = 0 , 即认为X与Y存在显著的线性关系; 若 , 则不能拒绝H0:1 = 0 ,即X与Y之间的线性关系不显著。,检验:回归模型中是否存在线性关系?这种关系是显著的吗?,接受域H0,-t/2(n-2),t/2(n-2),一般估计的1不等于零,但应检验这是否具有统计显著性。,133,t 分布表的使用,t/2 (n),-t/2(n),查表:自由度为8,显著性水平为0.05的t 统计量值是多少?,134,例题2.1 人均鲜蛋需求量Y与人均可支配收入X关系,回归参数的显著性检验:,H0:1 = 0; H1:1 0。在H0成立条件下,,H0:0 = 0; H1:0 0。在H0成立条件下,,Prob=P | t | | t-Statistic | ,检验结果: 回归参数显著不为零。,(第3版教材第29页),临界值 t0.05 (9) = 2.26,135,P 值,p值即概率值。计算的是当统计量取值大于等于用样本计算的统计量的值的概率。以统计量U做双侧检验为例,若样本计算的统计量的值用U0表示,那么p 值的定义是 PU U0=p p值和检验水平是什么关系呢? 是理论的显著性水平,是人为设定的。 p值是实际的显著性水平,是用样本计算出来的。 P值告诉我们:如果原假设是正确的话,我们得到得到目前这个样本数据的可能性有多大,如果这个可能性很小,就应该拒绝原假设。决策规则:若p值, 拒绝 H0,136,双侧检验的P 值,137,OL

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论