统计学课件 第八章 相关和回归分析.ppt_第1页
统计学课件 第八章 相关和回归分析.ppt_第2页
统计学课件 第八章 相关和回归分析.ppt_第3页
统计学课件 第八章 相关和回归分析.ppt_第4页
统计学课件 第八章 相关和回归分析.ppt_第5页
已阅读5页,还剩126页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,第八章 相关和回归分析,第一节 相关的意义和种类 第二节 相关图表和相关系数 第三节 一元线性回归分析 第四节 多元线性回归分析 第五节 非线性回归分析,2,本章学习要求,1.理解相关的意义、主要形式、以及相关分析的基本内容。 2.掌握相关系数的设计原理,以及相关关系显著性检验。 3.回归和相关的区别和联系 4.普通最小二乘法的原理以及回归参数的意义。 5.估计标准误差的分析等。,3,第一节 相关的意义和种类,一、问题的提出 二、相关关系的概念 三、相关关系的种类 四、相关分析的主要内容,4,一、问题的提出,相关,5,相关和回归分析是研究事物的相互关系,测定它们联系的紧密程度,揭示其变化的

2、具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。,6,伊拉克战争,correlation?,SARS,?,7,蝴蝶翅膀振动,候鸟迁徙,海啸,死亡人数,correlation?,8,一、相关关系的概念,客观现象之间的数量联系存在着两种不同的类型: 函数关系和相关关系 函数关系: 即当一个(或一组)变量每取一个值时,相应的另一个变量必然有一个确定值与之对应 。,9,(函数关系),(1)是一一对应的确定关系 (2)设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称

3、y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 (3)各观测点落在一条线上,10,自变量与因变量,如果变量之间有因果关系,那么原因变量就叫作自变量,而受自变量影响的变量就称因变量。自变量通常发生在因变量之前。(不是所有先发生的变量都是自变量)一般自变量记为X,因变量 记为Y。, ,11,【例】,(1) 某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p 为单价) (2)圆的面积(S)与半径之间的关系可表示为 S = R2 (3)企业的原材料消耗额(y)与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系可表示为y

4、= x1 x2 x3,12,停下来 想一想?,在下面的几对变量中,哪一个是自变量哪一个是因变量? 1.产品产量与总成本。 2.销售税的总量与商品总成本。 3.电影院里爆米花的销售率与垃圾袋的使用率。 4.发电量与热天的天数。,13,相关关系(correlation analysis):,相关关系:变量之间存在有依存关系,但这种关系是不完全确定的随机关系,即当一个(或一组)变量每取一个值时,相应的另一个变量可能有多个不同值与之对应 。,14,因果关系,相关关系,互为因果关系,共变关系,随机性依存关系,确定性依存关系,函数关系,变量之 间关系,15,相关关系,(1)变量间关系不能用函数关系精确表达

5、; (2)一个变量的取值不能由另一个变量唯一确定; (3)当变量 x 取某个值时,变量 y 的取值可能有几个; (4)各观测点分布在直线周围。,16,【例】,商品的消费量(y)与居民收入(x)之间的关系 商品销售额(y)与广告费支出(x)之间的关系 粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系 收入水平(y)与受教育程度(x)之间的关系 父母亲身高(y)与子女身高(x)之间的关系 身高与体重的关系,17,停下来 想一想?,下列变量之间存在相关关系吗? 1 抽烟与肺癌之间的关系 2 怀孕期妇女的饮酒量与婴儿出生体重之间的关系 3 纳税者年龄和他们交纳税款的数量之间

6、的关系 4 采光量与植物的生产量之间的关系 5 一个人的投票倾向性与其年龄之间的关系,18,相关关系与函数关系的关系:在一定的条件下互相转化. 具有函数关系的变量,当存在观测误差和随机因素影响时,其函数关系往往以相关的形式表现出来. 而具有相关关系的变量之间的联系,如果我们对它们有了深刻的规律性认识,并且能够把影响因变量变动的因素全部纳入方程,这时相关关系也可转化为函数关系.另外,相关关系也具有某种变动规律,所以,相关关系也经常可以用一定的函数形式去近似地描述.,19,二、 相关关系的种类,1.按相关的程度分:,例:完全相关:在价格P不变的情况下,销售收入Y与销售量X 的关系; 不相关:股票价

7、格的高低与气温的高低是不相关的;,20,2.按相关的方向分:,正相关:两个变量之间的变化方向一致,都是增长趋 势或下降趋势。 例: 收入与消费的关系; 工人的工资随劳动生产率的提高而提高。,负相关:两个变量变化趋势相反,一个下降而另一 个上升,或一个上升而另一个下降。 例: 物价与消费的关系; 商品流转的规模愈大,流通费用水平则越低。,21,3.按相关的形式分:,线性相关(直线相关):当一个变量每变动一个单位时, 另一个变量按一个大致固定的 增(减)量变动。 例:人均消费水平与人均收入水平,非线性相关(曲线相关):当一个变量变动时, 另一 个变量也相应发生变动,但这种变动是不均等的。,例: 产

8、品的平均成本与总产量; 农产量与施肥量.,22,4 .按相关的影响因素多少分:,偏相关,单相关(一元相关):只有一个自变量。,复相关(多元相关):有两个及两个以上的自变量。,如: 居民的收入与储蓄额; 成本与产量,如: 某种商品的需求与其价格水平以及收入水平 之间的相关关系便是一种复相关。,23,偏相关: 在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。 如: 在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。,24,5.按相关的性质分:,真实相关是现象的内在联系所决定.,虚假相关:如某人曾观察过某一国家历年的国内生产

9、总值与精神病患者人数的关系,呈相当高的正相关.,25,讨论下面的关系是因果关系还是伪关系?,1.冰淇淋的销量与儿童出事故次数之间 2.街上警察数量与犯罪数量之间 3.历史上,妇女裙子的长度与经济的好坏有关系: 裙子越短,经济越景气。 4.鹳的数量与丹麦乡间婴儿出生率的关系,26,图示,27,三、相关分析的主要内容,确定现象之间是否存在相关关系,以及相关关系呈现的形态. 确定相关关系的紧密程度. 确定相关关系的数学表达式 确定因变量估计值误差程度. 预测或估计,28,第二节 相关图表和相关系数,一、相关表和相关图 二、简单相关系数,29,相关分析: 就是用一个指标来表明现象间相互依存关系的密切程

10、度。广义的相关分析包括相关关系的分析(狭义的相关分析)和回归分析。,30,定性分析,是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。,定量分析,在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。,相关关系的判断,31,一、相关表和相关图,相关表和相关图是研究相关关系的直观工具,在进行详细的定量分析之前, 可以先利用它们对现象之间存在的相关关系的方向、形式、和密切程度作大致的判断。,简单相关表:将自变量x的数值按照从小到大的顺序,并配合因变量y的数值一一对应而平行排列的表。,居民消费和收入的相关表

11、,单位:百元,33,相关图:又称散点图。将x置于横轴上,y置于纵轴上,将(x,y)绘于坐标图上。用来反映两变量之间相关关系的图形。 例:,34,例 : 国家教育部决定将各高校的后勤社会化。某从事饮食业的企业家认为这是一个很好的投资机会,他得到十组高校人数与周边饭店的季销售额的数据资料,并想根据高校的数据决策其投资规模。,35,二、简单相关系数,(一)简单相关系数的概念 是度量两个变量之间线性相关密切程度和相关方向的统计指标。 包括简单相关系数、复相关系数、偏相关系数、曲线相关系数(相关指数). 简单相关系数又称皮尔逊(1890年,英国)相关系数,或积矩相关系数或动差相关系数。 若相关系数是根据

12、总体全部数据计算的,称为总体 相关系数,记为 . 若是根据样本数据计算的,则称为样本相关系数,记为 r.样本相关系数是总体相关系数的一致估计量.,36, 样本简单相关系数的计算公式(积差法),(二)简单相关系数的计算公式,式中:,(1),1.用计算器计算,协方差S2xy,37,协方差S2xy的意义: 1.相关系数的正负取决于协方差的正负. 2.协方差可以表示变量x、y相关程度的大小. 3.变量值的项数和计量单位对离差乘积之和 有影响. 可见,相关系数是对变量离差标准化以后的协方差.,38,(1)式可化简为如下公式:,或:,39,用计算机计算 选取“工具”-“数据分析” 选“相关系数” 选“确定

13、” 输入“输入区域” 输入“输出区域” 在“分组方式”中选“逐列” 选“标志位于第一行” 确定 出现结果如下:,40,1. r 的取值范围是 -1,1 |r|=1,为完全相关 r =1,为完全正相关 r =-1,为完全负相关 2. r = 0,不存在线性相关关系 3. -1r0,为负相关 4. 0r1,为正相关 5. |r|越趋于1表示关系越密切;|r|越趋于0表示 关系越不密切,相关系数取值及其意义,41,r的范围在0.1-0.3是微弱相关 r的范围在0.3-0.5是低度相关; r的范围在0.5-0.8是显著相关; r的范围在0.8以上是高度相关.,42,r,43,【例1】计算人均可支配收入

14、和消费支出之间 的简单相关系数。,44,解:根据样本相关系数的计算公式有 人均国民收入与人均消费金额之间的相关系 数为 0.9987,45,【例2】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到19811993年的样本数据(xi ,yi),i =1,2,,13,数据见表1,计算相关系数。,解:由表中数据得:,y 473, x 662, y2 26507, x2 51656,xy 36933,n=10,计算得人均可支配收入和消费支出间的简单 相关系数为:,47,(三)相关系数的显著性检验,1.检验两个变量之间是否存在线性相关关系 总体相关系数是未知的,常

15、用样本相关系数来估计,不同的样本其相关系数不同,r对 代表程度与样本容量有关.计算出样本相关系数r以后,还要对其进行显著性检验,以判定现象总体间线性相关是否显著. 在二元正态总体情况下,r的抽样分布具有确定的函数形式,当总体相关系数 时,r呈t分布(n=30). 2. 等价于对回归系数b 的检验 3. 采用 t 检验,48,检验的步骤,提出假设:H0: ;H1: 0,计算检验的统计量:,确定显著性水平,并作出决策 若 t t,拒绝H0 若t t,接受H0, 对例2计算的相关系数进行显著性检(0.05) 提出假设:H0: ;H1: 0 计算检验的统计量,3. 根据显著性水平0.05,查t分布表得

16、t(n-2)=2.306 由于t=17.94t(10-2)=2.306,拒绝H0,总体人均消费支出与人均可支配收入之间的线性相关关系显著.,例:,为了简化检验的过程,有人根据t统计量和r的关系,编成相关系数临界值表,相关系数的显著性检验可直接查表进行。 检验方法: 对于给定的显著性水平 若IrI r (n-2) ,变量x与y之间有显著的线性相关关系。 若IrI r (n-2) ,变量x与y之间不存在线性相关关系。,前例中:r=0.9878 r0.05 (10-2)=0.632 ,所以总体人均 消费支出与人均可支配收入之间的线性相关关系显著。,51,相关系数检验表的使用,若IrI大于表上的=5%

17、相应的值,小于表上1%相应的值,称变量x与y之间有显著的线性关系 若IrI大于表上=1%相应的值,称变量x与y之间有十分显著的线性关系 若IrI小于表上=5%相应的值,称变量x与y之间没有明显的线性关系 根据前例的r0.9987=5%(n-2)=0.553,表明人均消费金额与人均国民收入之间有十分显著的线性相关关系,52,第三节 一元线性回归分析,一、 回归分析概念 二、 回归分析的种类 三、 一元线性回归分析,53,回归方程一词是怎么来的,54,一、 回归分析的概念,对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来近似地表达变量间的平均变化关系的

18、一种统计分析方法。,55,二、回归分析的内容,从一组样本数据出发,确定变量之间的数学关系式。 对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。 利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。,56,回归分析和相关分析的区别: 相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化. 相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x则作为研究时给定

19、的非随机变量。 相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制,57,相关分析与回归分析的联系,相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。 简单说: 1、相关分析是回归分析的基础和前提; 2、回归分析是相关分析的深入和继续。,58,三、回归分析的种类,59,四、一元线性

20、回归分析,(一)一元线性回归方程,当只涉及一个自变量时称为一元回归, 若因变量 y 与自变量 x 之间为线性关 系时称为一元线性回归。 2、对于具有线性关系的两个变量,可以用 一条线性方程来表示它们之间的关系。 3、描述因变量 y 如何依赖于自变量 x 和 误差项 的方程称为回归模型。,60,注意: 在两个变量之间,必须确定哪个是自变量,哪个是因变量 回归方程的主要作用是用自变量来推算因变量。,61,回归模型的表达式如下:,1、模型中,y 是 x 的线性函数(部分)加上随机误差项 2、线性部分反映了由于 x 的变化而引起的 y 的变化, 是Y的数学期望,即对应于X某一取值时Y的平均值:,62,

21、3、随机误差项(随机干扰项) 是随机变量 A、反映了除 x 和 y 之间的线性关系 之外的随机因素对 y 的影响 B、是不能由 x 和 y 之间的线性关系 所解释的变异性 随机误差项是Y与E(Y) 的离差: 4、 和 称为模型的参数,63,由于总体回归参数a、是未知的,因此必须利用样本数据去估计。 用样本统计量 代替回归方程中的未知参数a、 ,就得到了估计的回归方程。 一元线性回归中估计的回归方程为:,式中: 是直线的斜率,又称回归系数, 它表示x每变动一个单位, y 的平均变动值。 称为残差,与总体误差项 相互对应;是样本的容量。,64,样本回归函数与总体回归函数区别,1、总体回归线是未知的

22、,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。 2、总体回归函数中的 和是未知的参数,表现为常数。而样本回归函数中的 是随机变量,其具体数值随所抽取的样本观测值不同而变动。,65,3、总体回归函数中的 是与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的是与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出的具体数值。,66,总体回归线与随机误差项,X,Yi,Y,。 。 。,。,。,67,一元线性回归模型的基本假定 - 高斯(德国数学家)假定(标准假定),误差项是一个期望值为0的随机变量,即E()=0。对于一

23、个给定的 x 值,y 的期望值为E ( y ) = a + x 对于所有的 x 值,的方差2 都相同 误差项是一个服从正态分布的随机变量,且相互独立。即N( 0 ,2 ) 独立性意味着对应于不同的 x 值的值不相关,因此,对应于不同的 x 值 的Y值也不相关.,68,(二)回归参数的普通最小二乘估计(OLS) 基本原理: 1、 使因变量的观察值 Y与估计值 之间的 离差平方和达到最小来求得 。即,用最小二乘法拟合的直线来代表x与y之间的 关系与实际数据的误差比其他任何直线都小。,69,回归参数推导过程:,为使Q 达到极小值,则须有:,整理得如下标准方程组:,70,解上述方程组得:,其中 可变形

24、为:,【例】根据例2中数据,拟合人均消费支出对人均 可支配收入的回归方程,并指出回归系数的含义。,解:,y 473, x 662, y2 26507, x2 51656,xy 36933,n=10,由表中数据得:,所以:,所建立的回归方程为:,回归系数 的含义是:人均可支配收入每增加1元, 人均消费支出平均增加0.72元。,72,根据例1中的数据,人均消费金额对人均国民收入的 回归方程为:,y = 54.22286 + 0.52638 x,73,相关系数与回归系数的关系,74,(三)回归方程的显著性检验,1. 回归模型检验的种类 回归模型的检验包括理论意义检验、一级检验和二级检验。 理论意义:

25、检验主要涉及参数估计值的符号和取值区间.如食品支出的恩格尔函数中,b的取值区间应在0-1之间;,75,一级检验又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验.一级检验对所有的现象进行回归分析时都必须通过的检验. 二级检验又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验,异方差性检验等.,76,一级检验,2.显著性检验包括两方面的内容: (1)对整个回归方程的显著性检验-F检验 回归方程的显著性检验即对自变量和因变量之间线性关系整体上是否显著进行检验。,(2)对回归系数的显著性检验:-t检验

26、,77,对整个回归方程的显著性检验-F检验 检验具体方法是将回归平方和(SSR)同剩余平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著。,78,1. 提出假设 H0: (线性关系不显著),2. 计算检验统计量F,确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F 作出决策:若FF ,拒绝H0;若FF ,接受H0,回归方程显著性检验的步骤如下:,自由度df,MSR,MSE分别称为均方回归,均方残差,79,(1)对整个回归方程的拟合程度的评价 所谓拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。 判断回归模型拟合程度优劣最常用的方法是样本可决系数(又称判定系数

27、)和估计标准误。 A. 判定系数是建立在对总离差平方和进行分解的基础之上的。,80,分析: 因变量 Y的取值是不同的,Y 取值的这种波动称为变差。变差来源于两个方面: 由于自变量 x 的取值不同造成的 除 x 以外的其他因素(如x对y的非线性影响、测量误差、随机因素等)的影响 对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示,离差平方和的分解: 回归平方和SSR与剩余平方和SSE含义如下:,SST = SSR + SSE,82,图示:总变差平方和的分解,83,离差平方和的分解 (三个平方和的意义),A、总平方和(SST) 反映因变量的 n 个观察值与其均值的总离差 B

28、、回归平方和(SSR) 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 C、残差平方和(SSE) 反映除 x 以外的其他因素对 y 取值的影响, 也称为不可解释的平方和或剩余平方和,84,样本判定系数 (可决系数 r2 ),回归平方和占总离差平方和的比例,r2表示全部偏差中有百分之几的偏差可由x与y的 回归关系来解释。,85,r2反映回归直线的拟合程度 取值范围在 0 , 1 之间 r2 1,说明回归方程拟合的越好;r20,说明回归方程拟合的越差 可决系数是样本观测值的函数,它是一个统计量. 判定系数等

29、于相关系数的平方,即r2(r)2,86,证明:,87,B. 估计标准误差Se 实际观察值与回归估计值离差平方和的均方根。 估计标准误差反映了实际观察值在回归直线周围的分散状况,是用来说明回归方程代表性大小的统计指标。从另一个角度说明了回归直线的拟合程度.,88,由一元回归方程样本资料计算:,由总体资料计算或在大样本情况下,估计标准误差的计算公式为:,k表示自变量个数,89,例,90,简化式:,91,【例】,前例2中回归方程估计标准误差为:,92,作为回归模型拟合优度的判断和评价指标,估计标准误差显然不如判定系数,判定系数是无量纲的系数,有确定的取值范围(0-1),便于对不同资料回归模型拟合优度

30、 进行比较.而估计标准误差则是有计量单位的,又没有确定的取值范围,不便于对不同资料回归模型拟合优度进行比较.,93,估计标准误差与相关系数的关系,根据方差分析有:,94,(2) 回归系数的显著性检验(要点),C.在一元线性回归中,等价于回归方程的显著性检验,A.检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著,B.理论基础是回归系数b的抽样分布,95,b是根据最小二乘法求出的样本统计量,它有自己的分布 b的分布具有如下性质 分布形式:正态分布 数学期望: 标准差: 由于未知,需用其估计量Sy来代替得到 b的估计的标准差,回归系数的显著性检验(样本统计

31、量b的分布),96,回归系数的显著性检验(样本统计量b的分布),的抽样分布,97,回归系数b的显著性检验 (步骤),提出假设 H0: = 0 (没有线性关系) H1: 0 (有线性关系) 计算检验的统计量,n30时,给定显著性水平, 查Z表可知其临界值 。,n30时,(=0),给定显著性水平, 查t表可知其临界值 。,(=0),98,3. 确定显著性水平,并进行决策 tt,拒绝H0; tt,接受H0,Z,0,t,0,99,提出假设 H0:b = 0 人均收入与人均消费之间无线性关系 H1:b 0 人均收入与人均消费之间有线性关系 计算检验的统计量,t=65.0758t=2.201,拒绝H0,表

32、明人均收入与人均消费之间有线性关系,例: 对前例的回归系数进行显著性检验(0.05),100,回归系数的显著性检验(Excel输出的结果),101,(六).利用回归方程进行估计和预测,根据自变量 x 的取值估计或预测因变量 y的取值. 当给出的x属于样本内的数据时,计算的yc值称为内插检验或事后预测,当给出的x在样本之外时,计算的yc值称为外推预测或事前预测. 估计或预测的类型 点估计 y 的平均值的点估计 y 的个别值的点估计 区间估计 y 的平均值的置信区间估计 y 的个别值的预测区间估计,102,点估计:,2. 点估计值 y 的平均值的点估计 y 的个别值的点估计 3. 在点估计条件下,

33、平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同,对于自变量 x 的一个给定值x0 ,根据回归方程得到因变量 y 的一个估计值,103, y 的平均值的点估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的一个估计值E(y0) ,就是平均值的点估计 在前面的例子中,假如我们要估计人均国民收入为2000元时,所有年份人均消费金额的的平均值,就是平均值的点估计。 根据估计的回归方程得,104, y 的个别值的点估计,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计值 ,就是个别值的点估计,2. 比如,如

34、果我们只是想知道1990年人均国民收入为1250.7元时的人均消费金额是多少,则属于个别值的点估计。根据估计的回归方程得,105,区间估计:,点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计 对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间 区间估计有两种类型 置信区间估计 预测区间估计,106, y 的平均值的置信区间估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值E(y0)的估计区间 ,这一估计区间称为置信区间 E(y0) 在1-置信水平下的置信区间为,式中:Sy为估计标准误差,107,【例

35、】根据前例,求出人均国民收入为1250.7元时,人均消费金额95%的置信区间 解:根据前面的计算结果 712.57,Sy=14.95,t(13-2)2.201,n=13 置信区间为,人均消费金额95%的置信区间为702.305元722.835元之间,712.5710.265,108, y 的个别值的预测区间估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间 y0在1-置信水平下的预测区间为,109,【例】根据前例,求出1990年人均国民收入为1250.7元时,人均消费金额的95%的预测区间 解:根据前面的计算结果有 71

36、2.57,Sy=14.95,t(13-2)2.201,n=13 置信区间为,712.5734.469,人均消费金额95%的预测区间为678.101元747.039元之间,110,影响区间宽度的因素,1.置信水平 (1 - ) 区间宽度随置信水平的增大而增大 2.数据的离散程度 (s) 区间宽度随离散程度的增大而增大 3.样本容量 区间宽度随样本容量的增大而减小 4.用于预测的 xp与x的差异程度 区间宽度随 xp与x 的差异程度的增大而增大,111,置信区间、预测区间、回归方程,112,第三节 多元线性相关与回归分析,一、多元线性回归模型 一个因变量与两个及两个以上自变量之间的回归.描述因变量

37、 y 如何依赖于自变量 x1 ,x2 , xp 和误差项 的方程称为多元线性回归模型 涉及 p 个自变量的多元线性回归模型可表示为,b0 ,b1,b2 ,bp是参数,常数项,,和Y构成的平面与Y轴的截距,偏回归系数,表示在其他 固定时 每变化一个 单位引起的Y的平均变动;,113,偏回归系数,表示在其他 固定时 每变化 一个单位引起的Y的平均变动;, 是被称为误差项的随机变量 y 是x1,,x2 , ,xp 的线性函数加上误差项 说明了包含在y里面但不能被p个自变量的线性关系所解释的变异性,在多元回归模型中,还要求各自变量之间不存在显著 相关,或高度相关也即不得存在多重共线性。,114,多元线性回归模型, 对于 n 组实际观察数据(yi ; xi1,,xi2 , ,xip ),(i=1,2,n),多元线性回归模型可表示为,115,二、参数的最小二乘法,根据最小二乘法的要求,可得求解各回归参数 的标准方程如下,使因变量的观察值与估计值之间的离差平方和达到最小来求得 。即,116,三、回归方程的显著性检验 (线性关系的检验 ),检验因变量与所有的自变量和之间的是否存在一个显著的线性关系,也被称为总体的显著性检验 检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用 F 检验来分析二者之间的差别是否显著 如果是显著的,因变量与自变量之间存在线性关系 如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论