版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
管理统计学
回归分析内容与学习目标1.了解相关与回归的基本概念及其应用领域
2.掌握一元、多元回归模型的构建、检验
3.掌握利用SPSS软件进行回归分析的程序、步骤和结果报告分析
内容学习目标相关分析函数关系与相关关系1、函数关系:当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,我们称这种确定性的关系为函数关系。2、相关关系:当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定范围内变化,变量间的这种具有不确定性的相互关系,称为相关关系。y
x
一个变量的取值不能由另一个变量唯一确定当变量
x取某个值时,变量y的取值对应着一个分布各观测点分布在直线周围
相关关系(几个例子)子女的身高与其父母身高的关系从遗传学角度看,父母身高较高时,其子女的身高一般也比较高。但实际情况并不完全是这样,因为子女的身高并不完全是由父母身高一个因素所决定的,还有其他许多因素的影响一个人的收入水平同他受教育程度的关系收入水平相同的人,他们受教育的程度也不可能不同,而受教育程度相同的人,他们的收入水平也往往不同。因为收入水平虽然与受教育程度有关系,但它并不是决定收入的惟一因素,还有职业、工作年限等诸多因素的影响农作物的单位面积产量与降雨量之间的关系在一定条件下,降雨量越多,单位面积产量就越高。但产量并不是由降雨量一个因素决定的,还有施肥量、温度、管理水平等其他许多因素的影响2008年8月相关关系的种类
7.1.2相关关系的种类1、按相关程度划分(1)、完全相关:当一种现象的数量变化完全由另一种现象的数量变化所确定时,称这两种现象间的关系为完全相关。(2)、不完全相关:当两个现象之间的关系介于完全相关和不相关之间时,称其为不完全相关。(3)、不相关:当两个现象彼此互不影响,其数量变化各自独立时,称为不相关。2、按变量多少划分(1)、单相关:我们把两个变量间的相关,即一个变量对另一变量的相关关系,称为单相关,单相关关系只有一个自变量。(2)、复相关:当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。(3)、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量的相关关系称为偏相关。
相关关系的种类3、按相关方向划分(1)正相关:当两个变量的变化同方向时,这种同方向变动的关系称为正相关。(2)负相关:当两个变量的变化反方向时,这种反方向变动的关系称为负相关。4、按相关形式划分(1)线性相关(2)非线性相关
完全负线性相关完全正线性相关
相关程度的衡量:散点图
不相关
负线性相关
正线性相关
非线性相关相关程度的衡量:相关系数相关系数:对两个变量之间线性相关程度进行分析的主要工具是单相关系数。总体相关系数的定义式为:样本相关系数:相关系数的特点2、样本相关系数r有以下特点:(1).r的取值介于-1与1之间。(2).在大多数情况下,0﹤﹤1,即X与Y的样本观测值之间存在着一定的线性关系,当r﹥0时,X与Y为正相关,当r﹤0时,X与Y为负相关。(3).r=1时表明X与Y完全线性相关,此时X与Y的关系为函数关系。(4).r=0只是表明两个变量之间不存在线性关系,它并不排除二者之间可能存在非线性的相关关系。相关系数的密切程度将相关关系的密切程度划分等级:r
<0.3无相关,r>0.3有相关r在0.3~0.5之间,低度相关r在0.5~0.8之间,显著相关r在0.8以上,高度相关相关系数的检验一般地,在X与Y都服从正态分布条件下,对于ρ=0的检验,可以采用t检验。
根据给定的显著性水平和自由度n-2,查找t分布表中相应的临界值。若,表明r在统计上是显著的。若,表明r在统计上是不显著的。相关系数的显著性检验(例题分析)各相关系数检验的统计量线性回归模型的基本问题参数的最小二乘估计回归直线的拟合优度检验显著性检验7.2一元线性回归分析线性回归模型的基本问题——
什么是回归分析?(Regression)
从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度涉及一个自变量的回归因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependentvariable),用y表示用来预测或用来解释因变量的一个或多个变量称为自变量(independentvariable),用x表示因变量与自变量之间的关系用一条线性方程来表示线性回归模型的基本问题——
相关与回归
1相关与回归之间的联系:相关分析是回归分析的基础和前提,回归分析是相关分析的深入和继续。相关与回归分析都是对两变量间关系进行分析和评价的工具。2、相关与回归的区别:
(1)、相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化。
(2)、相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量.(3)、相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。一元线性回归模型的确定1、总体的回归模型:和为未知参数,也叫回归系数,
为随机误差项。2、一元线性样本回归模型可表示为:
和分别是总体回归系数、的估计值,为参差,是随机误差的估计值,是实际值与估计值之间的差额。3、样本回归函数:一元线性回归模型的基本假定(1)数学期望为0,即,i=1,2,…;n(2)具有同一方差,即V(εi),i=1,2,…;n(3)相互独立,即(4)服从正态分布,即(5)自变量与随机误差项不相关。
二
回归系数的估计1、回归系数的估计最小二乘法的基本思想:要找到参数β的估计值,使得残差平方和为最小。参数的最小二乘估计
根据最小二乘法,可得求解和的公式如下
回归模型的估计
总体方差的估计估计方程的求法(例题分析)学生身高x体重yx2y2xy估计值ŷ残差y-ŷABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.29149.44851.60653.76455.92158.07960.23662.39464.55266.709-0.2910.552-3.6061.2366.0791.921-8.236-1.3945.448-1.709
16705702792203303295546-0估计方程的求法(例题分析)
三模型的检验1、模型的检验(1)理论意义检验:主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好地解释现实的现象。(2)一级检验:又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验。一级检验是对所有现象进行回归分析时都必须通过的检验。(3)二级检验又称经济计量学检验,它是对标准线性回归模型和基本假定条件能否得到满足进行的检验,也称为线性回归诊断,具体包括序列相关检验、异方差性检验等。1回归系数的显著性检验步骤:检验假设:::构造检验统计量:式中,是估计量的标准差。若
,应拒绝,它表明回归系数显著不为0,参数的t检验通过。P<,拒绝H0,表明自变量是影响因变量的一个显著因素回归系数的检验(例题分析)
P值的应用P=0.002<=0.05,拒绝原假设,身高与体重之间有线性关系变差的分解(图示)xyy{}}
2拟合优度检验SST=SSR+SSE总平方和(SST){回归平方和(SSR)残差平方和(SSE){{离差平方和的分解(三个平方和的意义)总平方和(SST)反映因变量的n个观察值与其均值的总离差回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和拟合优度检验拟合优度检验是通过计算拟合优度(也称判定系数)来判定回归模型对样本数据的拟合程度。
0≤
≤1
=1,表明回归模型对所有的样本数据点完全拟合,
=0表明回归模型无法解释因变量y的离差,回归模型没有意义。
0<c<1,越接近于1,表明回归平方和占总平方和的比重越大,回归模型对样本数据的拟合程度就越高。3线性关系的检验(检验的步骤)提出假设H0:
1=0线性关系不显著2.计算检验统计量F确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F
作出决策:若F>F
,拒绝H0;若F<F
,不能拒绝H0线性关系的检验(例题分析)提出假设H0:
1=0学生体重与身高之间的线性关系不显著计算检验统计量F确定显著性水平
=0.05,并根据分子自由度1和分母自由度8-2找出临界值F
=5.32作出决策:若F>F
,拒绝H0,线性关系显著线性关系的检验(方差分析表)SPSS输出的方差分析表例7.1已知某公司2011年1—12月的某产品广告投入与产品销售资料如表7.1所示,试建立产品销售回报y对产品广告投入x的线性回归模型。月份广告支出销售回报月份广告支出销售回报1224889920766468108122298113712687379811690337142599809811210545604444737354810884511144705518051282011957812164066591370856012103111495095表7.1某公司广告支出和销售回报资料(单位:元)
利用SPSS统计软件可计算得>tα/2(n-2),判定系数R2=0.993,可见回归模型的拟合程度较高。多元线性回归分析7.3多元线性回归分析y对x1、x2、…xk的多元线性回归模型的形式为
,…,仍称为回归系数,变量、,…均称为自变量,其数值仍假定是可精确测量或严格控制的。
多元回归系数的最小二乘估计多元线性回归模型的矩阵形式表达式:最小二乘估计:
模型的检验1、回归系数的显著性检验回归系数的t检验统计量为若>tα/2(n–k–1),则回归系数显著地不为0,参数的t检验通过。若≦tα/2(n–k–1),则回归系数不显著,参数的t检验未获得通过,回归系数的t检验通不过。模型的检验2、回归方程的显著性检验回归方程的F检验:(1)检验假设:β1=β2=…=βk=0(2)计算回归方程的F统计量若则拒绝,说明回归方程的线性回归效果显著,模型通过F检验。反之未通过F检验说明模型没意义。模型的检验3、拟合优度检验判定系数来进行拟合优度检验修正的判定系数
自变量的选择及多重共线性问题自变量的选择有两条基本准则:一是选择的自变量应是那些与回归对象密切相关的因素;二是所选择的自变量之间不能有较强的线性关系,即不能有多重共线性问题存在。关于自变量的选择第一步是针对回归对象进行因素分析。第二步是进行简单相关分析。第三步是要考虑多重共线性的问题。自变量的选择及多重共线性问题2、关于多重共线性的识别和消除
多重共线性存在的情况:(1)回归模型的F检验通过,而有的回归系数的t检验未通过。(2)模型中增加或删除一个自变量,回归系数的估计值有较大的变化。(3)回归系数估计值的符号与实际经济判断的相反。(4)简单相关系数矩阵中,两个自变量之间的相关系数值较大。通常,简单相关系数r>0.7时,应考虑有多重共线性存在。自变量的选择及多重共线性问题消除共线性最简单的办法是:删除共线性组中自变量与因变量的简单相关系数最小者。逐个删除法:a、将与回归对象有关的全部因素引入方程,建立模型。b、依据每个回归系数的|t|值大小,逐个删除那些不显著的变量c、直到模型中包含的变量都是影响预测对象的显著因素为止。应用案例及软件操作程序例7.2表7-2给出了某地城镇居民人均消费支出水平及居民人均工资性收入和非工资性收入水平资料,据此建立人均消费支出水平y关于人均工资性收入x1和非工资性收入x2的二元线性回归模型,
。若已知该地1999年的人均工资性收入为755.75元,人均非工资性收入为454.98元,试对1999年该地的人均消费支出进行预测。年份人均消费支出额人均工资性收入人均非工资性收入1985416.07395.9274.511986465.39425.44106.501987478.05439.26112.101988473.49404.28122.421989472.65389.26175.191990490.94428.47180.731991516.86475.08151.581992526.94497.25159.921993543.45502.51179.781994646.00584.38226.961995626.35589.85194.461996664.83584.09227.611997685.79572.71278.571998703.18565.44320.68
表7.2单位:元表7.3ModelSummaryModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.992a.984.98113.02167a.Predictors:(Constant),人均非工资性收入,人均工资性收入表7.4ANOVAbModelSumofSquaresdfMeanSquareFSig.Regression115532.669257766.335340.676.000aResidual1865.20111169.564Total117397.87113a.Predictors:(Constant),人均非工资性收入,人均工资性收入b.DependentVariable:人均消费支出额
表7.4表明F统计量的值为340.676,利用SPSS统计软件进行回归分析,可以不进行查表,直接依据F统计量对应的Sig的值做出判断,若Sig的值小于0.05,则认为回归模型整体显著。否则,认为所建立的回归模型整体不显著。可见本例中F值所对应的Sig的值小于0.05,模型整体显著。从表7.3可知回归模型拟合程度接近1,说明模型拟合程度较高7.4应用案例及软件操作程序
表7.5是回归模型的输出结果,回归系数的T检验也可以直接通过Sig的值与0.05作比较,若Sig<0.05,说明回归系数通过T检验,回归系数不等于0。从7-5可知,、均通过T检验,所构建的回归模型为:表7.5CoefficientsaModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)84.23126.5673.171.009人均工资性收入.709.074.5769.559.000人均非工资性收入.667.084.4767.903.000a.DependentVariable:人均消费支出额例
现以2000—2009年间的31个地区城市居民人均消费水平为例,利用Excel计算并分析城镇居民不同地区消费水平差距的变化情况。
(1)如图1录入数据图13.4应用案例及软件操作步骤
(2)点击菜单[工具]“数据分析”,或者点击[数据]菜单中的”数据分析”,打开对话框如图2,选择“描述统计”选项,调出描述统计对话框如图3
图2
图33.4应用案例及软件操作步骤如没有数据分析,可以点击文件—选项,打开下面的界面,点击下图红圈中的转到按钮,进行数据分析加载。
在数据分析库处挑勾,点击确定,即可在数据菜单中出现数据分析
(3)在描述统计对话框图3中,进行相关数据的输入或选择。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校长新年寄语祝福九年级(初三)同学
- 小学考试管理制度
- 买卖合同(供进口成套设备用)5篇
- 二零二五年度驾校应急处理与安全保障合同3篇
- 第17章-第1节-总需求曲线教材课程
- 《科幻小说赏析与写作》 课件 第3、4章 “太空歌剧”的探索与开拓-《2001太空漫游》;“生命奇迹”的重述与复魅-《弗兰肯斯坦》
- 二零二五年度网络安全风险评估与维保服务合同3篇
- 2024年陇南市精神病康复医院高层次卫技人才招聘笔试历年参考题库频考点附带答案
- 二零二五年度高端制造项目反担保协议3篇
- 2024年阳江市人民医院高层次卫技人才招聘笔试历年参考题库频考点附带答案
- 2024-2030年中国硫磺行业供需形势及投资可行性分析报告版
- 新人教版八年级上册数学知识点归纳及常考题型
- 公文改错完整版本
- ISO22716-执行标准化妆品良好操作规范GMPC标准及内审员培训教材
- 一个女儿的离婚协议书模板
- 2024年重点高中自主招生物理试题含答案
- 2020-2021学年-人教版八年级英语下册-Unit-1-阅读理解专题训练(含答案)
- 智慧农业总体实施方案(2篇)
- 天然甜味剂的开发与应用
- 2024年大学试题(宗教学)-佛教文化笔试参考题库含答案
- 农村生活污水处理站运营维护方案
评论
0/150
提交评论