




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十章相关与回归分析第十章相关与回归分析1弗朗西斯﹒高尔顿先生被誉为现代相关和回归的创始人1875年,他利用豌豆试验来确定尺寸的遗传规律。他挑选7组不同尺寸的豌豆,说服他的朋友每一组种植10粒种子,最后把原始的豌豆种子与新长的豌豆种子进行尺寸比较当结果被绘制出来之后,他发现并非每一个子代都与父代一样,相同的是,尺寸小的豌豆会得到更大的子代,而尺寸大的豌豆却得到较小的子代高尔顿将此方法用到人类身上,他将父母和孩子的身高转换成z值,对比父母的身高与他们孩子的身高。他并发现孩子们的z值偏离均值的程度小于父母的偏离程度,即非常矮小的父母倾向于有偏高的孩子;而非常高大的父母则倾向于有偏矮的孩子。它把这叫做对均值的“回归”,这一发现构成了回归分析的基础弗朗西斯﹒高尔顿先生被誉为现代相关和回归的创始人2第一节 相关与回归概述第一节 相关与回归概述3一、变量间的关系及分类统计变量之间的关系,存在着两种不同的类型,一种是函数关系,另一种是相关关系函数关系是指变量之间存在着的一种固定的、严格的数量依存关系,即一个变量数值的变动,都会有另一个变量的数值与之完全对应相关关系是指变量之间存在着的一种非确定性的数量依存关系,即一个变量发生数值变化时,另一变量也相应地发生数值变化,但其数值是不固定的太阳和地球的运动就是函数你和你父亲之间就是相关不可能是函数,如是函数,他动一下胳膊,你就要动一下腿一、变量间的关系及分类统计变量之间的关系,存在着两种不同的类4二、相关分析的主要内容相关分析是研究两个或两个以上的变量之间相关程度及大小的一种统计方法其主要内容包括:1.确定现象之间是否存在相关关系,以及相关关系呈现的形态2.确定相关关系的密切程度3.相关系数的检验二、相关分析的主要内容相关分析是研究两个或两个以上的变量之间5三、回归分析的主要内容回归分析是寻找存在相关关系的变量间的数学表达式,并进行统计推断的一种统计方法主要内容包括:1.进行参数估计。即如何根据样本数据对回归模型的参数进行估计,求出具体的回归方程2.进行显著性检验。即对回归方程、参数估计值进行显著性检验与校正,以便使回归方程或参数更加优良3.进行预测和控制四、相关与回归相关仅判定变量之间是否存在关系(存在性)这关系的大小、正确与否都是回归分析的内容(关系的具体表现)三、回归分析的主要内容回归分析是寻找存在相关关系的变量间的数6五、回归分析的分类在对回归分析进行分类时,主要有两种分类方式第一,根据变量的数目,可以分类一元回归、多元回归第二,根据自变量与因变量的表现形式,分为线性与非线性所以,回归分析包括四个方向:一元线性回归分析、多元线性回归分析、一元非线性回归分析、多元非线性回归分析我们把一元非线性回归分析和多元非线性回归分析合并为曲线回归分析五、回归分析的分类在对回归分析进行分类时,主要有两种分类方式7第二节相关分析第二节相关分析8一、相关关系的分类1.按相关关系涉及因素的多少单相关与复相关2.按相关关系的表现形式线性相关和非线性相关3.按相关的方向正相关和负相关4.按相关程度来分完全相关、不完全相关和不相关(完全不相关)对立、反义词一、相关关系的分类1.按相关关系涉及因素的多少9二、相关关系的度量在进行相关分析时,可通过相关表散点图计算相关系数二、相关关系的度量在进行相关分析时,可通过10相关表是根据现象变动样本资料编制出来的反映变量间相关关系的统计表散点图,是利用坐标系,将两变量相对应的变量值用坐标点形式描绘出来的二维数据图相关表是根据现象变动样本资料编制出来的反映变量间相关关系的统11三、相关系数相关表与散点图只能粗略的反映变量间相关关系的方向、形式和密切程度,要确切地反映相关关系的密切程度,还需计算相关系数相关系数有很多种形式,常用由卡尔.皮尔逊提出的相关系数三、相关系数相关表与散点图只能粗略的反映变量间相关关系的方向121.相关系数的计算相关系数用来度量的两个变量,设为x与y根据总体数据计算的两个变量之间线性相关强度的统计量,叫做总体相关系数,用ρ表示根据样本计算的两个变量之间线性相关强度的统计量,叫做样本相关系数,简称相关系数,用r表示相关系数r的测定方法有两种,第一种称积差法,第二种称简捷法r是ρ的一个估计量,得到ρ是不可能的,需要用r来估计ρ。另外,估计得到的值需要进行检验1.相关系数的计算相关系数用来度量的两个变量,设为x与y13第十章--相关与回归分析ppt课件14【例10-1】根据抽样知,某企业销售额与流通费用的相关情况,如表10-1,根据积差法与简捷法分别计算相关系数r。年份(年)销售额(万元)流通费用(万元)19981999200020012002200320042005200610163240741201972463451.83.15.27.710.413.318.821.228.3【例10-1】根据抽样知,某企业销售额与流通费用的相关情况,15第十章--相关与回归分析ppt课件162.相关系数的性质第一、相关系数介于-1到+1之间第二、r具有对称性,x与y的相关系数和y与x的相关系数相等第三、r的数值大小与x和y的原点及尺度无关2.相关系数的性质第一、相关系数介于-1到+1之间173.线性相关系数的分类第一、根据r的数值分为正相关、负相关第二、根据r数值,分为完全相关、不完全相关、完全不相关第三、根据r的数值,分为低度相关、中度相关、高度相关3.线性相关系数的分类第一、根据r的数值分为正相关、负相关18四、相关系数显著性检验相关系数是根据样本数据计算出来的,两个不相关的变量,其样本相关系数也可能较高两个相关性很高的变量,其样本相关系数也可能较低要从样本相关系数判断总体是否也具有这样的关系,需要对相关系数进行假设检验四、相关系数显著性检验相关系数是根据样本数据计算出来的,两个19第十章--相关与回归分析ppt课件20【例10-2】某银行25个月的不良贷款与贷款余额之间的相关系数r为0.8436,在0.05的显著性水平下,检验不良贷款与贷款余额之间的相关系数是否显著【例10-2】某银行25个月的不良贷款与贷款余额之间的相关系21第十章--相关与回归分析ppt课件22第三节一元线性回归分析第三节一元线性回归分析23一、一元线性回归模型1.回归模型的一般形式对于具有线性关系的两个变量,可以用一个方程来表示它们之间的线性关系描述因变量y如何依赖于自变量x和误差项ε的方程称为回归模型。对于只涉及一个自变量的一元线性回归模型可表示为一、一元线性回归模型1.回归模型的一般形式24第十章--相关与回归分析ppt课件253.回归方程描述因变量y的期望值如何依赖于自变量x的方程称为回归方程。根据对一元线性回归模型的假设,可以得到它的回归方程为3.回归方程264.估计的回归方程如果回归方程中的参数已知,对于一个给定的x值,利用回归方程就能计算出y的期望值用样本统计量代替回归方程中的未知参数,就得到估计的回归方程,简称回归直线4.估计的回归方程27二、参数估计与预测1.参数的最小二乘法估计对于回归直线,关键在于求解参数常用高斯提出的最小二乘法,也叫做最小平方法,它是使因变量的观察值y与估计值之间的离差平方和达到最小来求解二、参数估计与预测1.参数的最小二乘法估计28根据统计,70年代世界制造业总产量与世界制成品总出口量的变化关系如表10-2。求回归直线年度总产量年增长率(%)x总出口量年增长率(%)y19704.08.519714.08.019728.510.519739.515.519743.08.51975-1.0-4.519768.013.519775.05.019785.06.019794.07.0根据统计,70年代世界制造业总产量与世界制成品总出口量的变化29第十章--相关与回归分析ppt课件302.利用回归直线进行估计和预测(1)点估计利用估计的回归方程,对于x的某一个特定的值,求出y的一个估计值就是点估计点估计分两种:一个是平均值的点估计,一个是个别值的点估计点估计的条件下,对于同一个特定的,平均值的点估计和个别值的点估计的结果是一样的(2)区间估计利用估计的回归方程,对于x的一个特定值,求出y的一个估计值的区间就是区间估计区间估计有两种:一个是置信区间估计,它是对x的一个给定值,求出y的平均值的估计区间;一个是预测区间估计,它是对x的一个给定值,求出y的一个个别值的估计区间2.利用回归直线进行估计和预测(1)点估计31第十章--相关与回归分析ppt课件32【例10-4】某企业从有关资料中发现广告投入和产品销售有较密切的关系。近年该企业广告费和销售额资料见表10-3,若2003年广告费为120万元,请用一元线性回归求2003年产品销售额的置信区间与预测区间(α=0.05)年份广告费x(万元)销售额y(百万元)19941995199619971998199920002001200235526072858095100105182530384144495260【例10-4】某企业从有关资料中发现广告投入和产品销售有较密33第十章--相关与回归分析ppt课件34三、回归直线的拟合优度回归直线在一定程度上描述了变量x与变量y之间的数量关系利用方程,可根据自变量x的取值来估计或预测因变量y的取值,但估计或预测的精度如何将取决于回归直线对观测数据的拟合程度回归直线与各观测点的接近程度称为回归直线对数据的拟合优度常用判定系数、估计标准误差三、回归直线的拟合优度回归直线在一定程度上描述了变量x与变量351.判定系数因变量y的取值是不同的,y取值的这种波动称为变差。因变量y取值的变差来源于两个方面:一是由于自变量x的取值不同造成的,二是除x以外的其他因素的影响1.判定系数因变量y的取值是不同的,y取值的这种波动称为变差36总平方和可以分解为回归平方和、残差平方和两部分回归平方和SSR反映了y的总变差中,由于x与y之间的线性关系引起的y的变化部分残差平方和SSE反映了除了x对y的线性影响之外的其他因素对y变差的作用,是不能由回归直线来解释的y的变差部分可以看出,回归直线拟合的好坏取决于SSR及SSE的总平方和可以分解为回归平方和、残差平方和两部分37第十章--相关与回归分析ppt课件38【例10-5】根据WTO的统计数字,70年代世界制造业总产量与世界制成品总出口量的变化关系如表10-4,求判定系数年度总产量年增长率(%)x总出口量年增长率(%)y19704.08.519714.08.019728.510.519739.515.519743.08.51975-1.0-4.519768.013.519775.05.019785.06.019794.07.0【例10-5】根据WTO的统计数字,70年代世界制造业总产量392.估计标准误差设数据量为n,变量的个数为k,则SST的自由度为n-1,SSR的自由度为k-1,SSE的自由度为n-k估计标准误差,也称作估计标准误,是度量各实际观测点在直线周围散布状况的一个统计量2.估计标准误差设数据量为n,变量的个数为k,则SST的自由40【例10-6】某企业对车间9名学徒进行调查,得到学徒期限与每天产量情况如表10-5,求其估计标准误差编号学徒期(年)x日产量(件)y10.55021803110041.513052150621707218082.522092.5240合计151320【例10-6】某企业对车间9名学徒进行调查,得到学徒期限与每41第十章--相关与回归分析ppt课件42四、显著性检验显著性检验的主要目的是根据所建立的估计方程用自变量x来估计或预测因变量y的取值。当建立了估计方程后,还不能马上进行估计或预测,因为该估计方程是根据样本数据得到的,它是否真实的反映了变量x和y之间的关系,则需要通过检验后才能证实根据样本数据拟合回归方程时,实际上就已经假定变量x与y之间存在着线性关系,并假定误差项是一个服从正态分布的随机变量,且具有相同的方差。但这些假设是否成立需要检验显著性检验包括两方面线性关系检验回归系数检验四、显著性检验显著性检验的主要目的是根据所建立的估计方程用自43第十章--相关与回归分析ppt课件44【例10-7】某银行25个月的不良贷款与贷款余额之间的数据如表10-6,要求:在0.05的显著性水平下,检验不良贷款与贷款余额之间的线性关系是否显著【例10-7】某银行25个月的不良贷款与贷款余额之间的数据如452.回归系数的检验2.回归系数的检验46第十章--相关与回归分析ppt课件473.线性关系检验与回归系数检验的区别线性关系的检验是检验自变量与因变量是否可以用线性来表达,而回归系数的检验是对样本数据计算的回归系数检验总体中回归系数是否为0在一元线性回归中,自变量只有一个,线性关系检验与回归系数检验是等价的多元回归分析中,这两种检验的意义是不同的。线性关系检验只能用来检验总体回归关系的显著性,而回归系数检验可以对各个回归系数分别进行检验3.线性关系检验与回归系数检验的区别线性关系的检验是检验自变48第四节多元线性回归分析第四节多元线性回归分析49一、模型概述与假设1.模型概述经济活动中,经常会遇到某一现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况,这时需用多元线性回归分析多元线性回归分析预测法,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测和控制的方法为了和前面的一元线性回归分析有个比较,不再使用α、β而使用A、B与a、b多元线性回归预测模型一般式为一、模型概述与假设1.模型概述50二、参数估计与预测1.回归方程描述因变量y的期望值如何依赖于多个自变量x的方程称为多元线性回归方程多元线性回归方程为用样本统计量代替回归方程中的未知参数,就得到估计的多元线性回归方程二、参数估计与预测1.回归方程512.参数的最小二乘法估计2.参数的最小二乘法估计52【例10-9】某地区通过市场调查发现电冰箱销售量同居民新结婚户数、居民户均收入水平相关。该地区近年电冰箱销售量、新结婚户数和居民户均收入水平资料见教材表10-7。以电冰箱销售量(千台)为因变量y,以新结婚户数(千户)为自变量,以居民户均收入(千元)为自变量。若预计2003年该地区居民新婚户数为30.2千户,居民户均收入62.5千元。用二元线性回归预测该地区2003年电冰箱需求量【例10-9】某地区通过市场调查发现电冰箱销售量同居民新结婚53第十章--相关与回归分析ppt课件54三、回归直线的拟合优度多元线性回归分析,一般用于判断回归直线拟合优度的指标有多重判定系数修正多重判定系数估计标准误差三、回归直线的拟合优度多元线性回归分析,一般用于判断回归直线551.多重判定系数对多元线性回归方程而言,总平方和SST同样可以分解为回归平方和SSR及残差平方和SSE两部分SST=SSR+SSE多重判定系数,也称为复判定系数,是指在多元线性回归分析中,回归平方和占总平方和的比重1.多重判定系数对多元线性回归方程而言,总平方和SST同样可562.修正多重判定系数多重判定系数大小取决于SSE在SST的比重样本容量一定时,SST与自变量的个数无关,而SSE则会随着自变量个数的增加不断减少,至少不会增加。因此,它是自变量个数的非递减函数多元线性回归模型中,各回归模型所含的变量的数目未必相同,以多重判定系数的大小作为衡量拟合优度的尺度是不合适的用样本容量n和变量个数k去修正得到修正的多重判定系数,以避免增加自变量而高估多重判定系数2.修正多重判定系数多重判定系数大小取决于SSE在SST的比57某城市有关A商品需求的统计数据如表,以销售量作为因变量,以每个居民的月平均收入(百元)和A商品的价格(元)为自变量,得到回归直线为,计算修正的多重判定系数年次12345678910销售量y居民人均收入单价105210731582139514942010318104241231913523154某城市有关A商品需求的统计数据如表,以销售量作为因变量,以每58第十章--相关与回归分析ppt课件593.估计标准误差估计标准误差描述了回归直线附近的偏差,小的标准误差表明样本点接近回归直线。在多元回归中这一概念同样正确与一元线性回归方程类似,说明多元线性回归方程估计因变量的准确程度高低、反映回归方程拟合程度的统计指标是估计标准误差,公式为3.估计标准误差估计标准误差描述了回归直线附近的偏差,小的标60【例10-11】某地区通过市场调查发现电冰箱销售量同居民新结婚户数、居民户均收入水平相关。该地区近年电冰箱销售量、新结婚户数和居民户均收入水平资料见表。若回归直线为,求标准误差年份电冰箱销售量y(干台)新结婚户数x1(干户)居民户均收入x2(千元)1995199619971998199920002001200220263034404449552222.523.123.42424.52628.528.534.038.640.042.546.050.254.8【例10-11】某地区通过市场调查发现电冰箱销售量同居民新结61四、显著性检验当用多元线性回归直线去拟合因变量y与解释变量自变量之间的关系,在进行参数估计之前,我们只是根据一些分析和图形所作的一种假设究竟这些变量之间是否真正具有多元线性相关关系,还需进行相关统计显著性检验只有通过检验的模型,才能用于预测和分析四、显著性检验当用多元线性回归直线去拟合因变量y与解释变量自621.F检验1.F检
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电工电子技术 课件全套 潘学海 1 手电筒电路的连接与测试 -16.流水灯电路的整体安装与调试
- 计算机安全技术-4操作系统安全
- SCI论文写作与投稿 第2版-课件汇 0-课程介绍 -7 SCI论文摘要写作
- 妇产科围手术期护理讲课
- 家具店长培训
- 2025届上海崇明区高考二模高考数学试卷试题(含答案详解)
- 广东省韶关市乐昌市2025届高三下学期2月模拟演练测验语文试题(含答案)
- 内科病房住院制度管理
- 基层管理者品质培训
- 护理人才培养工程申请汇报
- 虚拟现实技术在医疗领域的应用
- 铁路客运段QC小组运用PDCA循环减少旅客列车乘降问题发生次数现场型成果汇报
- 会计信息系统(本) · 网络考试备考资料
- 红外测温培训课件
- 四百字作文格子稿纸(可打印编辑)
- 私募股权投资PE
- 模型的制作工具与材料
- 稀土功能材料及应用
- 算24点教学讲解课件
- 人教版五年级上册科学第五单元《太阳能热水器》单元试题(含答案)
- 【骨科-关节资料】髌股关节置换
评论
0/150
提交评论