第7章相关与回归分析_第1页
第7章相关与回归分析_第2页
第7章相关与回归分析_第3页
第7章相关与回归分析_第4页
第7章相关与回归分析_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章相关与回归分析弗朗西斯﹒高尔顿先生被誉为现代相关和回归的创始人1875年,他利用豌豆试验来确定尺寸的遗传规律。他挑选7组不同尺寸的豌豆,说服他的朋友每一组种植10粒种子,最后把原始的豌豆种子与新长的豌豆种子进行尺寸比较当结果被绘制出来之后,他发现并非每一个子代都与父代一样,相同的是,尺寸小的豌豆会得到更大的子代,而尺寸大的豌豆却得到较小的子代高尔顿将此方法用到人类身上,他将父母和孩子的身高转换成z值,对比父母的身高与他们孩子的身高。他并发现孩子们的z值偏离均值的程度小于父母的偏离程度,即非常矮小的父母倾向于有偏高的孩子;而非常高大的父母则倾向于有偏矮的孩子。它把这叫做对均值的“回归”,这一发现构成了回归分析的基础7.1相关分析变量间的关系及分类统计变量之间的关系,存在着两种不同的类型,一种是函数关系,另一种是相关关系函数关系是指变量之间存在着的一种固定的、严格的数量依存关系,即一个变量数值的变动,都会有另一个变量的数值与之完全对应相关关系是指变量之间存在着的一种非确定性的数量依存关系,即一个变量发生数值变化时,另一变量也相应地发生数值变化,但其数值是不固定的太阳和地球的运动就是函数你和你父亲之间就是相关不可能是函数,如是函数,他动一下胳膊,你就要动一下腿相关分析是研究两个或两个以上的变量之间相关程度及大小的一种统计方法其主要内容包括:1.确定现象之间是否存在相关关系,以及相关关系呈现的形态2.确定相关关系的密切程度3.相关系数的检验回归分析是寻找存在相关关系的变量间的数学表达式,并进行统计推断的一种统计方法主要内容包括:1.进行参数估计。即如何根据样本数据对回归模型的参数进行估计,求出具体的回归方程2.进行显著性检验。即对回归方程、参数估计值进行显著性检验与校正,以便使回归方程或参数更加优良3.进行预测和控制四、相关与回归相关仅判定变量之间是否存在关系(存在性)这关系的大小、正确与否都是回归分析的内容(关系的具体表现)相关关系的种类1.按相关关系涉及变量(因素)的多少单相关与复相关2.按相关关系的表现形式线性相关和非线性相关3.按相关的方向正相关和负相关4.按相关程度来分完全相关、不完全相关和不相关(完全不相关)对立、反义词相关关系的度量在进行相关分析时,可通过相关表P205散点图计算相关系数散点图,是利用坐标系,将两变量相对应的变量值用坐标点形式描绘出来的二维数据图相关系数相关表与散点图只能粗略的反映变量间相关关系的方向、形式和密切程度,要确切地反映相关关系的密切程度,还需计算相关系数相关系数有很多种形式,常用由卡尔.皮尔逊提出的相关系数相关系数的计算相关系数用来度量的两个变量,设为x与y根据总体数据计算的两个变量之间线性相关强度的统计量,叫做总体相关系数,用ρ表示根据样本计算的两个变量之间线性相关强度的统计量,叫做样本相关系数,简称相关系数,用r表示相关系数r的测定方法有两种,第一种称积差法,第二种称简捷法r是ρ的一个估计量,得到ρ是不可能的,需要用r来估计ρ。另外,估计得到的值需要进行检验---略例题(表7.1)2012年各地区农村居民家庭人均纯收入与人均消费支出地区人均纯收入x人均消费支出y甘肃4506.74146.2贵州47533961.7青海53645338.9云南5416.54561.3………北京16475.711878.9上海17803.711971.5性质与特点相关系数介于-1到+1之间r=0,说明xy没有线性相关关系r>0,正相关;r<0,负相关r绝对值=1,函数(完全相关);r=1,完全正相关;r=-1,完全负相关r具有对称性,x与y的相关系数和y与x的相关系数相等r只能测量线性r只说明线性程度,不能说明具体变化关系—-回归r的数值大小与x和y的原点及尺度无关课堂练习根据抽样知,某企业销售额与流通费用的相关情况,如表,根据积差法与简捷法分别计算相关系数r。年份(年)销售额(万元)流通费用(万元)19981999200020012002200320042005200610163240741201972463451.83.15.27.710.413.318.821.228.3回归分析回归分析的分类回归分析分类,主要有两种第一,根据变量的数目,可以分类一元回归、多元回归第二,根据自变量与因变量的表现形式,分为线性与非线性回归分析包括四个方向:一元线性回归分析、多元线性回归分析、一元非线性回归分析、多元非线性回归分析一元非线性回归分析、多元非线性回归分析合并为曲线回归分析---略一元线性回归分析一元线性回归模型

(回归函数)回归模型的一般形式对于具有线性关系的两个变量,可以用一个方程来表示它们之间的线性关系描述因变量y如何依赖于自变量x和误差项ε的方程称为回归模型。对于只涉及一个自变量的一元线性回归模型可表示为回归方程描述因变量y的期望值如何依赖于自变量x的方程称为回归方程。根据对一元线性回归模型的假设,可以得到它的回归方程为估计的回归方程(样本函数)如果回归方程中的参数已知,对于一个给定的x值,利用回归方程就能计算出y的期望值用样本统计量代替回归方程中的未知参数,就得到估计的回归方程,简称回归直线、样本函数参数估计与预测参数的最小二乘法估计对于回归直线,关键在于求解参数常用高斯提出的最小二乘法,也叫做最小平方法,它是使因变量的观察值y与估计值之间的离差平方和达到最小来求解给出给地区财政税收收入与地区生产总值的关系,求回归直线地区财政税收收入y生产总值x北京3124.7517879.4天津1105.5612893.88河北1560.5926575.01山西1045.2212112.83………宁夏207.022341.29新疆698.937505.31课堂练习根据统计,70年代世界制造业总产量与世界制成品总出口量的变化关系如表。求回归直线年度总产量年增长率(%)x总出口量年增长率(%)y19704.08.519714.08.019728.510.519739.515.519743.08.51975-1.0-4.519768.013.519775.05.019785.06.019794.07.0拟合优度拟合优度,主要是用来说明回归直线是不是更好的拟合所有的散点判定系数因变量y的取值是不同的,y取值的这种波动称为变差。因变量y取值的变差来源于两个方面:一是由于自变量x的取值不同造成的,二是除x以外的其他因素的影响总平方和可以分解为回归平方和、残差平方和两部分回归平方和SSR反映了y的总变差中,由于x与y之间的线性关系引起的y的变化部分残差平方和SSE反映了除了x对y的线性影响之外的其他因素对y变差的作用,是不能由回归直线来解释的y的变差部分可以看出,回归直线拟合的好坏取决于SSR及SSE的根据WTO的统计数字,70年代世界制造业总产量与世界制成品总出口量的变化关系如表,求判定系数年度总产量年增长率(%)x总出口量年增长率(%)y19704.08.519714.08.019728.510.519739.515.519743.08.51975-1.0-4.519768.013.519775.05.019785.06.019794.07.0的计算太复杂,在一元线性回归中,判定系数在数值上等于相关系数的平方7.3显著性检验与回归预测回归直线求出后,还不可以直接进行预测等应用根据样本做出的方程并不一定真,需要检验检验:回归方程的检验、回归系数的检验可否使用线性去描述F每一个回归参数计算值是否为真t一元线性回归,两检验重合例题Excel2003版:工具-加载宏-加载…工具-数据分析-回归2007版:菜单旁右键-自定义快速访问工具栏-加载项-分析工具库…数据-数据分析见Excel利用回归直线进行估计和预测(1)点估计利用估计的回归方程,对于x的某一个特定的值,求出y的一个估计值就是点估计点估计分两种:一个是平均值的点估计,一个是个别值的点估计点估计的条件下,对于同一个特定的,平均值的点估计和个别值的点估计的结果是一样的(2)区间估计利用估计的回归方程,对于x的一个特定值,求出y的一个估计值的区间就是区间估计某企业从有关资料中发现广告投入和产品销售有较密切的关系。近年该企业广告费和销售额资料见表10-3,若2003年广告费为120万元,请用一元线性回归求2003年产品销售额的预测区间(α=0.05)年份广告费x(万元)销售额y(百万元)199419951996199719981999200020012002355260728580951001051825303841444952607.4多元线性回归分析一、模型概述与假设1.模型概述经济活动中,经常会遇到某一现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况,这时需用多元线性回归分析多元线性回归分析预测法,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测和控制的方法多元线性回归预测模型一般式为二、参数估计与预测1.回归方程描述因变量y的期望值如何依赖于多个自变量x的方程称为多元线性回归方程多元线性回归方程为用样本统计量代替回归方程中的未知参数,就得到估计的多元线性回归方程2.参数的最小二乘法估计课堂练习某地区通过市场调查发现电冰箱销售量同居民新结婚户数、居民户均收入水平相关。该地区近年电冰箱销售量、新结婚户数和居民户均收入水平资料见教材表。以电冰箱销售量(千台)为因变量y,以新结婚户数(千户)为自变量,以居民户均收入(千元)为自变量。若预计2010年该地区居民新婚户数为30.2千户,居民户均收入62.5千元。用二元线性回归预测该地区2003年电冰箱需求量年份冰箱销量y新结婚数x1居民户均收入x22002202228.520032622.53420043023.138.620053423.4402006402442.520074424.5462008492650.22095528.554.8回归直线的拟合优度多元线性回归分析,一般用于判断回归直线拟合优度的指标有多重判定系数修正多重判定系数估计标准误差多重判定系数对多元线性回归方程而言,总平方和SST同样可以分解为回归平方和SSR及残差平方和SSE两部分SST=SSR+SSE多重判定系数,也称为复判定系数,是指在多元线性回归分析中,回归平方和占总平方和的比重曲线回归分析曲线回归概述直线关系是两变量间最简单的一种关系曲线回归分析的基本任务是通过两个相关变量x与y的实际观测数据建立曲线回归方程,以揭示x与y间的曲线联系的形式曲线回归分析最困难和首要的工作是确定自变量与因变量间的曲线关系的类型曲线回归分析的基本过程先将x或y进行变量转换对新变量进行直线回归分析、建立直线回归方程并进行显著性检验和区间估计将新变量还原为原变量,由新变量的直线回归方程和置信区间得出原变量的曲线回归方程和置信区间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论