第五 相关与回归分析_第1页
第五 相关与回归分析_第2页
第五 相关与回归分析_第3页
第五 相关与回归分析_第4页
第五 相关与回归分析_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五相关与回归分析第一页,共五十四页,编辑于2023年,星期一相关与回归分析是研究变量之间存在的相互依存关系的一种统计分析方法。变量间的关系有两种:一类是变量间存在着完全确定性的关系,这类变量间的关系称为函数关系。另一类是变量间存在着不完全确定的数量依存关系,不能用精确的数学公式来表示,这些变量间的关系称为相关关系。存在相关关系的变量称为相关变量。前言第二页,共五十四页,编辑于2023年,星期一相关变量间的关系:一种是因果关系,即一个变量的变化受另一个或几个变量的影响;另一种是平行关系,即两个以上变量之间共同受到另外因素的影响。相关分析主要研究呈平行关系的相关变量之间的关系。回归分析研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为因变量。回归分析事先都要确定自变量与因变量,相关分析一般无需确定自变量与因变量。第三页,共五十四页,编辑于2023年,星期一第一节相关分析的基本问题一、相关关系与函数关系第四页,共五十四页,编辑于2023年,星期一函数关系是指变量间存在的严格确定的数量依存关系(一一对应)。当变量x取某个数值时,

y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量。所有的观测点落在一条线上。xy1、函数关系第五页,共五十四页,编辑于2023年,星期一2、相关关系

变量间存在不严格确定的数量依存关系当变量x取某个值时,变量y的取值可能有几个。各观测点分布在直线周围可以表示为:y=f(x)+(随机因素)xy第六页,共五十四页,编辑于2023年,星期一3、相关关系与函数关系的区别与联系

(1)都可用函数式加以描述,但表达式不同(2)函数有时也可能表现为相关关系(3)相关分析有时需要利用函数关系数学表达式来研究(4)相关关系是相关分析的研究对象,函数关系是相关分析的工具第七页,共五十四页,编辑于2023年,星期一二、相关关系的种类

相关关系变量个数的多少相关的密切程度单相关多元相关相关的方向相关的形式线性相关非线性相关完全相关不完全相关不相关正相关负相关第八页,共五十四页,编辑于2023年,星期一三、相关分析的作用及内容相关分析的目的在于探讨相互关系的密切程度及变化的规律性,以进行必要的预测和控制内容主要包括以下两方面:(一)确定变量之间有无相关关系及其表现形式(二)确定相关关系的密切程度(主要通过相关图表与相关系数测算)第九页,共五十四页,编辑于2023年,星期一第二节相关关系的测度(一)定性判断(二)利用相关表判断(三)利用相关图判断(四)计算相关系数第十页,共五十四页,编辑于2023年,星期一*简单相关表利用未分组的原始资料,将两个现象的变量值一一对应地填列在同一张表格上,这种表就叫简单相关表,简单相关表适用于资料的项数较少的情况。年份销售额(万元)流通费用(万元)19981999200020012002200320042005200610163240741201972463451.83.15.27.710.413.318.821.228.3销售额与流通费用相关表某企业销售额与流通费用的散点图第十一页,共五十四页,编辑于2023年,星期一*单变量分组表

只对自变量进行分组,因变量不分组,只是计算出其次数和平均数,这种表称为单变量分组表。

家庭月收入(元)家庭户数(户)家庭月平均支出(元)8000以上7000~80006000~70005000~60004000~50003000~40002000~30001000~20001000以下

3369834201163025282026522486225519601536976662某市家庭收入与消费支出相关表家庭收入与家庭消费支出的相关图第十二页,共五十四页,编辑于2023年,星期一家庭月收入(元)家庭月支出(元)合计500以下500~10001000~15001500~20002000~25002500~30003000以上8000以上7000~80006000~70005000~60004000~50003000~40002000~30001000~20001000以下23145316942114713551321221111336983420116合计51320242783100*双变量分组表第十三页,共五十四页,编辑于2023年,星期一不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关散点图第十四页,共五十四页,编辑于2023年,星期一二、相关系数的计算1、含义说明两变量之间线性相关密切程度的统计分析指标。用r表示。绝对值r界于0与1之间

当r<1,表示负相关;r>1,表示正相关绝对值r越接近1,线性相关越密切绝对值r越接近0,相关程度越弱数值说明(一)皮尔逊线性相关系数r第十五页,共五十四页,编辑于2023年,星期一-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加第十六页,共五十四页,编辑于2023年,星期一通常:当相关系数的绝对值:小于0.3时,表示不相关或微弱相关介于0.3至0.5,表示低度相关介于0.5至0.8,表示显著相关大于0.8时,表示高度相关第十七页,共五十四页,编辑于2023年,星期一2、直线单相关系数r的计算公式(过程)

(1)计算自变量数列的标准差

(2)计算因变量的标准差

(3)计算两者的协方差

(4)计算相关系数

第十八页,共五十四页,编辑于2023年,星期一3.相关系数的其他公式(1)积差法公式:

(2)积差法简化式:

(3)简捷公式:

第十九页,共五十四页,编辑于2023年,星期一例1:某企业某种产品产量与单位成本的资料如下:计算直线相关系数产量(千件)单位成本(元/件)273372471373469568理论上可以先通过定性判断、画散点图等确定两个变量间是否有关系,在此基础上可以直接用公式计算相关系数。公式的选择可以根据实际的资料和计算条件来确定。注意:在计算相关系数时,无需确定自变量和因变量,所以x,y的确定是任意的。第二十页,共五十四页,编辑于2023年,星期一用简捷公式的相关系数计算表产量x(千件)单位成本y(元/件)xyx2y2273146453293722169518447128416504137321995329469276164761568340254624合计2142614817930268r=-0.9091即单位成本与产量间存在着高度的线性负相关关系。第二十一页,共五十四页,编辑于2023年,星期一(二)时间序列自相关的测定时间数列自相关是考察变量值在动态上的相关情况。1.变量值动态上相关有两种情况:(1)时间数列的自相关:即某一个变量自身随时间不同,其数值在前后期之间表现出一定的依存关系。(2)两个或两个以上时间数列间的相关:即两个或两个以上的变量在不同时间中表现出一定的依存关系。(这种情况可以视同两变量间的相关)2.时间序列自相关也有正相关、负相关,线性相关与非线,性相关等情况。当考虑本期数值与上期数值呈线性相关的情况时,可以计算时间数列的自相关系数:

第二十二页,共五十四页,编辑于2023年,星期一(三)斯皮尔曼等级相关系数的计算1.等级相关的含义就是把有关联的数量标志或品质标志的具体表现按等级次序排列,形成X和Y这两个序列,再测定这两个序列之间的相关程度,得到的相关系数即为等级相关系数。常用的有斯皮尔曼相关系数、肯特尔相关系数等。2.等级相关的优缺点优点:简单易行、应用广泛,适用于不精确计量标志缺点:精确度稍差于按积差法计算的相关系数

第二十三页,共五十四页,编辑于2023年,星期一3.斯皮尔曼等级相关系数的计算计算步骤定等级依此计算每对观察值相应的等级差D计算D2代入公式第二十四页,共五十四页,编辑于2023年,星期一例2:以下是两组消费者对十种商品的评分资料,据此计算两组资料间的等级相关系数编号甲组评分乙组评分183782808438584490805797567273777868688097075108173合计计算等级相关系数,首先应将原数据转化为等级,本例中甲组最低分是68分,则可将它的等级数定为1,70分的等级数就是2,72分的为3,依次类推,如果两个数值相等,则值以平均位置数代替。第二十五页,共五十四页,编辑于2023年,星期一等级相关系数计算表编号甲组评分乙组评分等级x等级yD2183788642808468.56.253858498.50.254908010795797554.50.256727332.50.257778641036868701109707524.56.2510817372.520.25合计82.25代入公式得:R=0.05第二十六页,共五十四页,编辑于2023年,星期一*r的显著性检验通常我们计算的相关系数都是根据样本数据计算得到的,其数值大小带有一定的随机性。样本相关能否说明总体的相关?需要经过假设性检验。计算t统计量:服从自由度为n-2的t分布给定显著性水平,得临界值。当t大于临界值,拒绝H0,认为x与y的线性相关性显著。否则可能来自于总体相关系数等于0的总体。第二十七页,共五十四页,编辑于2023年,星期一第三节回归分析(一)概念:回归分析是在相关分析基础上对具有相关关系的两个或两个以上变量之间的数量变化进行数量测定,配合一定的模型,以便对因变量进行估计或预测的一种统计分析方法。回归分析的实质是在相关分析的基础上,研究现象间的数量变化规律。一、回归分析的含义第二十八页,共五十四页,编辑于2023年,星期一(二)回归分析的特点

1、在众多变量中,必须确定一个为因变量,其余为自变量;

2、在没有明显因果关系的两个变量中,可求得两个回归方程;(y对x或x对y皆可)

3、回归方程的作用在于以自变量估计因变量的可能值或限定因变量的范围来推断自变量的控制范围;

4、自变量的系数为回归系数。符号正则表示变量间正相关,负则表示变量间负相关。

5、相关分析中两变量都是随机的,回归分析中因变量是随机的,但自变量是给定的。第二十九页,共五十四页,编辑于2023年,星期一二、回归分析的内容(一)根据研究目的和变量间的内在联系,确定自变量和因变量(二)确定回归分析模型的类型及数学表达式(三)估计参数并对回归分析模型进行评价(四)根据自变量的给定值确定因变量的数值第三十页,共五十四页,编辑于2023年,星期一三、回归模型的种类第三十一页,共五十四页,编辑于2023年,星期一四、一元线性回归模型描述因变量y

如何依赖于自变量x

和误差项

的方程称为回归模型。一元线性回归模型可表示为

y=a

+bx+ey是x的线性函数(部分)加上误差项(1)线性部分反映了由于x的变化而引起的y的变化。(2)误差项

是随机变量。反映了除x和y之间的线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性a

和b

称为模型的参数(一)模型的基本理论第三十二页,共五十四页,编辑于2023年,星期一误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x值,y的期望值为E(y)=a+b

x对于所有的x值,ε的方差σ2都相同误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0,σ2)*独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关。*对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关基本假设第三十三页,共五十四页,编辑于2023年,星期一描述y的平均值或期望值如何依赖于x的方程称为回归方程。一元线性回归方程的表现形式为:

E(y)=a+b

x*方程的图示是一条直线,也称为直线回归方程*a表示回归直线在y轴上的截距,即当x=0时y的期望值。*b表示直线的斜率,称为回归系数,反映当x每变动一个单位时,y的平均变动值。回归方程第三十四页,共五十四页,编辑于2023年,星期一

要求:实际值(观察值)与理论值(趋势值)的离差平方和达到最小。即:用这种方法求出的回归直线是原有资料的“最佳”拟合直线。(二)参数的估计方法---最小二乘估计法第三十五页,共五十四页,编辑于2023年,星期一

整理得:最后得到:

第三十六页,共五十四页,编辑于2023年,星期一(三)回归分析的应用在计算相关系数时,我们曾列出了一个企业的产量和单位成本的两组数据,通过计算,我们得出了这两个变量呈现高度负相关的结论。那么进一步研究,来看看它们之间到底呈现怎样的数量关系呢?产量的变动对成本的具体影响又是如何呢?我们可以用最小二乘法来求解参数,作出判断和预测。第三十七页,共五十四页,编辑于2023年,星期一例3回归分析计算表产量x(千件)单位成本y(元/件)xyx2273146437221694712841637321994692761656834025合计21426148179由于是进行回归分析,所以必须确定自变量和因变量,在无明显因果关系时,理论上可以拟合两条回归方程,视要求选择。而如果变量间有明显因果关系时,必须将“因”作为自变量,“果”作为因变量。本例中我们研究产量变动对成本的影响,故以产量为x,成本为y。第三十八页,共五十四页,编辑于2023年,星期一解得:则成本依产量回归的方程为:Yc=77.37-1.82x回归系数b=-1.82说明当产量每增加1千件时,单位成本平均下降1.82元。两者呈负相关。同时,用回归方程还可以进行预测,例:当产量达到10千件时,单位成本会降到66.55元。第三十九页,共五十四页,编辑于2023年,星期一(四)估计标准误差概念:它是衡量回归方程代表性大小的统计分析指标,反映实际观察值在回归直线周围的分散状况,又称回归估计标准误。计算公式:或第四十页,共五十四页,编辑于2023年,星期一回归分析计算表产量x(千件)单位成本y(元/件)xyx2y2273146453293722169518447128416504137321995329469276164761568340254624合计2142614817930268第四十一页,共五十四页,编辑于2023年,星期一(五)变差及其分解1、变差的产生:在直线回归中,因变量y的大小取值是不同的,它围绕平均值上下波动。y取值的这种波动称为变差。变差来源于两个方面一是由于自变量x的取值不同造成的。二是除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响造成的。对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示第四十二页,共五十四页,编辑于2023年,星期一xyy{}}变差构成图解:第四十三页,共五十四页,编辑于2023年,星期一2、变差的分解

TSS=SSR+SSE总平方和(TSS){回归平方和(SSR)残差平方和(SSE){{第四十四页,共五十四页,编辑于2023年,星期一(1)总平方和(TSS)反映因变量的n个观察值与其均值的总离差(2)回归平方和(SSR)反映由于x与y之间的线性关系引起的y的取值变化,也称可解释的平方和。说明自变量x的变化对因变量y取值变化的影响。(3)残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和。第四十五页,共五十四页,编辑于2023年,星期一3、判定系数r2

回归平方和占总

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论