




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七相关分析和回归分析第一页,共六十五页,编辑于2023年,星期一第一节变量间的相关关系相关的概念相关分析的内容相关系数及其计算相关系数的检验第二页,共六十五页,编辑于2023年,星期一一、变量相关的概念xy变量间的函数关系是一一对应的确定关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,
y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量1、某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px(p为单价)2、圆的面积(S)与半径之间的关系可表示为S=R2
3、企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1x2x3
第三页,共六十五页,编辑于2023年,星期一xy变量间的相关关系现象之间存在的一种非确定性的数量依存关系(家庭收入和储蓄)变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确定。当变量x取某个值时,变量y的取值可能有几个。1、商品的消费量(y)与居民收入(x)之间的关系2、商品销售额(y)与广告费支出(x)之间的关系3、粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系4、收入水平(y)与受教育程度(x)之间的关系5、父亲身高(y)与子女身高(x)之间的关系第四页,共六十五页,编辑于2023年,星期一相关关系的类型(课本第114页)相关关系正相关负相关相关方向变量多少单相关复相关相关形式线性相关非线性相关完全相关中度相关低度相关相关程度弱相关高度相关第五页,共六十五页,编辑于2023年,星期一相关关系的图示不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关第六页,共六十五页,编辑于2023年,星期一二、相关分析的内容(1)判断现象之间有无相关关系(2)判断相关关系的方向、表现形态和密切程度特点:不必区分自变量和因变量是回归分析的基础手段定性分析、相关表、相关图、相关系数第七页,共六十五页,编辑于2023年,星期一相关表和相关图
将变量X与Y对应数据用统计表反映,形成相关表。探讨变量x,y的相关关系时,常须先做出散点图(ScatterDiagram),以坐标系上的点代表x,y的观察值,可以直观地考察变量之间联系程度,并且有助于选择合适的估计模型。第八页,共六十五页,编辑于2023年,星期一相关表“Click”公司对40个销售地区的调查结果见表第九页,共六十五页,编辑于2023年,星期一
相关图(见前“相关关系的图示”)
图:Click宝珠笔的地区调查散点图由“click”公司的散点图可以看到销售额随每月电视广告时数增加时增加(a图);某地区销售代表人数变多时,该地区的销售额也随之上升(b图)。a图和b图进一步表示销售额与各变量之间的关系呈直线关系。现在问题在于各变量之间的紧密关系究竟强到何种程度。这就涉及到一个常用的指标——相关系数。第十页,共六十五页,编辑于2023年,星期一三、相关系数及其计算1、对变量之间关系密切程度的度量2、对两个变量之间线性相关程度的度量称为简单相关系数(偏相关系数与复相关系数见课本第115页)xy——变量x和y的协方差x——变量x的标准差y——变量y的标准差第十一页,共六十五页,编辑于2023年,星期一相关系数的演变公式或化简为第十二页,共六十五页,编辑于2023年,星期一相关系数取值及其意义1、r
的取值范围是[-1,1]2、|r|=1,为完全相关r=1,为完全正相关;r=-1,为完全负正相关3、r=0,不存在线性相关关系相关4、-1r<0,为负相关;0<r1,为正相关5、|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切-1.0+1.00-0.5+0.5无线性相关完全正相关负相关程度增加r正相关程度增加完全负相关第十三页,共六十五页,编辑于2023年,星期一1、双胞胎身高间的相关系数是r=0.952、美国25—34岁男子收入与受教育程度r=0.34
美国55—64岁男子收入与受教育程度r=0.44生活中的相关:第十四页,共六十五页,编辑于2023年,星期一两点注意1、r=0只表明不存在线性相关,而不能说明是否存在非线性相关(亦即:r=0时可能存在曲线相关)。2、r值仅表明两变量相关程度,不表明因果关系。例:美国18—74岁男子身高与体重之间的相关系数约为0.54,以下说法正确的是:(1)较高的男子趋于较重(2)体重较重的男子趋于较高(3)体重与身高之间的相关系数为0.54(4)如果多吃一些从而增加体重,你的身材就会变高。第十五页,共六十五页,编辑于2023年,星期一
表:我国人均国民收入与人均消费金额数据单位:元年份人均国民收入x人均消费金额y年份人均国民收入人均消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148相关系数算例例:在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到1981~1993年的样本数据(xi,yi),i=1,2,…,13,数据见表,计算相关系数。第十六页,共六十五页,编辑于2023年,星期一根据样本相关系数的计算公式有
人均国民收入与人均消费金额之间的相关系数为0.9987第十七页,共六十五页,编辑于2023年,星期一上面介绍的是简单相关系数,其次还有复相关系数,偏相关系数和等级相关系数等。(偏相关系数与复相关系数见课本第115页)等级相关系数有些变量无法用数量定大小,只能以等级排序。如才智高低、事态轻重、色泽深浅、效率大小、味道好坏等。斯皮尔曼等级相关系数第十八页,共六十五页,编辑于2023年,星期一例:确定学校名气和毕业生表现业绩之间是否存在相关联?学校12345678910学校名气10791623854毕业生表现排名83729451061差距(d)242-1-3-2-2-2-13差距平方(d2)41641944419第十九页,共六十五页,编辑于2023年,星期一四、相关系数的显著性检验
样本数据(r值)表明两个变量存在相关关系,是否能说明总体变量也存在相关关系?检验步骤1、提出假设:H0:;H1:02、计算检验统计量3、确定显著性水平,并作出决策若t>t,拒绝H0
若t<t,接受H0第二十页,共六十五页,编辑于2023年,星期一相关系数的显著性检验
(实例)
对前例计算的相关系数进行显著性检(0.05)1、提出假设:H0:;H1:02、计算检验的统计量3、根据显著性水平=0.05,查t分布表得t(n-2)=2.201由于t=64.9809>t(13-2)=2.201,拒绝H0,人均消费金额与人均国民收入之间的相关关系显著第二十一页,共六十五页,编辑于2023年,星期一第二节简单回归分析回归分析的内容回归模型和回归方程简单线性回归(一元线性回归方程)的建立(拟合)线性回归方程拟合优度的测定回归方程的显著性检验回归预测第二十二页,共六十五页,编辑于2023年,星期一回归方法描述一个变量如何地依赖另一个变量。身高和体重;成绩与努力程度;工作好坏与实力、机遇等“回归”一词来源于生物学。英国生物统计学家高尔顿根据1078对父子身高的散点图发现,虽然身材高的父母比身材矮的父母倾向于有高的孩子,但平均而言,父母身材高的其子要矮些,而身材矮小的,其子要高些。这种遗传上身高趋于一般,“退化到平庸”的现象,高尔顿称作回归。高尔顿的学生皮尔逊继续研究,把回归的概念和数学方法联系起来,把代表现象之间一般数量关系的直线或曲线称为回归直线或回归曲线。第二十三页,共六十五页,编辑于2023年,星期一回归:借用的遗传学概念,现指变量之间的一般数量关系。回归分析:用函数关系近似表达现象之间数量变化的一般规律。反映现象间相关关系数量变化规律的函数表达式称为回归模型或方程。回归分析的特点两个变量不是对等的,必须区分自变量和因变量回归方程是用来由自变量的给定值来推算因变量数值的。自变量一般是给定的,因变量是随机的。回归分析是相关分析的目的第二十四页,共六十五页,编辑于2023年,星期一回归分析与相关分析的区别(见课本113页)1、相关分析中,变量x
变量y处于平等的地位;回归分析中,变量y称为因变量(dependentvariable),处在被解释的地位,x称为自变量(independentvariable)
,用于预测因变量的变化2、相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x
可以是随机变量,也可以是非随机的确定变量3、相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制第二十五页,共六十五页,编辑于2023年,星期一一、回归分析的内容
1、简单线性回归方程的拟合。从一组样本数据出发,确定变量之间的数学关系式2、拟合优度的测定及回归方程的显著性检验。对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3、回归预测。利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度第二十六页,共六十五页,编辑于2023年,星期一二、回归模型和回归方程一个自变量两个及两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归回归模型的类型第二十七页,共六十五页,编辑于2023年,星期一回归模型1、回答“变量之间是什么样的关系?”2、方程中运用1个数字的因变量(响应变量)被预测的变量1个或多个数字的或分类的自变量(解释变量)用于预测的变量3、主要用于预测和估计第二十八页,共六十五页,编辑于2023年,星期一一元线性回归模型(概念要点)1、当只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归2、对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系3、描述因变量y如何依赖于自变量x和误差项
的方程称为回归模型第二十九页,共六十五页,编辑于2023年,星期一一元线性回归模型(概念要点)
对于只涉及一个自变量的简单线性回归模型可表示为
模型中,y是x的线性函数(部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项
是随机变量反映了除x和y之间的线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性0和1称为模型的参数第三十页,共六十五页,编辑于2023年,星期一一元线性回归模型(基本假定)1、误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x值,y的期望值为
E(y)=a+bx2、对于所有的x值,ε的方差σ2都相同3、误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0,σ2)独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关第三十一页,共六十五页,编辑于2023年,星期一回归方程(概念要点)1、描述y的平均值或期望值如何依赖于x的方程称为回归方程2、简单线性回归方程的形式如下
E(y)=a+b
x方程的图示是一条直线,因此也称为直线回归方程a是回归直线在y轴上的截距,是当x=0时y的期望值b是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值第三十二页,共六十五页,编辑于2023年,星期一三、简单线性回归(一元线性回归方程)的建立(拟合)一元回归方程建立的前提条件1、r的绝对值大于0.62、有线性关系参数a
和b的最小二乘法估计第三十三页,共六十五页,编辑于2023年,星期一最小二乘法(图示)xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}ei=yi-yi^第三十四页,共六十五页,编辑于2023年,星期一最小二乘法(公式推导见课本359页)
(
和
的计算公式)
根据最小二乘法的要求,可得求解和的标准方程如下第三十五页,共六十五页,编辑于2023年,星期一估计方程的求法(实例)
例:根据前例中的数据,配合人均消费金额对人均国民收入的回归方程
根据求解公式得第三十六页,共六十五页,编辑于2023年,星期一估计方程
人均消费金额y对人均国民收入x的回归方程为y=54.22286+0.52638x^第三十七页,共六十五页,编辑于2023年,星期一估计方程的求法
(Excel的输出结果)第三十八页,共六十五页,编辑于2023年,星期一四、线性回归方程拟合优度的测定(判定系数、估计标准误差)1、因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面由于自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响2、对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差
来表示总变差的分解第三十九页,共六十五页,编辑于2023年,星期一离差平方和的分解(图示)离差分解图第四十页,共六十五页,编辑于2023年,星期一离差平方和的分解(三个平方和的关系)2、两端平方后求和有1、从图上看有SST=SSR+SSE总变差平方和(SST){回归平方和(SSR){残差平方和(SSE){第四十一页,共六十五页,编辑于2023年,星期一变差平方和的分解
(三个平方和的意义)1、总平方和(SST)反映因变量的n个观察值与其均值的总离差2、回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和3、剩余平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和第四十二页,共六十五页,编辑于2023年,星期一判定系数r21、反映回归直线的拟合程度取值范围在[0,1]之间
r21,说明回归方程拟合的越好;r20,说明回归方程拟合的越差判定系数等于相关系数的平方,即r2=(r)2(证明见课本357页第四十三页,共六十五页,编辑于2023年,星期一估计标准误差Sy1、反映实际观察值在回归直线周围的分散状况2、从另一个角度说明了回归直线的拟合程度3、Sy越小,回归方程拟合得越好。第四十四页,共六十五页,编辑于2023年,星期一相关和回归分析之间的联系相关系数r和回归系数b的关系相关系数r与估计标准误差Sy的关系第四十五页,共六十五页,编辑于2023年,星期一应用相关分析与回归分析应注意的问题1、定性分析与定量分析相结合2、注意客观现象的数量界限3、注意社会经济现象的复杂性4、注意相关分析与回归分析的辨证关系第四十六页,共六十五页,编辑于2023年,星期一五、回归分析的显著性检验
线性回归方程的显著性检验
回归系数b的检验
相关系数的检验第四十七页,共六十五页,编辑于2023年,星期一在根据样本数据拟合回归方程时,我们首先假设变量x和y之间存在线性关系,但这种假设是否成立,需通过检验才能证实——回归方程显著性检验或线性关系的检验(F检验:检验自变量和因变量之间的线性关系是否显著)通过最小二乘法得到的能否作为回归方程中b的估计值?——回归系数的检验(t检验:检验自变量x对因变量y的影响是否显著)为什么要进行检验?如何进行检验?第四十八页,共六十五页,编辑于2023年,星期一回归方程的显著性检验
(线性关系的检验
)1、检验自变量和因变量之间的线性关系是否显著2、具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,两个变量之间存在线性关系如果不显著,两个变量之间不存在线性关系第四十九页,共六十五页,编辑于2023年,星期一回归方程的显著性检验
(检验的步骤)1、提出假设H0:线性关系不显著(方程不显著)2、计算检验统计量F3、确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F4、作出决策:若FF,拒绝H0;若F<F,接受H0第五十页,共六十五页,编辑于2023年,星期一回归方程的显著性检验
(方差分析表)(续前例)Excel
输出的方差分析表平方和均方第五十一页,共六十五页,编辑于2023年,星期一回归系数的显著性检验
2、在一元线性回归中,等价于回归方程的显著性检验1、检验自变量x对因变量y的影响是否显著第五十二页,共六十五页,编辑于2023年,星期一回归系数的显著性检验
(步骤)1、提出假设bH0:b
=0(没有线性关系)H1:b
0(有线性关系)2、计算检验的统计量3、确定显著性水平,并进行决策t>t,拒绝H0;t<t,接受H0第五十三页,共六十五页,编辑于2023年,星期一回归系数的显著性检验
(Excel输出的结果)第五十四页,共六十五页,编辑于2023年,星期一一点注意在一元线性回归中,F检验和t检验是等价的;但在多元线性回归中,这两种检验的意义是不同的。F检验是检验整个回归关系的显著性,而t检验则是检验回归中各个系数的显著性。第五十五页,共六十五页,编辑于2023年,星期一四、回归预测回归方程通过显著性检验后,可以作回归预测。给定一x0值,可根据回归方程求得y0的估计值,现要按一定的概率推断总体中相应的因变量的可能数值。第五十六页,共六十五页,编辑于2023年,星期一第三节多元线性回归多元线性回归模型回归参数的估计回归方程的显著性检验回归系数的显著性检验多元线性回归的预测第五十七页,共六十五页,编辑于2023年,星期一多元线性回归模型(概念要点)一个因变量与两个及两个以上自变量之间的回归描述因变量y如何依赖于自变量x1
,x2
,…,
xp
和误差项
的方程称为多元线性回归模型涉及p个自变量的多元线性回归模型可表示为
b0
,b1,b2
,,bp是参数
是被称为误差项的随机变量
y是x1,,x2
,,xp
的线性函数加上误差项
说明了包含在y里面但不能被p个自变量的线性关系所解释的变异性第五十八页,共六十五页,编辑于2023年,星期一多元线性回归模型(概念要点)对于n组实际观察数据(yi;xi1,,xi2
,,xip),(i=1,2,…,n),多元线性回归模型可表示为y1
=b0+b1x11+b2x12
++
bpx1p
+e1y2=b0+b1x21
+b2x22
++
bpx2p
+e2
yn=b0+b1xn1
+b2xn2
++
bpxnp
+en{……第五十九页,共六十五页,编辑于2023年,星期一多元线性回归模型(基本假定)1、自变量x1,x2,…,xp是确定性变量,不是随机变量2、随机误差项ε的期望值为0,且方差σ2都相同3、误差项ε是一个服从正态分布的随机变量,即ε~N(0,σ2),且相互独立第六十页,共六十五页,编辑于2023年,星期一多元线性回归方程(概念要点)1、描述y的平均值或期望值如何依赖于x1,x1
,…,xp的方程称为多元线性回归方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 事业单位工会活动方案
- 税务顾问服务协议书
- 云计算服务平台建设合同
- 桩基工程施工专业分包规定合同
- 合同付款补充协议书
- 烟草产品购销合同
- 公司商铺租赁合同书
- 独家代理销售合同
- 办公效率提升解决方案实践
- 旅游行业线上营销推广协议
- TCETA 001-2021 演艺灯具型号命名规则
- c语言期末机考(大连理工大学题库)
- 煤矿从业人员考试题库全答案(word版)
- 最简易的帕累托图制作方法简介PPT通用课件
- 2019年工程设计收费标准表
- 城市轨道交通应急处理课程标准
- (完整版)振幅调制与解调习题及其解答
- 抗震支架施工安装合同
- 政法书记在全县公安工作会议上的讲话
- 财务合规培训课件PPT
- 会展视觉识别设计PPT课件
评论
0/150
提交评论