第七章 相关分析_第1页
第七章 相关分析_第2页
第七章 相关分析_第3页
第七章 相关分析_第4页
第七章 相关分析_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章直线相关与回归分析含秩相关第一节相关分析的概念一、相关分析的概念:

相关分析是分析变量间是否有相关关系,确定相关关系是否存在,描述相关关系呈现的形式和方向,以及变量间相关的密切程度的方法。二、函数关系和相关关系:函数关系反映变量间的数量上,存在着确定的数量对应关系,这种关系可用数学函数关系表达式,由一个变量精确计算出另一个变量。见函数关系散点图和曲线。相关关系反映变量间存在数量上的相关关系,但不具有确定性的对应关系。见相关关系散点图和曲线。三、相关关系的种类(一)按相关程度划分可分为完全相关、不完全相关、和不相关。1.不相关。如果变量间彼此的数量变化互相独立,则其关系为不相关。自变量x变动时,因变量y的数值不随之相应变动。xyxy2.完全相关

如果一个变量的变化是由其他变量的数量变化所唯一确定,此时变量间的关系称为完全相关。函数关系是相关相关关系。3.不完全相关。如果变量间的关系介于不相关和完全相关之间,则称为不完全相关。(二)按相关方向划分可分为正相关和负相关

1.正相关。指两个变量之间的变化方向一致,都是呈增长或下降的趋势。即自变量x的值增加(或减少),因变量y的值也相应地增加(或减少),这样的关系就是正相关。2.负相关。指两个因素或变量之间变化方向相反,即自变量的数值增大(或减小),因变量随之减小(或增大)。(三)按相关的形式划分可分为线形相关和非线形相关1.直线相关(或线性相关)。当自变量x发生变动,因变量y值随之发生大致均等的变动,从图像上近似地表现为直线形式,这种相关通称为直线(或线性)相关。2.曲线(或非线性)相关。当自变量x值发生变动,因变量y也随之发生变动,这种变动不是均等的,在图像上的分布是各种不同的曲线形式,这种相关关系称为曲线(或非线性)相关。曲线相关可表现为抛物线、双曲线、指数曲线等非直线形式。(四)按变量多少划分可分为单相关、复相关

1.单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量。2.复相关:二个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量。

偏相关:在某一现象与多种现象相关的场合,当假定其他变量不边时,其中两个变量之间的相关关系称为偏相关。在实际工作中,如存在多个自变量,可抓住其中主要的自变量,研究其相关关系,而保持另一些因素不变,这时复相关为偏相关。四、相关分析的方法

相关分析一般可以借助相关系数与相关图来进行相关分析。(一)相关系数:相关系数是反映变量之间相关密切程度和相关方向的指标。相关系数的性质(1)相关系数的取值范围在-1和+1之间,即:–1≤r≤1。(2)计算结果,若r为正,则表明两变量为正相关;若r为负,则表明两变量为负相关。(3)相关系数r的数值越接近于1(–1或+1),表示相关系数越强;越接近于0,表示相关系数越弱。如果r=1或–1,则表示两个现象完全直线性相关。如果r=0,则表示两个现象完全不相关(不是直线相关)。(4)判断两变量线性相关密切程度的具体标准(二)相关图相关图又称散点图。当描述两变量相关关系时,它是以直角坐标系的横轴代表标量X,纵轴代表标量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。散点图可以直观反映变量间是否相关、关系形态(线性与否)和关系度。第二节直线相关分析一、直线相关的概念:直线相关分析是描述两变量间是否有直线关系以及直线关系的方向和密切程度的分析。二、直线(简单)相关系数的计算:

三、相关分析内容

相关分析通常包括考察随机变量观测数据的散点图、计算样本相关系数以及对总体相关系数的显著性检验等内容。散点图可以大致判断两个变量之间有无相关关系、变量间的关系形态以及变量之间的关系密切程度,但准确度量两个变量之间的关系密切程度,需要计算相关系数。一般情况下,总体相关系数ρ是未知的,通常是将样本相关系数r作为ρ的估计值,于是常用样本相关系数推断两变量间的相关关系.这一点要和相关系数的显著性检验结合起来应用。四、相关分析步骤例7-1以下资料选自一项研究。目的是探讨成年时身高是否与2岁时的身高(单位:英寸)有关。2岁身高(英寸3930323435363630成年身高(英寸)7l63636768687064(一)绘制X与Y的散点图:以2岁时的身高为横轴X,以成年时的身高为纵轴Y,首先绘制X与Y的散点图。从散点图上可以看出,2岁时的身高和成年时的身高呈直线相关的趋势,故可以计算线性相关系数。散点图(二)计算相关系数r(三)相关系数的假设检验

作为样本统计量,样本的相关系数也是有抽样误差,因此在计算出相关系数后,需检验r是否来自相关系数ρ=0的总体。(一)建立假设:Ho:ρ=0,两变量间无直线相关的关系;

H1:ρ≠0,两变量间有直线相关的关系;

α=0.05

(二)计算统计量:

1.t检验法本例中n=8,r=0.9456,按照公式计算如下:(三)确定概率,判断结果。以自由度为6查表,得p<0.05,按α=0.05的水准拒绝Ho,接受Hl,认为2岁时的身高和成年身高之间存在正相关。2.查表法:按自由度V=n-2=6查r界值表得:r0.05(6)=0.707,故p<0.05,接受Hl,认为2岁时的身高和成年身高之间存在正相关。V=n-2=8-2=6(四)总体相关系数区间估计相关系数的抽样分布仅在总体相关系数ρ=0时才是对称分布的,且当样本含量较大时,近似正态分布。而若从ρ≠0的总体中随机抽样,样本相关系数的分布是偏态的。此时便不能利用近似正态分布的原理,来对总体相关系数进行区间估计,需对r做z变换。可以证明,z服从均数为,标准差为的正态分布。利用近似正态分布原理,求出z的100(1-α)%可信区间上下限。z的100(1-α)%可信区间Z的上下限为:。本例z=1.7885,故,Z的95%可信区间上下限为:

=(0.9120,2.6650)再对z进行反变换,可得总体相关系数ρ的100(1-α)%可信区间上下限。总体相关系数ρ的95%可信区间计算总体相关系数ρ的95%可信区间上限时,是分别代入z的上下限值。上限值:下限值:

得总体相关系数ρ的95%可信区间(0.7221,0.9904)。第三节直线回归分析一、回归分析的概念与种类1.回归分析的概念回归分析的目的是设法找出变量间的数量依存关系,依存关系用函数关系式表达出来。也就是选择一个合适的数学模型,说明一个现象发生变化时,另一个变量变化情况。相关分析仅能说明现象间有无关系及密切程度,通常当我们通过相关分析确定了变量间存在着相关关系后,找出一个能够反映变量间变化关系的函数关系式,力求用一种函数式来构建它们之间的关系,这就是回归分析,所构建的函数关系式就称为回归方程。简单讲回归分析就是求出一个能够反映变量间变化关系的函数关系式(回归方程),从而可以根据自变量的给定值推断出应变量的可能值(或估计值)。

2.回归分析的种类(1)根据所涉及变量的多少不同,回归分析可分为简单回归和多元回归。简单线性回归又称一元回归或直线回归,是指两个变量之间的回归,研究一个自变量与另一个因变量的线性趋势数量关系。多元线性回归是研究多个自变量与一个因变量的线性趋势数量关系。(2)根据变量变化的表现形式不同,回归分析也可分为直线回归和曲线回归。对具有直线相关关系的现象,配之以直线方程进行回归分析,即直线回归;对具有曲线相关关系的现象,配之以曲线方程进行回归分析,则称为曲线回归。二、一元线性回归的概念

3.一元线性回归模型的前提条件1)线性:是指反应变量Y的总体平均值与自变量X呈线性关系;2)独立性:任意两个观察值之间相互独立;3)正态性:是指对于给定的X值,其对应的Y值的总体和线性模型的误差项ε均服从正态分布。(ε均服从均数为0的正态分布)4)等方差性:无论X如何取值,Y都有相同的方差。三、一元线性回归分析的假设检验回归分析的假设检验常用的分为:回归方程的显著性检验和回归系数的显著性检验两种。

1.一元线性回归方程的显著性检验(F检验)。检验自变量和因变量之间的线性关系是否显著。具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著,如果是显著的,两个变量之间存在线性关系;如果不显著,两个变量之间不存在线性关系。SS总=SS回+SS剩SS回为回归平方和,它反映在Y的总变异中,由于X与Y的直线关系,而使得Y变异减小的部分,也即在总平方和中可以用X解释的部分。SS回越大,说明回归效果越好。

SS剩为剩余平方和,它反映X对Y的线性影响之外的因素,对Y的总变异的影响,也即在总平方和中无法用X解释的部分。SS剩越小,说明直线回归的估计误差越小。假设检验步骤:

(1)提出假设:H0:线性关系不显著;H1:线性关系显著。(2)计算检验统计量F值。(3)确定概率,判断结果。按照显著性水平,并根据分子自由度1和分母自由度n-2找出临界值,并作出决策:若FF,拒绝H0;若F<F,接受H1,认为线性关系显著,方程成立。2.回归系数的显著性检验对于一元线性回归,回归方程的显著性检验与回归系数的显著性检验是等价的。可通过方差分析或t检验进行。

四、相关与回归分析应用注意事项

1.正确理解相关和回归分析。相关分析只是以相关系数来描述两个变量间相互关系的密切程度和方向,并不能阐明两事物或现象间一定存在因果关系。适合作相关和回归分析的资料通常有两种资料:(1)一个变量X是选定的,另一个变Y是从正态分布的总体中随机抽取的,宜作回归分析。(2)两变量X、Y(或X1、X2)都是从正态分布的总体中随机抽取的,即是正态双变量中的随机样本。若只需说明两变量间的相互关系可作相关分析.若需要由一个变量推算另一个变量可作回归分析。如果变量(一个或两个)呈明显偏态时,须经过适当的变量代换(如对数代换等),使资料接受正态分布后再做相关与回归分析;或者采用秩相关法。2.直线相关与回归的区别与联系(1)区别:

①相关分析要求两个变量均服从正态分布,而回归分析则有两种不同的模型。Ⅰ型回归:定x后对y进行测量,y须服从正态分布;Ⅱ型回归:x,y均须服从正态分布,如体重依身高的变动关系。

②对于同一资料,只能计算一个相关系数,而Ⅱ型回归可以计算由x推y和由y推x的两个回归方程,但两者不是反函数的关系。

③回归反映两变量间的依存关系,相关反映两变量间的相互关系。有相关联系不一定是因果联系。(2)联系:①同一资料r与b符号相同。②同一资料r与b的假设检验结果是等价的。③r与b可以互相换算。④相关是相互关系,双方向,-1≤r≤+1,无单位,有相关不一定有回归;回归是依存关系,单方向,无限,有单位,有回归一定有相关。3.在回归分析中,由X推算Y与由Y推算X的回归方程是不同的,不可混淆。4.就一般计算程序来说,在进行线性相关与回归分析前,先绘制散点图,如变量X、Y存在线性关系时,再出相关系数r并对其进行假设检验,如果r显著并有进行回归分析之必要,再建立回归方程。5.回归方程的适用范围有其限度,一般仅适用于自变量X的原数据范围内,而不能任意外推。五、直线回归分析公式以例7-1探讨成年时身高是否与2岁时的身高有关资料为例。按2岁儿童身高为X,成年时身高Y,已知数据:公式建立方程:其中,t检验:公式Sb为样本回归系数标准误:Syx为剩余标准差:

为残差平方和:

=

公式方差分析:SS总=SS回归+SS残差即SS总:为y的总离均差平方和。反映y值间的总变异。即SS回归:为回归平方和,反映在y的总变异中,x对y线性关系解释部分变异。即SS残差:为回归平方和,反映x对y线性关系解释变异以外部分的变异。注:SS残差同SS剩余含有。第四节直线回归分析内容1、建立直线回归方程:以例7-1探讨成年时身高是否与2岁时的身高有关资料为例。首先按2岁儿童身高为X,成年时身高Y,建立回归方程。(1)根据原始数据和例7.1中所建立的散点图,初步判断本例资料有直线趋势,可以建立直线回归方程。(2)由例7.1所得数据,求a和b:(3)建立方程儿童与成年身高比较(4)绘制回归直线2.回归系数的假设检验(t检验)t检验步骤建立假设:计算统计量:确定概率,判断结果3.回归方程的假设检验(F检验)

求出F值后,以v1=1,v2=n-2查表确定概率,判断结果。方差分析步骤:Ho:成年身高与2岁时的身高问没有直线回归关系;H1:成年身高与2岁时的身高间有直线回归关系;α=0.05。分别计算SS总、SS回归、SS剩余:

=60.3571

SS剩余=SS总-SS回归=7.1429,方差分析表

今v1=1,v2=6,查F界值表,得p<0.05,按α=0.05的检验水准拒绝H0,接受H1,认为成年体重与2岁体重间存在直线回归关系。回归系数假设检验中,t与F关系:第五节直线回归的应用

回归分析的主要作用之一,就是用回归方程进行预测。就是通过易测量的预报因子x,预测不易测量的预报量y,进行点值估计和区间估计。本节讨论预报量的区间估计。(一)回归系数β的(1-α)可信区间。利用最小二乘法计算出的b只是总体回归系数β的点值估计,总体回归系数β的(1-α)可信区间为:v=n-2,b±tα/2,n-2Sb。Sb为回归系数标准误。根据例7-1资料,已知b=0.9286,Sb=0.1304得:β的95%可信区间为:0.9286±t0.05,6×0.1304=(0.6095,1.2477)。此区间不含0,按α=0.05水准,同样可得到回归系数不为0的结论。(二)总体回归线的可信区间把X0代入方程所求得的预测值,为样本条件均数;是指总体中当x为一定值时,Y预测值的均数,为总体条件均数。对进行区间估计时,的(1-α)可信区间为:其标准误为:当X0=38英寸时,代入回归方程,得=70.4644英寸。

根据以上计算结果,可以得到这样的结论:用区间(68.8769,72.0519)英寸,估计2岁时身高为38英寸的儿童成年后身高总体均数.可信度为95%。(三)个体Y值的容许区间估计个体Y值的容许区间估计指总体中X为某定值X0(或Xi)时,个体Y值得波动范围,波动范围大小取决于标准差SY。个体Y值(1-α)的容许区间估计:

当X0=38英寸时,个体Y值95%的容许区间计算:根据以上计算结果,可以得到这样的结论:2岁时身高38英寸的成年总体中,有95%的成年人身高在(67.3583,73.5705)英寸范围内。第六节Spearman秩相关

由于直线相关要求双变量均服从正态分布,当不能满足这个条件时,需采用非参数的秩相关分析,常用Spearman秩相关。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论