理学直线相关与回归_第1页
理学直线相关与回归_第2页
理学直线相关与回归_第3页
理学直线相关与回归_第4页
理学直线相关与回归_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本章重点掌握:直线相关、直线回归的基本概念相关系数、回归系数的意义相关、回归分析的注意事项熟悉:相关、回归系数的假设检验直线回归的应用等级相关的计算

客观世界中的种种现象可分为确定性现象和非确定性现象两类。就两个变量而言,如果对一个变量的每个可能取值,另一个变量都有完全确定的值与之对应,则称这两个变量之间的关系呈现函数关系。(圆周长=2

r)在生物医学研究中,变量之间的关系多不是确定的,表现为具有随机性的一种“趋势”,也即自变量(independentvariable)取不同数值时,应变量(dependentvariable)可以是不同的取值,而且某值的出现完全是随机的。但是对应Xi在一定范围内的不同取值,应变量Y随X的变化呈现一定的趋势。人的身高与体重、收缩压与年龄之间的关系,一般说来,身高愈高的人,体重也重一些;年龄愈长者,收缩压也越高,从总体上看,都有某变量随另一变量变化的趋势。但这种关系显然不是函数关系。相关与回归分析就是研究两变量之间非确定性关系的一种统计方法。一、线性相关的基本概念直线相关是研究两变量x、y之间协同变化的数量关系的分析方法。第一节线性相关为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。

体重(kg),x

肺活量(

),YL10名女中学生体重与肺活量散点图二、相关系数意义:描述两个变量直线相关的方向与密切 程度的指标。表示方法:

-1r

1正相关负相关0<r<1-1<r<0

相关系数示意:相关系数示意r=1r=-1完全正相关完全负相关r=0r=0r=0零相关零相关零相关非线性相关●●●●●●●●●●●●

计算方法:__(x-x)(y-y)l

xyr=————————————=——————___________________________(x-x)2(y-y)2

l

xx·l

yy

__(x)(y)l

xy=(x-x)(y-y)=xy-—————n__(x)2lxx=(x-x)2=x2-————n_(y)2lyy=(y-y)2=y2-————n_编号身高(cm)前臂长(cm)XYX2Y2XY

(1)(2)(3)(4)(5)(6)1170477990289002209217342726629929176431604470402560019364155416355240251681............11166443174285612116合计18915008618532608122810例:10.1

11名男青年身高与前臂长的测量结果11名男青年身高与前臂长散点图本例:

n=11Σx=1891Σx2=326081

Σy=500Σy2=22810Σxy=86185

三、相关系数的假设检验目的:检验r

是否来自总体相关系数

=0

的 总体,从而推断两变量的相关关系是否 成立。常用t检验。公式:r-0rtr=———=——————,

Sr

1-r2———n-2________

=n-2Sr

为相关系数的标准误相关系数的假设检验步骤:1.建立检验假设:H0:H1:

α=0.052.计算统计量:已知:r=0.8012n=113.确定P值,作出推论υ=11-2=9t0.005(9)=3.690tr=4.017>3.690P<0.005查表法(附表11):0.8012>r0.005(9)=0.776,P<0.005。(结果一致)四、线性相关分析时的注意事项两个变量之间的关系是双向的,分析前先绘制散点图;x、y是双变量正态分布资料的随机变量;样本相关系数是总体相关系数的一个估计值,与总体相关系数间存在抽样误差,判断前必须作假设检验;两个事物之间的关系可能是因果关系,也可能是相互伴随的数量关系。第二节直线回归例如:前例已知儿子的身高与父亲的身高有相关关系,能否通过父亲的身高估计儿子的身高呢?由于相关关系具有不确定性,不能用数学上的函数关系来描述。回归是一种研究两变量之间非确定性数量依存关系的统计方法。直线回归(linearregression)是找出一个直线方程来反映这种数量依存关系。一、直线回归的概念:

直线回归是分析两变量间线性依存变化的数量关系。11名男青年身高与前臂长散点图

对资料的要求:

自变量x为正态总体中的随机变量或指定变量,应变量y是服从正态分布的随机变量。二、直线回归方程的表达式及计算

a为回归直线在y轴上的截距

b为回归系数,即回归直线的斜率a和b的估计采用最小二乘法原则,即保证各实测点至回归直线的纵向距离平方和为最小。第i个观察值之因变量观察值第i个观察值之因变量估计值b为回归系数,直线的斜率(slope)。表示自变量X每改变一个单位,应变量Y平均变动的单位数。

b>0,回归直线从左下方走向右上方,即因变量Y随X的增加而增加;

b<0,回归直线从左上方走向右下方,即因变量Y随X的增加而减少;

b=0,回归直线平行于X轴,即Y与X无统一线性依存关系。a为回归直线在Y轴上的截距(intercept)

a>0,表示直线与Y交点在原点上方

a<0,表示直线与Y交点在原点下方

a=0,表示直线通过原点温度(oC)与蛙的心率(次/分)

对象温度(X)心率(Y)XYX2Y212510425241144161213611663612148141126419651022220100484612232761445297143244819610248162946425684191832576324102410203468040011561122337264841086

合计132246362220246569例10.3

1.绘制散点图2.计算回归系数及常数项:3.建立回归方程:4.作回归直线

在X实测值范围内,任取两个相距较远的点A、B,连接两点即得回归直线。本例取x1=3,x2=21;代入回归方程得:(3,8.65)和(17,6.06)两点的直线即为所求的回归直线。

绘制回归直线

三、回归系数的假设检验

前面所求得的回归方程是由样本的信息所计算,抽样误差在所难免,必须对其进行假设检验。我们知道,即使X、Y的总体回归系数β为零,由于抽样误差的存在,其样本回归系数b也不一定为零。因此需作β是否为零的假设检验,可用方差分析或t检验。

目的:推断总体回归系数

是否为0,确定所求得的回归方程是否成立。

假设:H0:

=0

H1:

0

=0.05(一)方差分析首先我们分析一下Y的离均差平方和。对于任一点P(X,Y),其纵坐标被回归线和截成三段:

因变量Y的离均差平方和划分示意P(X,Y)

Y

xP(X,Y)对于任一x和y,有:对于许多x和y,有:Y的离均差平方和,又称总平方和,表示应变量y总的变异,即SS总。回归平方和,总变异中,x和y的线性关系引起的变异,即SS回。其它因素对y的影响,即SS剩余。因此,Y的总变异及其自由度分别分解为

SS总=SS回+SS剩余

υ总=υ回+υ剩余按照方差分析的思想,构造检验统计量

υ回=1,υ剩余=n-21.建立检验假设:H0:β=0H1:β≠0

α=0.052.计算统计量

方差分析表变异来源SS

υ

MS

F

P总变异1067.5510回归1020.2311020.23194.04<0.01剩余47.3295.2583.结论查F界值表,υ回归=1,υ剩余=9,F0.01(1,9)=10.56P<0.01,拒绝H0,接受H1,可认为温度与蛙的心率之间存在线性回归关系。(二)t检验

(y-y)2Syx=—————n-2

|b-0|bt=————=——,

=n-2SbSb

SyxSb=————————____________(x-x)2_

^_____________

如果没有计算MS剩余,则有下列公式:本例:查t界值表,t0.05(9)=3.25,P<0.01同一资料方差分布结果和t检验结果一致。四、应用直线回归方程应注意的问题作回归分析要有实际意义;作回归分析时,如果两变量间是依存因果关系,则“因”变量为x,“果”变量为y;若无因果关系,则以易于测量和较稳定的变量为X。回归分析中,应变量是随机变量,自变量可以是随机变量(Ⅱ型回归模型),也可以是给定的量(Ⅰ型回归模型)。凡随机变量均要求服从正态分布。经检验拒绝了无效假设的回归方程才有意义。直线回归方程的适用范围一般以自变量的取值范围为限,不要随意扩大。五、直线回归方程的应用(补充)

描述两变量的数量依存关系;利用回归方程对应变量Y进行估计。利用回归方程进行统计控制,即利用回归方程进行逆估计(由y估计x)。第三节直线回归与直线相关的联系与区别(二)直线相关反映两变量的互存关系(双向);直线回归反映两变量的依存关系(单向)。(一)相关分析要求双变量正态分布回归分析:Ⅰ型回归模型(因变量服从正态分布);Ⅱ型回归模型(双变量正态分布)区别:1)同一组资料的r

与b的正负符号是一致的;2)同一组资料的r

和b的假设检验结果是一致的,即tr=tb;3)当r

=

1时,两变量存在直线回归关系;二、线性相关与回归的联系三、相关回归可以互相解释:r的平方称为确定系数此式说明当SS总不变的情况下,回归平方和的大小决定了确定系数的大小,r2反映出回归平方和在总平方和中所占的比重。R2越接近1,回归效果越好;利用确定系数可以从回归角度对相关程度做进一步的了解。例如,r=0.5,r2=0.25,说明一个变量的变异仅有25%由另一变量所引起。第四节等级相关(Spearman)适用于双随机变量不服从正态分布时。等级相关系数(rekcorrelationcoefficient)

-1<rs<+1

n为样本含量,d表示x、y的秩次之差。不同地区饮水中氟含量与氟骨症患病率编号饮水中氟含量氟骨症患病率

x秩次y秩次dd2(1)(2)(3)(4)(5)(6)=(3)-(5)(7)=(6)210.48122.372-112

0.64223.313

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论