第08章 线性相关与回归_第1页
第08章 线性相关与回归_第2页
第08章 线性相关与回归_第3页
第08章 线性相关与回归_第4页
第08章 线性相关与回归_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物统计学线性相关与回归线性相关与回归计量资料单变量的统计描述与统计推断。试问:为何说是单变量?因为每种类型只牵涉一个变量。许多现象之间(即变量之间)都有相互联系在这些有关系的现象中,它们之间联系的程度和性质也各不相同。有的现象之间因果不清,只是伴随关系。相关与回归就是用于研究和解释两个变量之间相互关系的。 十九世纪英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,并做成散点图。 历史背景: 儿子身高(Y,英

2、寸)与父亲身高(X,英寸)存在线性关系: 即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。33.73 0.516YXRegression 释义小插曲F.Galton Galton(1822-1911)是一位人类学家,著名生物学家达尔文的表兄弟,早年学医,曾在剑桥大学念书。尽管他的数学不是很好,但在人类学和优生学研究中萌发的统计学思想,对生物统计的发展产生了深远影响,如“回归”、 “双变量正态分布”的概念等。他没有子女,但一生写了9部书,发表了近200篇论文。

3、1860年当选英国皇家学会会员,1909年被封为爵士,1910年获得英国皇家学会Copley奖。Karl Pearson Karl Pearson (英,18571936)是Francis Galton 的得意门生,他开创了统计方法学。他对统计学的主要贡献:变异数据的处理、分布曲线的选配、卡方检验的提出、回归与相关的发展。本章内容n 第一节 线性相关n 第二节 线性回归n 第三节 相关与回归的关系n 第四节 等级相关 (自学)第一节 线性相关n 线性相关描述了什么问题?n 线性相关分析的具体步骤是什么?n 线性相关分析对资料有什么要求?n 如何对这些要求进行检查或检验?n 仅用样本线性相关系数

4、能否说明相关程度?n 总体相关系数非常接近1,能否说明Y=X?例:考察身高与体重的伴随关系 体重体重身高散点图散点图问题:通过散点图可以得出什么结论? 线性相关的概念l 图中不是每个身材较高的对象必有较重的体重,但大多数对象的体重Y与其身高X的变化呈一种伴随增大或减小的直线变化趋势,这种现象称为直线相关 。l刻画两个随机变量之间线性相关程度称为线性相关(linear correlation)线性相关的类型 X和Y伴随同时上升或伴随下降称为线性正相关(Linear Positive Correlation) X和Y无任何直线伴随变化趋势,则称为零相关 (零线性相关) 。 X与Y的反方向伴随直线变

5、化趋势称为线性负相关(linear negative correlation) 正相关 负相关 称零相关 完全正相关 完全负相关线性相关系数n 线性相关系数 (linear correlation coeffiecient) ,简称相关系数。或 Pearson相关系数 n 相关系数是描述两个变量之间线性相关的程度和相关方向的统计指标。样本相关系数用 r 表示,总体相关系数用表示。 相关系数的特点:1 r 1r0为正相关r0为负相关r0为零相关或无相关|r| 0.4 为低度线性相关;0.4 |r| 0.7为中度线性相关;0.7|r| 1.0为高度线性相关。相关系数的计算公式lxx(x 的离均差平

6、方和 )lyy (y 的离均差平方和 )lxy (x和y的离均差乘积和,简称乘积和)22()()()()XYXX YYlXXYYrllXXYYnXXlXX22)(nYYlYY22)(nYXXYlXY)(实例分析 健康调查发现男青年身高与他的前臂长有关; 于是设想,通过测量男青年的身高,可以预测其前臂长,以便更好对男青年的发育情况进行评价。因此随机抽取了11名男青年组成样本,分别测量每个人的身高和前臂长。 问男青年的身高与前臂长之间的相关系数是多少?是正相关还是负相关? 分析问题:总体-样本、 目的、变量、关系 11名男青年身高与前臂长的测量结果(cm)分析步骤一、绘制散点图二、计算xyyyxx

7、lllyx, N=11 X=1891 Y=500 X2=89599 Y2=22810 XY=85185rXXYYXXYYX YXYnXXnYYn()()()2().22222身高(身高(cm) 前臂长前臂长(cm)男青年身高与前臂长的测量结果(cm)的散点图计算结果r 的值说明了两个变量X与Y之间关联的密切程度(绝对值大小)与关联的性质(正负号)。2286185 1891 500/11(895991891 /11)(22810500 /11)0.8009rn上例中的相关系数 r 等于0.8009,说明了11例样本中男青年的身高与前臂长之间存在相关关系。但是,这11例只是总体中的一个样本,由此得

8、到的相关系数会存在抽样误差。n 因为,总体相关系数()为零时,由于抽样误差,从总体抽出的11例,其 r 可能不等于零。n 这就要对 r 进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。 目的:是判断两变量的总体是否有相关关系t检验:样本相关系数r与总体相关系数的比较 2102 nrrSrtr2 n 查表法:直接查相关系数界值表得到相应的概率P。 相关系数的假设检验 资料相关系数的假设检验步骤一、建立假设,确立检验水准二、选择并计算检验统计量三、计算P值,做出统计推断相关系数的假设检验也可以采用查表法,以相关系数r和自由度 v=n-2查r界值表11,做出统计推断

9、结论。本例查表法P0.002,结论为拒绝H0,接受H1,与t检验结论一致。 1. 作散点图: 分析要两变量之间有无相关关系可先作散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再计算相关系数和作假设检验; 2. 正态性:相关系数的计算要求两个变量必须服从正态分布,如果资料不服从正态分布,应先通过变量变换,使得两个变量正态化,再根据变换值计算相关系数; 相关分析应注意的问题 3. 作假设检验: 依据公式计算出的相关系数仅是样本相关系,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关关系及相关的密切程度,必须作假设检验。 当检验拒绝了

10、无效假设时,才可以认为两个事物之间存在着相关关系,然后再根据计算出的相关系数大小来判断根相关关系的密切程度;4. 相关关系:相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素 年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。 5. 在确实存在相关关系的前提下(?),如果 r 的绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;如果r 绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另

11、一个变量的值无多大帮助。 6. 一般说来,当样本量较大,并对 r 进行假设检验,有统计学意义时,r 的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r 的绝对值大于0.2,小于等于0.4时,则两个变量低度相关。 从上面的分析可以看出男青年身高与前臂长有相关关系n 如果知道了一位男青年的身高n 能推断出其前臂长吗?n 能预测男青年的前臂长可能在什么范围内?n 这要用直线回归的方法来解决。 n直线回归方程(总体)是描述什么?n 直线回归分析对资料有什么要求?n 直线回归分析的具体基本步骤是什么?n 在直线回归中,Y 是否一定为随机变量

12、?n 在直线回归中,X 是否一定为随机变量?n 在直线回归中,预测值 的意义是什么?n 在直线回归中,回归系数b的意义是什么?第二节 线性回归分析 n 知道了两个变量之间有线性相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是函数关系,它们之间的关系式叫函数方程。n 实际上,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为线性回归方程,这种关系为线性回归。n直线回归就是用来描述一个变量如何依赖于另一个变量。n其任务就是要找出一个变量随

13、另一个变量变化的直线方程,我们把这个直线方程叫做直线回归方程。 直线回归是分析直线回归是分析成对观测数据成对观测数据中两变量间中两变量间线性线性 依存关系依存关系的方法。的方法。n其任务就是要找出一个变量随另一个变量变化其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做的直线方程,我们把这个直线方程叫做线性回线性回归方程归方程。u “回归回归”是一个借用已久因而相沿成习的统计是一个借用已久因而相沿成习的统计学学 术语。术语。 直线回归的概念直线回归的概念直线回归的概念n 直线回归是分析成对观测数据中两变量间线性依存关系的方法。n 其任务就是要找出一个变量随另一个变量变化

14、的直线方程,我们把这个直线方程叫做线性回归方程。n “回归”是一个借用已久因而相沿成习的统计学术语。直线回归模型1、 资料数据格式 2、变 量Y (应变量,结果变量):一般是难测(或不可测)的变量,(要求呈正态分布的随机变量) X (自变量,原因变量):一般是可测(或易测)的变量(可是随机变量或人为给定的量)33.730.516YX 儿子身高(Y,英寸)与父亲身高(X,英寸)存在 线性关系:3、直线回归方程的一般形式为:a 为常数项,又称截距;b 为斜率,又称回归系数,表示自变量X增 加(或减少)一个单位,应变量Y平均改变的单位数。bXaY 回归分析按回归变量个数分按回归形式分一元回归多元回归

15、线形回归非线性回归回归的类型线性回归方程建立的思路Xxy|bXaY样本总体最小二乘法 Y与X之间为线性关系 选出一条最能反映Y与X之间关系规律的直线 y 回归方程原理图最小二乘法最小二乘法一般而言,所求的a和b应能使每个样本观测点(X i,Y i)与回归直线之间的偏差尽可能小,即使观察值与拟合值的误差平方和Q达到最小。回归直线的有关性质直线通过均点 各点到该回归线纵向距离平方和较到其它任何直线者为小。 2)YY( )Y,X( X XY bXaY 为来自为来自的一个样本的一个样本对于X 各个取值,相应Y的总体均数直线回归分析的步骤 n 将原始数据在坐标图上绘散点图n 根据样本数据求得估计值 a、

16、bn 即得样本回归方程,并作回归线n对回归方程作假设检验,并对方程的拟合效果作出评价 bXaY 例 有人研究了温度对蛙的心率的影响,得到了表中 所示的资料,试进行回归分析。图 回归直线、回归系数、残差示意图05101520253035400510152025温 度()蛙心率(分/次)例3的解题步骤1. 作散点图:2. 计算回归系数与常数项 132X 20242X12X 246Y26610Y 22.363Y 3622XY/6 7 0 / 4 4 01 .5 2 3x yx xbll22.3631.523124.087aYbX222/2024132 /11440 xxlXXn222/6610246

17、 /111180.54yylYYn/3622132246 /11670 xylXYXYna) 直线回归方程的建立4.087 1.523yx本例是以最小二乘法原理得出以下的回归方程: b) 回归直线的描绘 根据求得的回归方程,可以在自变量 X 的实测范围内任取两个值,代入方程中,求得相应的两个Y值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。回归直线一定经过(0,a ),( )。这两点可以用来核对图线绘制是否正确。 ,XY图回归直线、回归系数、残差示意图05101520253035400510152025=4.087+1.523X残差残差1个单位个单位b个单位个

18、单位ieyy温 度 ()蛙心率(分/次)Y= 4.087+1.523X 是否一定能说明温度与蛙的心率之间存在回归关系? 与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。为了判断抽样误差的影响,需对回归系数进行假设检验。总体的回归系数一般用表示。 回归方程的假设检验方差分析 ( 自学 )t 检验 (常用)方 法:t 检验常采用基本思想:是利用样本回归系数 b与总体回归系数进行比较来判断回归方程是否成立。bsbt0 XXXYblSS. 22)(2.nSSnyySXY剩回归方程的假设检验

19、剩余标准差:表示固定了X(即扣除了温度的影响)后,Y(蛙的心率)方面仍有变异,是由X 以外的其它因素(如生长环境、个体差异等)引起的。XYS.回归系数假设检验- t 检验一、建立假设,确立检验水准是否试问所建直线回归方程试问所建直线回归方程 成立?成立?二、选择并计算检验统计量三、计算P值,做出统计推断查t值表,得P0.01,按a=0.05水准, 拒绝H0, 接受H1。可认为温度与蛙的心率之间总体直线关系存在,并且可用样本直线回归方程估计。线性回归的应用和注意事项 n 描述两变量之间的依存关系:通过回归系数的假设检验,若认为两变量之间存在直线回归关系,则可用直线回归来描述。n 利用回归方程进行

20、预测 :把自变量代入回归方程,对应变量进行估计,可求出应变量的波动范围。例如,已知某男青年的身高,代入回归方程,再用区间估计的方法,即可知道男青年的前臂长的范围。 n 利用回归方程进行统计控制 :空气质量与汽车数量1. 应用: 1) 实际意义 进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。例如,有人说,孩子长,公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加荒谬。2) LINE 性 变量是否符合建立线性模型的假定条件(线性、独立性、正态率、方差齐性,简写为LINE),可考察残差图来分析变量是否满足LINE假定.2. 应注意的问题3) 利用散点图 对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系然后再进行回归分析。4) 变量范围 回归分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量原来的回归关系。即回归直线方程一般不能外延。X的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论