医学精品课件:线性相关与回归_第1页
医学精品课件:线性相关与回归_第2页
医学精品课件:线性相关与回归_第3页
医学精品课件:线性相关与回归_第4页
医学精品课件:线性相关与回归_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医学统计学,线性相关与回归 Correlation and Regression,大量的医学科研与实践中,经常会遇到对两个变量之间关系的研究。 糖尿病病人的血糖与胰岛素水平的关系; 某人群年龄与收缩压的关系; 儿童身高与体重的关系; 动物实验中动物进食量与增加体重的关系等。 常用相关与回归分析,属双变量分析范畴(bivariate analysis,线性相关 (linear correlation,当两事物或现象在数量上的协同变化呈直线趋势时则称为直线相关,又称简单相关。 用于分析双变量正态分布资料。表示两变量相关关系的重要指标就是相关系数,直线相关的概念,对两变量关系的研究,而关心的是两个变

2、量间是否确有直线相关关系,如两个变量间有相关关系,那么相关的方向和相关的程度如何?可采用相关分析。 相关分析的任务: 两变量间有无相关关系? 两变量间如有相关关系,相关的方向?相关的程度,直线相关的概念,当两个数值变量之间出现如下情况:当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,也就是有相关关系。 若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(positive correlation);若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关(negative correlation)。 相关的方向,直线相关的资料要求,直线相关(line

3、ar correlation),又称简单相关,用于双变量正态分布资料。 例如,同性别成人的身高与体重的关系: 对某一身高(如女性160cm),体重为正态分布; 对某一体重(如女性50kg),身高为正态分布,相关系数(correlation coefficient)又称为积差相关系数。它描述两变量间相关关系的密切程度和相关方向。 符号:样本相关系数 r ,总体相关系数 其数值1r1,当r为正值时,表示一变量随另一变量的增加而增加称为正相关;当r为负值时,表示一变量随另一变量的增加而减少,称为负相关。当r愈接近1,表示两变量的相关愈密切;当r愈接近0时,表示两变量相关程度愈低;当r0时,称为零相关

4、,表示两变量无直线相关关系,见示意图,相关系数的意义,相关系数示意,一般认为,当样本含量较大的情况下(n100),大致可按下列标准估计两变量相关的程度 r0.7 高度相关 0.7r0.4 中度相关 0.4r0.2 低度相关,相关系数r的计算公式,相关系数的计算,式中lXX与lYY分别为变量X与Y的离均差平方和,lXY为两变量X 、Y的离均差积和,计算公式为,直线相关分析的一般步骤,1. 绘制散点图,观察两变量的变化趋势; 2. 若散点图呈直线趋势,计算相关系数; 3. 对相关系数进行假设检验; 4. 必要时对总体相关系数进行区间估计,例】某研究者测量10名20岁男青年身高与前臂长。见表。问身高

5、与前臂长有无直线相关关系,身高与前臂长,计算步骤 (1)由原始数据绘制散点图,本资料呈直线相关趋势,2)根据原始数据计算出X,Y,X 2,Y 2,XY 。 本例X1725,Y454, X 2298525,Y 220690,XY78541。 (3)计算X、Y的离均差平方和与离均差积和,4)求相关系数r,H0:总体相关系数 =0 H1: 0 = 0.05 1. 直接查表法:按 = n-2查r界值表。 2. t 检验法,相关系数的检验假设,t 检验法 t检验的计算公式,V= n-2,对所得r值,检验20岁男青年身高与前臂长是否有直线相关关系。 (1)建立检验假设 Ho:0 ,两变量间无直线相关关系

6、H1:0 ,两变量间有直线相关关系 0.05 (2)计算t值 本例n=10, r=0.8227 ,按公式计算t值,3)确定P 值,作出推断结论 按=n-2=8查t界值表,得 P0.005,按0.05水准,拒绝Ho,接受H1,故可认为20岁男青年身高与前臂长呈正直线相关关系,直线回归,直线回归的概念 回归:反映两变量数量依存的关系,即指由一个变量推算另一个变量的数量关系。直线回归是回归分析中最基本最简单的一种,故又称简单回归(simple regression,直线回归方程,Y 应变量,响应变量 (dependent variable, response variable) X 自变量,解释变量

7、 (independent variable, explanatory variable) b 回归系数 (regression coefficient, slope) a 截距 (intercept,constant,Y hat,是给定X时的Y估计值,截距a,几何意义 a 0: 回归线与纵轴交点在原点上方。 a 0: 回归线与纵轴交点在原点下方。 a =0: 回归线通过原点。 统计学意义 a 表示自变量X取值为0时相应Y条件均数的估计值。 a的单位与Y值相同 当X可能取0时,a才有实际意义,回归系数b的几何意义,回归系数b的统计学意义,b表示自变量X变化一个单位时应变量Y的平均改变量。 17

8、岁儿童以年龄(岁)估计体重(kg)的回归方程: 糖尿病患者以胰岛素水平(mU/L)估计血糖水平(mmol/L)的回归方程,直线回归的应用条件 (LINE,1) 线性(linear):因变量Y的总体均数与自变量X呈线性关系; (2) 独立 (independent) 任意两个观察单位之间相互独立; (3) 正态性(normal) 对任意给定的X值,Y 均服从正态分布; (4) 等方差(equal variance):在自变量X的取值范围 内,不论X 取什么值, Y 都有相同的方差,直线回归应用条件LINE示意图,给定X时,Y是正态分布、不等方差示意图,求直线回归方程,关键在于计算a、b两个系数,

9、根据数学上的最小二乘法原理即保证各实测点至回归直线的纵向距离的平方和最小,直线回归方程的求法,使回归误差平方和最小的策略称为最小二乘原则,直线回归分析的一般步骤,1. 绘制散点图,若呈直线趋势,则可拟合直线回归方程; 2. 求回归方程的待定系数:a 和b 3. 写出回归方程 4. 对回归方程进行假设检验; 5. 绘制回归直线; 6. 总体回归系数的区间估计,例】利用已知20岁男青年身高与前臂长之间存在直线相关关系,现求身高与前臂长的直线回归方程。 计算步骤 (1)列回归系数计算表,求出X ,Y ,XY , X2 , Y2 。 本例X=1725 ,Y=454 ,XY=78541 ,X 2=298

10、525 ,Y 2=20690 。lxx=962.5 ,lxy=226,3)求回归系数b和截距a,4)列出回归方程 将求出的 a 和 b 代入公式,在自变量X的实测值范围,任意指定相距较远且易读的两个数值,代入直线回归方程,求出相应的Y的估计值,确定两点,用直线连接。如本例取X1=155,X2=185,则在图上确定(155,41.291)和(185,48.335)两个点,直线连接,即得出直线回归方程的图形,回归直线的绘制,20岁男青年身高与前臂长散点图,回归系数b为样本回归系数,假设在总体回归系数=0的总体中抽样,得出样本的b不一定为0,因此需作总体回归系数是否为0的假设检验. 常用F检验和t检

11、验,回归系数的假设检验,方差分析:应变量总变异的分解,X,P (X,Y,Y,Y的总变异分解,Y的总变异分解,未引进回归时的总变异: (sum of squares of total) 引进回归以后的变异(剩余): (sum of squares for residuals) 无法用X解释的变异 回归的贡献,回归平方和: (sum of squares for regression) 越大,回归的效果好,方差分析用于回归系数检验的基本思想:如果X与Y之间无线性关系,则SS回归于SS剩余都是其他随机因素对Y的影响,因此描写变异的MS回归与MS剩余应近似相等,总体回归系数为0, 反之则不应为0,Y的

12、总变异分解,总n1 回1 剩余n2,回归方程的方差分析,回归系数 t检验,Sb为回归系数的标准误,Syx为各观察值 Y 距回归直线的标准差,即剩余标准差;为剩余平方和,它反映X对Y的线性影响之外的因素对Y的变异作用。在散点图中,各实测点离回归直线越近,越小,说明直线回归的估计误差越小,例】根据例所得b值,检验身高与前臂长 是否有直线回归关系。 (1)建立检验假设 H0:=0, 即身高与前臂长无直线回归关系 H1:0, 即身高与前臂长有直线回归关系 =0.05 (2)计算t值 前面已经求得lXX=962.5,lXY=226,lYY=78.4,代入公式有,3)确定P值,作出推断结论 本例 =10-

13、2=8,查附表2,t界值表得t0.005(8)=3.833,现tt0.005(8),故P0.005。 按=0.05的水准,拒绝Ho,接受H1,可认为20岁男青年身高与前臂长有直线回归关系,1、描述两变量间的依存关系 可用直线回归来描述 。 2、利用回归方程进行预测 将X 代入直线回归方程,可得到应变量 Y 的估计值。 3、利用回归方程进行统计控制 通过X取值来控制Y的变化,直线回归方程的应用,1.作相关回归分析要有实际意义。 不要把毫无联系的两种现象作相关回归分析。 2.相关关系不一定是因果关系,也可能是伴随关系。 3.在进行直线相关与回归分析之前,应先绘制散点图,当观察到点的分布呈直线趋势时

14、,方可进行分析,如散点图呈曲线趋势,应进行曲线回归分析,相关与回归分析时应注意的问题,4.直线相关与回归的区别 在资料需求上,相关分析要求两变量X与Y均为服从正态分布的随机变量,即两者都不能预先指定;回归分析要求Y是正态随机变量,而X可以不是正态随机变量而是一确定值 在意义上,相关反映两变量的相关关系;回归反映两变量间的依存关系。 在应用上,说明两变量间的相关程度及相关方向用相关;说明两变量间的依存变化的数量关系用回归,5. 相关与回归的联系 在同一组数据,相关系数r与回归系数b的符号一致。 同一组数据,r与b的假设检验是等价的,即tr=tb。因r的假设检验可直接查表,较为简便,故可代替b的假

15、设检验。 6. 回归方程一般只适用于自变量X的原始数据范围内,不能任意外延。因为超出这个范围,X与Y就不一定仍然呈线性关系,多元线性回归分析,Multiple Linear Regression,目的:作出以多个自变量估计应变量的多元线性回归方程。 资料:应变量为定量指标;自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换。 用途:解释和预报。 意义:由于事物间的联系常常是多方面的,一个应变量的变化可能受到其它多个自变量的影响,如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响,变量:应变量 1 个,自变量m 个,共 m+1 个。 样本含量:n 回归模型一般形式,多元线性回归模型,上式表示数据中应变量Y可以近似地表示为自变量 的线性函数。 0为常数项, 1-m为偏回归系数,表示在其它自变量保持不变时, 增加或减少一个单位时Y的平均变化量,e是去除m个自变量对Y影响后的随机误差(残差,表 多元回归分析数据格式,条件,一般步骤,建立回归方程,检验并评价回归方程 及各自变量的作用大小,多元线性回归方程的建立,例 27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表中,试建立血糖与其它几项指标关系的多元线性回归方程,表 27名糖尿病人的血糖及有关变量的测量结果,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论