医学统计学(课件)线性相关与回归_第1页
医学统计学(课件)线性相关与回归_第2页
医学统计学(课件)线性相关与回归_第3页
医学统计学(课件)线性相关与回归_第4页
医学统计学(课件)线性相关与回归_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 医学统计学 simple regression线性回归与相关 simple regression线性回归与相关变量间的关系:相关关系:两个变量存在共同变化、彼此关联的趋势 相关分析依存关系:因变量(dependent variable)Y随自变量(independent variable)X变化而变化。 回归分析一、线性回归的概念线性回归方程(linear regression equation )第一节 线性回归 用于描述两个变量间依存变化的数量关系。也称简单回归(simple regression)。 Francis GaltonX-自变量(independent variable);Y

2、-应变量(dependent variable); - 给定X 时Y 的估计值; a - 截距(intercept)或常数项(constant term);b - 回归系数(regression coefficient)。 simple regression回归方程参数的计算 最小二乘法原则(least square method):使各散点到直线的纵向距离的平方和最小。即使 最小。(YY)2 表示X与Y 的离均差积和; 表示X的离均差平方和; 和 分别为两个变量的均值。 simple regression例11-1 研究饮水氟含量与成人骨X线改变指数间的关系,得到了表11-1中所示的资料,试

3、进行回归分析。二、回归方程的估计 表11-1 饮水氟含量(mg/L)与骨X线改变指数调查对象饮水氟含量(X)骨X线改变指数(Y) XY X2Y210.240.400.100.060.1620.800.560.450.640.3131.001.911.911.003.6541.800.861.553.240.7453.125.2516.389.7327.5664.103.4013.9416.8111.5675.6058.38326.9331.363408.22810.2770.33722.29105.474946.31910.81116.301257.20116.8613525.69合计37.7

4、4257.392340.75285.1721924.20(1)绘制散点图:由散点图可见,饮水氟含量与骨X线改变指数之间存在着直线趋势,可以考虑建立二者之间的线性回归方程。 simple regression(2)计算回归系数与常数项 本例: simple regression代入公式得: 则回归方程为: simple regression按上述回归方程,在 X 实测值的范围内,任取两个相距较远的点 和 ,连接A、B两点即得到回归直线。(3)作回归直线 simple regression三、线性回归的假设检验(一) 方差分析回归方程检验的基本思想: 如果 X 与Y 之间无线性回归关系,则 与 都

5、只包含随机因素对Y 的影响,因此其均方应近似相等,如果两者差别较大,并超出能够用随机波动解释的程度,则认为回归方程具有统计学意义。回归分析中总变异的分解回归模型的方差分析因变量y的总变异 回归变异MS回:回归变异又称回归均方。指的是由于y对x的回归所解释的y的变异,用符号MS回表示。其含义也被解释为是x通过回归关系对y的变异产生的贡献。 将因变量y与自变量x关联起来进行回归后,回归模型为我们提供了通过给定x估计y的平均水平的途径。因此,y中由于x的作用导致的回归变异就可以被分离出来。 回归变异计算方法 回归离均差平方和,简称回归平方和 回归均方本例 残差变异计算方法 残差变异MS剩余:残差变异

6、又称残差均方。它指的是由除x以外所有其它因素导致的y的变异,因此,其含义是y的变异中不能由x解释的部分。它在性质上显然属于随机变异。 计算方法 总变异与回归变异和残差变异的关系 总变异中的离均差平方和自由度都可以被分解为上述两个部分。根据离均差平方和和自由度的可加性,有 Hypothesis test对例11-1数据建立的回归方程进行假设检验:(1)建立假设检验Hypothesis test(2)计算统计量Hypothesis test(3)确定P 值,得出统计结论 查 F 界值表 , ,拒绝 ,可以认为饮水氟含量与成人骨X线改变指数之间存在线性回归关系。Hypothesis test上面结果

7、可以归纳成表11-2方差分析表的形式。 表11-2 方差分析表变异来源 SS MS F P总变异14563.13 8回归12538.06 112538.06 43.34 0.01残差 2025.07 7 289.30Hypothesis test(二) t 检验 为样本回归系数的标准误,反映样本回归系数的抽样误差; 为剩余标准差,表示应变量Y 值对于回归直线的离散程度。 Hypothesis test例11-1数据建立回归方程后,进行t 检验,过程如下:(1)建立假设检验(2)计算统计量Hypothesis test(3)确定P 值,作结论 查 t 界值表, ,拒绝 ,结论与方差分析相同。可以

8、看出,统计量 与 之间存在确定的数量关系,即有 ,本例 。Hypothesis test一、线性相关的概念 两个变量之间存在的线性相关关系称为线性相关或简单相关。用于分析双变量正态分布资料。 第二节 线性相关Karl Pearson 图11-2 11名男青年身高与前臂长散点图 linear correlation 图11-3 线性相关性质示意图 二、相关系数及其计算相关系数(correlation coefficient):又称Pearson积差相关系数(coefficient of product moment correlation),是说明具有线性相关关系的两个数值变量间相关的密切程度与

9、相关方向的统计量。相关系数r没有度量衡单位,其数值为 。 表示正相关; 表示负相关; 表示无相关,即无直线关系。当 时称为完全相关。相关系数的绝对值愈接近1,表示相关愈密切;相关系数愈接近0,表示相关愈不密切。 linear correlation 相关系数的计算公式: linear correlation 例11-2 从男青年总体中随机抽取11名男青年组成样本,分别测量每个男青年的身高和前臂长,测量结果如表11-3所示,试计算身高与前臂长之间的相关系数。 表11-3 11名男青年身高与前臂长的测量结果(cm) 编号 身高 X前臂长 YXY117047799028900220921734272

10、662992917643160447040256001936415541635524025168151734781312992922096188509400353442500717847836631684220981834684183348921169180498820324002401 10165437095272251849 11166447304275561936合计 1891 500 86185 326081 22810本例:结论: 前臂长与身高呈正相关关系, 而且相关程度较高。 linear correlation 三、相关系数的假设检验 1. t 检验法: 根据 r 作总体相关系数

11、 是否为零的假设检验。2. 根据计算出的 r 值,直接查 r 界值表得到P 值,若 ,则可以认为两变量之间存在线性相关关系。对例11-2计算得到的 r 值进行假设检验: (1)建立检验假设 ,即身高与前臂长之间不存在线性相关系 ,即身高与前臂长之间存在线性相关关系 (2)计算统计量linear correlation (3)确定 P 值,作出结论 查 t 界值表,得 , ,拒绝 ,接受 ,可以认为男青年身高与前臂长之间存在正相关关系。或查 r 界值表 , , 结论相同。 linear correlation 一、线性回归分析的应用1. 线性回归方程可应用于以下三个方面: 分析两个变量之间是否存

12、在线性依存关系; 利用回归方程由自变量 X 对应变量Y 进行估计,必要时可以作区间估计;第三节 线性回归与相关应用的注意事项 利用回归方程进行统计控制,即利用回归方程进行逆运算,通过控制自变量 X 取值来限定应变量Y在一定范围内波动。2. 作回归分析时,如果两个有内在联系的变量之间存在因果关系,那么应该以原因变量为X ,以结果变量为Y ;如果变量之间因果关系难以确定,则应以易于测定或变异较小者为X 。 3. 在回归分析中,自变量X 既可以是随机变量(称为型回归模型,两个变量都服从正态分布),也可以是给定的量(称为 I 型回归模型,在 X 取值固定时Y 服从正态分布)。如果Y不服从正态分布,在进

13、行回归分析前,应先进行变量的变换以使应变量符合回归分析的要求。4. 使用回归方程估计Y 值时,尽量不要把估计的范围扩大到建立方程时的自变量的取值范围之外,由于超出样本取值范围,其线性关系是否成立难以判断,外推要慎重。如例11-1中,X 的取值范围为0.2410.81,计算估计值时X 的取值最好在0.2410.81之间。 二、线性相关分析的应用 1. 相关分析理论上适用于两个变量都服从正态分布的情形,如果资料不服从正态分布,应先通过变量变换,使之近似正态化后计算相关系数。如果不能正态化,或针对有序数据则可以计算Spearman或Kendall相关系数进行分析(参考SPSS软件说明)。 2. 相关

14、系数 r 值究竟多大有实际意义,需要根据具体问题而定。实际经验而言, 时,表示相关性较差; 时,表示中度相关; 时,表示有较高度的相关性; 时,表示有很高的相关性。 3. 相关系数可以描述两个变量间相互关系的密切程度和方向。然而,不能因为两变量间的相关系数有统计学意义,就认为两者之间存在着因果关系,要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。医学中很多变量的数量变化可能由于相同的因子调控引起。 三、线性回归与相关的区别 1. 相关系数的计算只适用于两个数值变量都服从正态分布的情形,而在回归分析中,应变量是随机变量,自变量既可以是随机变量(型回归模型),也可以是给定的量(I 型回归

15、模型)。 2. 线性相关表示两个变量之间的相互关系是双向的,线性回归则反映两个变量之间单向的依存关系,更适合分析因果关系的数量变化。四、线性回归与相关的联系 1. 相关系数 r 与回归方程中的 b 正负号相同,r 和 b 为正,说明 X 与 Y 的数量变化的方向是一致的,X 增大,Y 也增大;符号为负,变化方向相反。2. 对同一样本可以得出 r 与 b 互相转化的公式,两种假设检验完全等价。3. 相关与回归可以互相解释。r 的平方称为决定系数 (coefficient of determination),可表示为: 表示回归平方和在总平方和中所占的比重, 即 其值越接近1, 回归效果越好。决定系数和相关系数有确定的关系, 例如 r = 0.5, 有 =0.25, 说明一个变量的变异有25%可以由另一变量所解释。 1.线性回归方程常用于分析两个变量之间是否存在线性依存关系。 2.相关系数可以描述两个变量间相互关系的密切程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论