医学统计学:直线相关和回归_第1页
医学统计学:直线相关和回归_第2页
医学统计学:直线相关和回归_第3页
医学统计学:直线相关和回归_第4页
医学统计学:直线相关和回归_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

两指标间的关系分析Linearcorrelationandregression直线相关和回归以往方法的局限仅限于考察一个观察指标医学研究中常要分析变量间的关系,如:身高和体重年龄和血压人的肺活量与胸围药物剂量与动物死亡率环境介质中污染物浓度与污染源距离内容提要:7.1确定性关系和相关关系7.2直线相关7.3直线回归7.4直线相关和回归应用注意事项7.1相关关系与确定性关系确定性关系:两变量间是函数关系

圆的周长与半径的关系:C=2RX与Y的函数关系:Y=a+bX非确定性关系:两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。年龄与血压的关系;身高与体重的关系;体重与体表面积的关系;药物浓度与反应率的关系;相关关系当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关(correlation)。两个变量有共变现象,称为有相关关系。相关关系不一定是因果关系。7.2直线相关直线相关(linearcorrelation),又称简单相关,用以描述两个呈正态分布的变量之间的线性共变关系,常简称为相关。用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数(correlationcoefficient),又称为积差相关系数(coefficientofproduct-momentcorrelation),Pearson相关系数。总体相关系数用希腊字母ρ表示,而样本相关系数用r表示,取值范围均为[-1,1]。r=0(h)r=0(f)r=-1(d)r=1(b)0<r<1(a)-1<r<0(c)r

0(e)r

0(g)零相关正相关负相关完全正相关完全负相关零相关零相关零相关相关关系示意图相关系数的性质-1≤r≤1r>0为正相关r<0为负相关r=0为零相关或无相关Pearson相关系数的计算X的离均差平方和:Y的离均差平方和:X与Y间的离均差积和:

离均差平方和、离均差积和的展开:以下资料选自Galton的一项研究,目的是探讨成年时身高是否与两岁时的身高(单位:英寸)有关。两岁时的身高(英寸)3930323435363630成年身高(英寸)7163636768687064绘制散点图Y

成年后身高(单位:英寸)X2岁时的身高(单位:英寸)3032343638406365676971相关系数的假设检验H0:ρ=0,两变量间无直线相关的关系;H1:ρ≠0。H0:ρ=0,两变量间无直线相关的关系;H1:ρ≠0,两变量间有直线相关的关系;α=0.05ν=8-2=6以自由度为6查附表2的t界值表,得P<0.01,按α=0.05的水准拒绝H0,接受H1,认为2岁时的身高和成年身高之间存在正相关。相关系数的抽样分布(

=-0.8)-0.8-0.6-0.4-0.20.00100200300-1.0相关系数的抽样分布(

=0)-1.0-0.8-0.6-0.4-0.20.00.20.40.60.81.00100200300相关系数的抽样分布(

=0.8)

00.20.40.60.81.00100200300R.A.Fisher(1921)的z

变换

z近似服从均数为,标准差为

的正态分布。

相关系数的z值的抽样分布(

=-0.8)00.51.01.52.0050100150200相关系数的z值的抽样分布(

=0)-2-1012050100150200相关系数的z值的抽样分布(

=0.8)

01234050100150200相关系数的可信区间估计(1)将r变换为z;(2)根据z服从正态分布,估计z的可信区间;(3)再将z变换回r。相关系数的可信区间估计rFisher’s变换

z

正态近似

Z的95%CIFisher’s反变换

的95%CI该可信区间有什么含义?7.3直线回归

直线回归是把两个变量之间的关系用适当的方程式表达出来,可以从一个自变量推算另一个应变量。直线回归的定义Y因变量,响应变量

(dependentvariable,responsevariable)X自变量,解释变量

(independentvariable,explanatoryvariable)

直线回归的形式:b

的意义斜率(slope)回归系数X每变动1个单位,Y平均变动b

个单位

b>0,X与Y变化同向

b<0,X与Y变化反向

b=0,X与Y无回归关系b

的单位为(Y的单位/X的单位)a的意义a截距(intercept,constant)X=0时,Y的估计值A的单位与Y值相同当X可能取0时,a才有实际意义。直线回归方程的建立最小二乘法(leastsquareestimation)

实测点到直线的纵向距离。1112131415165.05.56.06.5点到直线的距离1112131415165.05.56.06.5点到回归直线的距离平方和为最小!直线回归方程的求解两岁时的身高(英寸)3930323435363630成年身高(英寸)7163636768687064直线回归方程的求解:最小二乘原理Y

成年后身高(单位:英寸)X2岁时的身高(单位:英寸)3032343638406365676971直线回归方程的求解最小二乘法

(LeastSquareMethod)直线回归方程的求解2岁身高和成年身高之间关系直线回归方程回归系数和回归方程的意义及性质b的意义a的意义和的意义的意义b的含义

b的涵义:两岁身高每高1英寸,成年后的身高平均高0.9286英寸。a的意义a截距(intercept,constant)X=0时,Y的估计值a的单位与Y值相同当X可能取0时,a才有实际意义。估计值的意义X=39,=71.3929

即两岁身高为39英寸时,其成年后身高均数的估计值为71.3929英寸X=35,=67.6786

即两岁身高为35英寸时,其成年后身高均数的估计值为67.6786英寸给定X时,Y的均数的估计值。当时,编号2岁(英寸)X成年(英寸)Y估计值残差1397171.3929-0.39292306363.0357-0.03573326364.8929-1.89294346766.75000.25005356867.67860.32146366868.6071-0.60717367068.60711.39298306463.03570.9643合计272534534.00000.0000估计值与残差图7.22岁身高X与成年后身高Y的散点图X2岁时身高3032343638406365676971XY

成年后身高(单位:英寸)残差平方和(residualsumofsquares).综合表示点距直线的距离。在所有的直线中,回归直线的残差平方和是最小的。(最小二乘)

的意义直线回归系数的t检验回归系数也有抽样误差!检验方法针对回归系数b的检验:t检验针对回归方程的检验:F检验直线回归系数的t检验总体回归系数

=0,则回归关系不存在。H0:总体回归系数为0,

=0;H1:总体回归系数不为0,

0;

=0.05。直线回归系数的t检验Y的剩余标准差——扣除X的影响(即回归所能解释的部分)后Y本身的变异程度直线回归系数的t检验H0:总体回归系数

=0;H1:总体回归系数

≠0;

=0.05。

=8-2=6按

=6查t界值表,得P<0.01。按

=0.05水准拒绝H0,接受H1。认为成年身高和2岁时的身高间存在直线回归关系。回归系数与相关系数的假设检验结果等价回归方程的方差分析:因变量总变异的分解XP(X,Y)YY的总变异分解未引进回归时的总变异:

(sumofsquaresaboutthemeanofY)引进回归以后的变异(剩余):(sumofsquaresaboutregression)回归的贡献,回归平方和:

(sumofsquaresduetoregression)Y的总变异分解

ν总=n-1ν回=1ν剩余=n-2

总回SSSSr=2Y的总变异可以用回归来解释的部分即与X有关的部分不能用X来解释的部分即与X无关的部分(随机误差)份额的大小可以用相关系数的平方来衡量(决定系数)回归方程的方差分析H0:2岁身高和成年身高无直线回归关系;H1:2岁身高和成年身高有直线回归关系;α=0.05。

SS总

=67.5000 SS剩

=60.3571 SS回

=SS总-SS剩

=67.50-60.36=7.14列方差分析表回归方程的方差分析方差分析表F=50.70,今

1=1,

2=6,查F界值表,得P<0.0001,按

=0.05水准拒绝H0,接受H1,故可认为2岁和成年身高之间有线性回归关系。变异来源SSvMSFP总变异67.50007回归60.3571160.357150.70<0.0001剩余7.142961.1905直线回归中三种假设检验间的关系在直线回归中,相关系数的假设检验,回归系数的假设检验,以及回归方程的方差分析结果等价。tr=tb=7.12=F1/2=50.701/2与直线回归有关的区间估计回归系数的可信区间估计估计值的可信区间估计个体Y值的容许区间估计复习可信区间容许区间均数的可信区间:均数

界值×标准误个体的容许区间(参考值范围):

均数

界值×标准差总体回归系数

的可信区间估计根据

t分布原理估计:本例中已计算得sb=0.1304(0.9286-2.447×0.1304,0.9286-2.447×0.1304)=(0.6095,1.2477)含义用(0.6095,1.2477)来估计两岁身高与成年身高间的直线回归系数,可信度为95%。

的可信区间估计

样本总体Y的总平均给定X时Y的平均

(Y的条件均数)根据

t分布原理:X=38时,求的95%可信区间=34,lXX=77159.67,=12.3921

当X=38时,=70.464470.4644

2.447

0.4688=(68.88,72.05)

即身高为38英寸的两岁儿童,估计其成年后平均身高为70.4644英寸,95%可信区间为(68.88,72.05)(g)。Y的容许区间估计给定X时Y的估计值是Y的均数的一个估计。给定X时Y值的容许区间是Y值的可能范围。

Y的100(1-

)%容许限:70.46442.447

1.2694=(67.3583,73.5705)即所有身高为38英寸的两岁儿童,估计其成年后有95%的个体身高在(67.36,73.57)之间。

的可信区间与Y的容许区间可信区间是针对条件均数的,而容许区间是针对Y的取值范围的。X=38时,的可信区间为:68.88~72.05(g),

表示:即身高为38英寸的两岁儿童,估计其成年后平均身高为70.4644英寸,95%可信区间为(68.88,72.05)(g)。

X=38时,Y的容许区间为:67.36~73.57(g),

表示:所有身高为38英寸的两岁儿童,估计其成年后有95%的个体身高在(67.36,73.57)之间。剩余标准差、条件标准误、条件标准差抽样误差抽样误差+个体变异2岁身高(英寸)成年身高(英寸)(英寸)的95%可信区间Y的95%容许区间下限上限下限上限306463.035761.448264.623259.929666.1419306363.035761.448264.623259.929666.1419326364.892963.753466.032361.990167.7957346766.750065.806167.693963.918269.5818356867.678666.682268.675064.828970.5283366868.607167.467769.746665.704471.5099367068.607167.467769.746665.704471.5099397171.392969.539073.246768.142574.6432估计值、95%可信区间和95%容许区间成年后身高英寸X2岁时的身高(单位:英寸)30

32

34

36

38

58

60

62

64

66

68

70

72

74

76

31

33

35

37

39

直线相关与回归的区别与联系区别r没有单位,b有单位;所以,相关系数与单位无关,回归系数与单位有关;相关表示相互关系,没有依存关系;而回归有依存关系;对资料的要求不同:当X和Y都是随机的,可以进行相关和回归分析;当Y是随机的(X是控制的),理论上只能作回归而不能作相关分析;

I型回归:X是精确控制的;II型回归:X是随机的。由X推算Y:由Y推

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论