回归分析两指标间的关系分析课件_第1页
回归分析两指标间的关系分析课件_第2页
回归分析两指标间的关系分析课件_第3页
回归分析两指标间的关系分析课件_第4页
回归分析两指标间的关系分析课件_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Linearregression

线性回归DepartmentofEpidemiology&Biostatistics,SchoolofPublicHealthNanjingMedicalUniversity两指标间的关系分析直线相关分析(LinearCorrelationAnalysis)直线回归分析

(LinearRegressionAnalysis)总结(Summary)昆明治疗羊角风专科医院昆明军海医院治疗癫痫病昆明治疗羊角风专科医院云南脑科医院CONTENTS直线回归分析(linearregressionanalysis)1引言2回归方程的建立3回归系数和回归方程的意义及性质4回归系数的假设检验5

应变量总变异的分解6

回归问题的方差分析7与直线回归有关的区间估计8过定点的直线回归9直线回归与直线相关的区别与联系10

回归分析的正确应用引言对于女大学生的体重和肺活量间的关系即便具有相同的体重,肺活量也不一定相同;Y肺活量(L)X体重(kg)40602.04.03.02.53.5504555女大学生体重(X)与肺活量(Y)的散点图折衷的解释2岁身高影响成年的身高,但并非确定地决定它(determineitexactly);女学生的体重虽然影响了肺活量;但并非确定地决定它;因此,虽然它们之间有数量关系,但并非确定性的数量关系。是一种非确定性关系;一种宏观的关系!回答“变量之间是什么数量关系?“;宏观上来讲,他们呈直线关系,但并不能用来描述。所以我们用回归方程:“hat”表示估计值,给定x时y的条件均数。2直线回归方程的建立2直线回归方程的建立

Y因变量

(dependentvariable,responsevariable)

X自变量

(independentvariable,explanatoryvariable)

直线回归的形式:Regression释意例11.1某地10名三岁儿童体重与体表面积

XY(体重,kg)(体表面积,103cm2) 11.0 5.283 11.8 5.299 12.0 5.358 12.3 5.292 13.1 5.602 13.7 6.014 14.4 5.830 14.9 6.102 15.2 6.075 16.0 6.411体重与体表面积的回归回归直线的绘制计算不太接近的两点的Y值:X=12kg时

Y=2.5212+0.2385×12=5.3832(103cm2)X=15kg时

Y=2.5212+0.2385×15=6.0987(103cm2)10名3岁男童体重与体表面积回归图1112131415165.05.56.06.5体重(kg),X体表面积Y(103cm2)3回归系数和回归方程的意义及性质b的意义a的意义的意义的意义的意义b

的意义斜率(slope)2岁身高和成年身高之间关系

2岁的儿童,身高每递增一英寸,其成年后的身高平均递增0.9286英寸。

b的单位为(Y的单位/X的单位)b

的意义斜率(slope)体重与体表面积的关系

=2.5212+0.2385X

体重每增加1kg,

则体表面积平均增加0.2385(103cm2)b的单位为(Y的单位/X的单位)a的意义a截距(intercept,constant)X=0时,Y的估计值A的单位与Y值相同当X可能取0时,a才有实际意义。由体重(kg)估计体表面积(103cm2)

XYY的估计值

(体重,kg)(体表面积) 11.0 5.283 5.145 11.8 5.299 5.336 12.0 5.358 5.383 12.3 5.292 5.455 13.1 5.602 5.646 13.7 6.014 5.789 14.4 5.830 5.956 14.9 6.102 6.075 15.2 6.075 6.146 16.0 6.411 6.337

的意义

为残差(residual)

:点到直线的纵向距离1112131415165.05.56.06.5残差平方和(residualsumofsquares).综合表示点距直线的距离。在所有的直线中,回归直线的残差平方和是最小的。(最小二乘)

的意义点到直线的距离1112131415165.05.56.06.5点到回归直线的纵向距离平方和为最小!回归直线的有关性质(1)直线通过均点(2)直线上方各点到直线的纵向距离之和

=直线下方各点到直线的纵向距离之和即:(3)各点到该回归线纵向距离平方和较到其它任何直线者为小。

4回归系数的假设检验总体回归系数=0,则回归关系不存在。

H0:总体回归系数为0,=0;

H1:总体回归系数不为0,0;

=0.05。回归系数的t检验Y的剩余标准差——扣除X的影响(即回归所能解释的部分)后Y本身的变异程度体重与体表面积回归系数的假设检验H0:总体回归系数=0,即体重与体表面积无回归关系;H1:总体回归系数≠0,即体重与体表面积有回归关系。

=0.05。体重与体表面积间存在回归关系。回归系数与相关系数的假设检验结果等价5因变量总变异的分解XP

(X,Y)Y5因变量总变异的分解+

Y的总变异分解未引进回归时的总变异:

(sumofsquaresaboutthemeanofY)引进回归以后的变异(剩余):(sumofsquaresaboutregression)回归的贡献,回归平方和:

(sumofsquaresduetoregression)Y的总变异分解

ν总=n-1ν回=1ν剩余=n-2

Y的总变异可以用回归来解释的部分即与X有关的部分不能用X来解释的部分即与X无关的部分(随机误差)份额的大小可以用相关系数的平方来衡量(决定系数)6回归方程的方差分析6回归方程的方差分析6回归问题的方差分析H0:体重与体表面积间无直线回归关系;

H1:体重与体表面积间有直线回归关系。

=0.05。lXX=24.9040,lYY=1.5439,lXY=5.9396,

SS总=lYY=1.5439

SS剩

=lYY–lXY/lXX=0.1273SS回

=

SS总-SS剩=1.5439-0.1273=1.4166方差分析表变异来源SSvMSFP

回归

1.416611.416689.01<0.001

剩余

0.127380.0159

总变异

1.54399今ν1=1,ν2=8,查附表的F界值表,得P<0.001,按α=0.05的检验水准拒绝H0,接受H1,认为体重与体表面积间存在直线回归关系。直线回归中三种假设检验间的关系在直线回归中,相关系数的假设检验,回归系数的假设检验,以及回归方程的方差分析结果等价。剩余标准差(1)扣除了X的影响后,Y方面的变异;(2)引进回归方程后,Y方面的变异。名词辨析:Y的变异Y本身的变异Y体重增加量(g)X进食量(g)600650700750800850900950120140160180200154.42gSY=22.630SY.X=12.39剩余标准差7与直线回归有关的区间估计回归系数的可信区间估计估计值的可信区间估计个体Y值的容许区间估计复习可信区间容许区间均数的可信区间:均数界值×标准误个体的容许区间(参考值范围):

均数界值×标准差总体回归系数的可信区间估计根据

t分布原理估计:试用体重与体表面积的资料所计算的样本回归系数b=0.2385,估计其总体回归系数β的95%可信区间。已知总体回归系数β的95%可信区间的上下限为含义:用0.1802~0.2968(103cm2/kg)来估计体重与体表面积间的直线回归系数,可信度为95%。总体回归系数的可信区间估计

的可信区间估计

样本总体Y的总平均给定X时Y的平均

(Y的条件均数)根据

t分布原理:X=12时,求的95%可信区间

=13.44,lXX=24.9040,=0.1262。当X=12时,=5.3832,则X=12kg时,的95%的可信区间为含义:即体重为12kg的3岁男童,估计其平均体表面积为5.3832(103cm2/kg),95%可信区间为(5.2587,5.5077)(103cm2/kg)。

的可信区间估计

Y的容许区间估计给定X时Y的估计值是Y的均数的一个估计。给定X时Y值的容许区间是Y值的可能范围。

Y的100(1-)%容许限:试用体重与体表面积的资料所计算的样本回归系数b=0.2385,计算12kg时Y的95%的容许区间。此时Y的95%容许区间为即体重为12kg的3岁男童,估计有95%的人体表面积在5.0666到5.6998(103cm2/kg)之间。5.38322.3060.1372=5.0666~5.6998

的可信区间与Y的容许区间可信区间是针对条件均数的,而容许区间是针对Y的取值范围的。X=12时,的可信区间为:5.2578~5.5077(103cm2),

表示:体重为12kg的3岁男童,估计其平均体表面积为5.3832,95%可信区间为(5.2587,5.5077)(103cm2)。

X=12时,Y的容许区间为:5.0666~5.6998(103cm2),

表示:体重为12kg的3岁男童,估计有95%的人其体表面积在5.0666~5.6998(103cm2)之间。结论:体重为12kg的3岁男童,估计有95%的人其体表面积在5.0666~5.6998(103cm2)之间,平均体表面积为5.3832(103cm2),95%可信区间为(5.2587,5.5077)(103cm2)。可信区间与容许区间示意

(confidenceband&toleranceband)1112131415164.55.05.56.06.57.08过定点的直线回归例11.4在用荧光光度法测定全血硒的研究中,分别取不同硒含量的标准液,消化后测定其荧光强度,试作标准直线。含硒量(g)X 荧光强度Y

0.000 0.00 0.025 4.36 0.050 9.31 0.100 17.13 0.150 25.03 0.200 33.22过定点(X0,Y0)的直线回归方程一般的直线回归方程(过X的均数和Y的均数):过定点(X0,Y0)的直线方程估计不同硒含量所得荧光强度的过定点的回归

荧光强度Y0

0.025

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论