第六章直线回归与相关_第1页
第六章直线回归与相关_第2页
第六章直线回归与相关_第3页
第六章直线回归与相关_第4页
第六章直线回归与相关_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章直线回归与相关张菊英复习

已学过的基本统计推断方法单变量分析(univariateanalysis):t检验、u检验、2检验、秩和检验、方差分析多变量分析(multivariateanalysis):人的身高与体重,体温与脉搏次数,年龄与血压,药剂量与疗效,体表面积与肺活量,身高与臂长

直线回归(linearregression)问题的提出例11.1在脑血管疾病的诊断治疗中,脑脊液白细胞介素-6(IL-6)水平是影响诊断与预后分析的一项重要指标,但脑脊液临床上有时又不容易采集到。某医生欲用容易测定的血清IL-6含量,来了解急性脑血管病病人脑脊液IL-6水平,随机抽取了某医院确诊的10例蛛网膜下腔出血(SAH)患者24小时内血清IL-6(pg/ml)和脑脊液IL-6(pg/ml)数据见表11.1,试求脑脊液IL-6对血清IL-6的直线回归方程。表11.1SAH患者第一天血清和脑脊液

IL-6(pg/ml)检测结果

患者号

12345678910血清IL-6(x)22.451.658.125.165.979.775.332.496.485.7脑脊液IL-6(y)134.0167.0132.380.2100.0139.1187.297.2192.3199.4

为直观理解SAH患者血清IL-6和脑脊液IL-6的关系,以血清IL-6为横轴,脑脊液IL-6为纵轴,描出10对数据散点图如图11.1。血清IL-6(pg/ml)10080604020脑脊液IL-6(pg/ml)2202001801601401201008060直线回归目的研究变量之间的数量依存关系(Y随着X变化而变化),找出一条最能代表这种数据关系的直线。背景

高个子父代的子一代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子一代的平均身高不是更矮,而是稍高于其父代水平。基本概念直线回归方程:X为自变量的取值为当X取某一值时应变量Y的平均估计值

函数关系与回归关系函数关系:自变量取某一数值时,应变量有一个完全确定的数值与之对应。如:y=2x+1回归关系:变量间虽然存在一定的关系,但关系不是十分确定。如:SAH患者的血清水平与脑脊液水平,一般情况下,血清水平越高,其脑脊液水平就越高。血清IL-6(pg/ml)10080604020脑脊液IL-6(pg/ml)2202001801601401201008060基本概念直线回归方程:X为自变量的取值为当X取某一值时应变量Y的平均估计值为截距(intercept),即当X=0时Y的平均估计值a>0a=0a<0基本概念直线回归方程:为回归系数(regressioncoefficient),又称斜率(slope),是当X每改变一个观测单位时所引起Y

的改变量。b>0:X每增加(减少)一个观测单位,增加(减少)b个单位。b<0:X每增加(减少)一个观测单位,减少(增加)|b|个单位。b=0:X与Y没有直线回归关系。b>0b<0b=0原理最小二乘法:实测点到直线的纵向距离平方之和达到最小。基本公式设有n对观测值(X1,Y1),,(Xn,Yn),记则血清IL-6(pg/ml)10080604020脑脊液IL-6(pg/ml)2202001801601401201008060具体步骤(1)用实测数据绘制散点图(scatterdiagram)(2)计算回归系数b与截距a求求

则(3)列出回归方程

(4)作出回归直线:在X值实际范围内任取两点

(25,102.4535)(50,131.946)血清IL-6(pg/ml)10080604020脑脊液IL-6(pg/ml)2202001801601401201008060一、建立假设检验,确定检验水准

H0:X与Y之间无回归关系,即

H1:X与Y之间有某种程度的回归关系,即二、计算检验统计量方差分析:对应变量Y的离均差平方和进行分解P(X,Y)

表示实际值Y与估计值之差,

称为残差或剩余。表示估计值与均数之差,它与回归系数的大小有关。当|b|值越大时,差值也越大。方差分析表来源平方和SS自由度均方MS统计量F总总=n-1回归回=1MS回=SS回/1MS回/MS残残差残=n-2MS残=SS残/(n-2)表11.2方差分析结果来源平方和SS自由度均方MS统计量FP总16242.1009回归8495.883918495.88398.77420.018残差7746.21618

968.2770

(2)

t检验则

t=(b-0)/Sb

,=n-2

本例中,t=2.306,=8

三、确定P值和作出统计判断

本例P<0.05,按=0.05水准拒绝H0,故可以认为X与Y之间有某种程度的回归关系,即回归系数0。注:直线回归方程的应用条件平均数的可信区间点估计:是在给定X下的条件平均值的点估计的1-α的可信区间估计

其计算公式为:

为自由度为n-2的t分布的双侧1-临界值

当时,条件平均值的可信区间最窄,越远离时,的可信区间越宽个体Y值的容许区间

同一X值下,个体Y值的预报区间要宽于条件平均值的可信区间。2、控制:控制是指要求应变量Y在一定范围内波动时,如何控制自变量X的取值。

例:

为使一名糖尿病人的血糖维持在正常范围(4.44~6.66mmol/L),根据资料已建立的直线回归方程,问欲将血糖水平控制在正常范围的上界(6.66mmol/L)以内时,胰岛素应维持在什么水平上?解得X=32.64(mU/L)注意事项(1)直线通过点()(2)实际意义:从专业角度对两个变量内在联系有一定认识,不能把毫无关联的两种现象作回归分析。YX,(3)适用条件

Y为数值变量且服从正态分布,X为人为控制或精确测量,一般称为Ⅰ型回归。若X,Y服从双变量正态分布,则对这种资料进行的回归称为Ⅱ型回归。可计算两个回归方程:(4)散点图:必需有直线趋

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论