直线回归与直线相关_第1页
直线回归与直线相关_第2页
直线回归与直线相关_第3页
直线回归与直线相关_第4页
直线回归与直线相关_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十四章直线回归与直线相关单变量的统计分析方法------统计描述与同一变量的不同处理组间的比较。多变量的统计分析方法----多个变量之间的数量依存关系及关联度的研究线性相关线性相关的概念及统计描述例随机抽取15名健康成人,测定血液的凝血酶浓度及凝固时间,数据见表11-1。试判断此数据是否相关?表11-115例健康成人凝血时间与凝血酶浓度测量值记录受试者号123456789101112131415浓度1.11.21.00.91.21.10.90.61.00.91.10.91.110.7时间141315151314161714161516141517

图1

数据散点图从散点图中可以看出:图中散点虽不都在一条直线上,但它们有一种线性趋势存在,即凝血酶浓度高的,凝血时间短;凝血酶浓度低的,凝血时间长,说明凝血酶浓度与凝血时间之间确实存在联系且方向相反。两变量的关系不象函数关系那样能以一个变量的数值精确地确定出另一个变量的数值,即为非确定性关系若图中各散点趋势接近一直线,且变化方向相同,称为正相关;若图中各散点趋势接近一直线,且变化方向相反,称为负相关;若图中散点的趋势不呈直线,但有规律地呈一条曲线,称为非线性相关;若图中散点杂乱无序,称为零相关。

直线相关的概念研究两个连续型随机变量之间是否存在线性关系,关系是否密切以及是正相关还是负相关.

直线相关系数又称pearson积差相关系数,以r表示样本相关系数,以ρ表示总体相关系数.它反映两个变量线性关系的方向和密切程度的指标,没有单位,其值为-1≤r≤1.

计算公式上式中,若为总体协方差或总体方差时,相关系数为总体相关系数,记为ρρ≠0,X和Y线性相关ρ=0,X和Y线性不相关上式中,若为样本协方差或样本方差时,相关系数为样本相关系数,记为r相关系数的特点1)是无量纲的数值,且-1<r<12)r>0为正相关,r<0为负相关3)|r|越接近于1,说明相关性越强,|r|越接近于0,说明相关性越弱相关系数的方向r>0,说明两变量之间为正相关关系,r=1,完全正相关r<0,说明两变量之间为负相关关系,r=-1,完全负相关r=0,说明两变量之间无线性关系(零相关)应用条件

Pearson积矩相关系数要求两变量均服从正态分布,若不服从,则求相关系数为spearman相关系数

相关系数的计算作散点图计算相关系数相关系数的统计推断----相关系数的假设检验

(1)T检验例就上述r值,检验凝血时间与凝血酶浓度是否有直线相关关系.(2)查表法求出r后,根据ν=n-2查相关系数界值表相关分析应用中的注意事项相关分析要有实际意义;相关关系不一定都是“因果”关系;相关系数r假设检验中p的大小不能说明相关的密切程度;出现异常值时慎用相关分层资料盲目合并易出现假象直线相关和等级相关有各自不同的适用条件。秩相关秩相关的概念及统计描述研究两个不满足正态分布条件的连续型随机变量之间是否存在相关关系,关系是否密切以及是正相关还是负相关.秩相关系数又称spearman相关系数,以

表示样本相关系数,以

表示总体相关系数.它反映两个变量相关关系的方向和密切程度的指标,没有单位,其值为-1≤r≤1.分别为x和y的秩次例某地研究2-7岁急性白血病患儿的血小板数与出血症状程度之间的相关性,结果见表.试用秩相关进行分析。病人编号血小板数秩次p秩次平方出血症状秩次q秩次平方pq12345678910111212113816531042654074010601260129014382004123456789101112149162536496481100121144++++++-++++----+++-1159.07.03.59.09.03.53.53.53.511..53.5132.25814912.25818112.2512.2512.2512.25132.2512.2511.5182114455424.52831.535126.542合计7865078630451表1急性白血病患儿的血小板和出血症状步骤:1)将变量X,Y成对的观察值分别从小到大排序编秩,以pi表示Xi的秩次,以qi表示Yi的秩次,观察值相同时取平均秩次,见表12)用pi,qi的值分别作为Xi,Yi的值代入pearson相关系数的计算公式中秩相关系数的统计推断----秩相关系数的假设检验

(1)T检验(2)查表法直线回归

直线回归的概念很早以前,英国遗传学家FrancisGalton与其弟子K.pearson和A.Lee注意到一个有趣现象,即父亲高,儿子也高,父亲矮,儿子也矮,但儿子离平均水平更近些,即子代身高向均数回归.回归分析的类型因变量为非时间的连续型变量(一元线性回归分析,多项式回归分析,非线性回归分析,可直线化的曲线回归分析)因变量为时间的连续型变量(COX回归分析)因变量为随时间变化的连续型变量(时间序列分析)因变量为二值离散型变量(logistic回归分析或对数线性模型分析)因变量为多值有序离散型变量(logistic回归分析)因变量为多值名义离散型变量(logistic回归分析或logit模型回归分析,对数线性模型分析)例1在脑血管疾病的诊断治疗中,脑脊液白细胞介素-6水平是影响诊断与预后分析的一项重要指标,但脑脊液在临床上又不容易采集到。某医生欲了解急性脑血管疾病人血清与脑脊液IL-6水平,随机抽取了某医院确诊的10例蛛网膜下腔出血(SAH)患者24小时内血清IL-6和脑脊液IL-6数据如下。假说SAH血清IL-6和脑脊液IL-6间有直线相关关系,试如何用血清IL-6来估计和预测脑脊液IL-6?表12-1SAH患者第一天血清和脑脊液IL-6检测结果患者号12345678910血清(x)脑脊液(y)22.4134.051.6167.058.1132.325.180.265.9100.079.7139.175.3187.232.497.296.4192.385.7199.4图1SAH患者血清和脑脊液IL-6散点图图2函数关系图例2随机抽取15名健康成人,测定血液的凝血酶浓度及凝固时间,数据见表11-1。试判断此数据是否呈直线相关关系?表12-215例健康成人凝血时间与凝血酶浓度测量值记录受试者号123456789101112131415浓度1.11.21.00.91.21.10.90.61.00.91.10.91.110.7时间141315151314161714161516141517图3凝血酶浓度与凝血时间的散点分布从散点图中可以看出:图中散点虽不都在一条直线上,但它们有一种线性趋势存在,即随着血清IL-6的增加,脑脊液IL-6也在增加;随着凝血浓度的增加,凝血时间在减少。它与数学中两变量间严格对应的函数关系不同,但它同样可以描述两变量之间数量依存关系,该直线称为回归直线。用回归直线来描述两变量之间的直线关系的方法称为直线回归。直线回归方程的表达式X为自变量的取值,为X取某一值时应变量Y的平均估计值,称为Y的预测值a-------截距。a>0说明直线与Y轴的交点在原点的上方,a<0说明直线与Y轴的交点在原点的下方,a=0,则直线过原点。b的统计学意义:X每增加(或减少)一个单位,应变量Y平均改变b个单位。

b-----回归系数(即直线的斜率)。b>0表示Y随X的增大而增大,b<0表示Y随X的增大而减小,b=0表示直线与X轴平行,即X与Y没有直线关系。直线回归方程的求法最小二乘法则保证各实测点至回归直线的纵向距离平方和为最小.例3对例1中的数据求出其直线回归方程(1)绘制数据的散点图。见图1。从图中可以看出数据之间存在着直线变化的趋势。(2)计算回归系数与截距(3)写出回归直线方程b=1.18>0,表明SAH患者脑脊液IL-6随血清IL-6增加而增加,且血清IL-6每增加1pg/ml时,脑脊液平均增加1.181pg/ml。总体回归系数的统计推断总体回归系数的区间估计总体回归系数β的1-α的置信区间为例求上例中回归系数β的95%置信区间回归系数β的95%置信区间为(1.180-2.306×0.398,1.180+2.306×0.398)=(0.262,2.098总体回归系数的假设检验目的判断b是否从回归系数为零(β=0)的总体中随机抽样得来的.方法(1)t检验

例对上例中的回归系数进行假设检验(2)方差分析应变量y的离均差平方和回归平方和,即在y的总变异中可用x与y的线性关系解释的那部分变异残差平方和,即扣除了x对y的线性影响后,其它所有因素对y变异的影响P(x,y)应变量平方和分解图例用方差分析对上述回归方程进行假设检验回归模型的假设条件1)反应变量Y与自变量X之间呈直线变化的趋势,作散点图观察2)因变量Y服从正态分布或残差服从正态分布的随机变量,X可为随机或非随机的变量3)任意两个观察值之间是相互独立的4)在自变量X的取值范围内,不论X取何值,Y均有相同的方差直线回归方程的图示

在自变量X的实测范围内任取两个值,代入回归方程算出对应的,根据两点成一直线就可以画出该直线的图形。说明:所绘直线经过点;该直线与纵轴交点的坐标必等于截距a.此两点可以检验图形的绘制是否正确。直线回归方程的应用描述两变量的数量依存关系利用回归方程进行预测

所谓预测就是把预报因子(自变量X)代入回归方程对预报量进行估计,其波动范围按求个体Y值的容许区间方法来计算。利用回归方程进行统计控制

统计控制时利用回归方程进行逆估计,如要求应变量Y在一定范围内波动,可以通过自变量X的取值来实现。个体y值的容许区间当X取某一定值时,个体Y有一波动范围,其标准差为个体y值的100(1-α)容许区间为残差的标准误,剩余标准误如:为使一名糖尿病人的血糖维持在正常范围(4.44,6.66),如何控制血中胰岛素水平?已知有胰岛素估计血糖平均水平的直线回归方程为欲将血糖水平控制在正常范围的上界即6.66以内时,血中胰岛素应维持在什么水平?即将一名血糖病人的血糖水平控制在6.66以内,胰岛素可维持在32.64U/L上残差分析残差(residual)是指观察值Yi与回归模型拟合值之差,即为它反映模型与数据拟合优劣的信息。非线性回归通过自变量的变换化为线性回归通过因变量的变换化为线性回归例9.14以不同剂量的标准促进肾上腺皮质激素释放因子CRF刺激离体培养的大鼠垂体前叶细胞,监测其垂体合成分泌肾上腺皮质激素ACTH的量。根据表中数据的量建立CRF-ACTH工作曲线。例一位医院管理人员想建立一个回归模型,对重伤病人出院后的长期恢复情况进行预测。自变量为病人住院天数X,因变量为病人出院后长期恢复后的预后指数Y,指数取值愈大表示预后结果越好。数据见下表。编号123456789101112131415住院天数X预后指数Y2545507451037143519252620311634183813458521153860465615名重伤病人的住院天数与预后指数直线相关与直线回归的联系和区别

区别资料的要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论