版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第七章 线性回归与相关,统计学的两个主要内容,参数估计和假设检验 t检验 秩和检验 卡方检验,指标变量之间关系 相关分析 回归分析,学习目标,了解线性回归分析和相关分析的用途。 熟悉线性回归分析和相关分析的基本步骤。 掌握相关系数和回归系数的定义,简单相关分析和回归分析的适用条件,在医药科学研究中常常要分析两个变量间的关系,如血药浓度和时间、年龄和血压、药片的硬度和药片的消溶速度等。 一般来说,变量之间的关系可分为确定性和不确定性两大类,确定性的关系:两变量间的函数关系,2,2,2,举重成绩的比较,确定性关系与随机关系,确定性的函数关系:两变量间的函数关系,随机性的关联关系:两变量在宏观上存在
2、关系,但并未精确到可以用函数关系来表达,圆的周长与半径的关系: C2R 速度、时间与路程的关系:LST,青少年身高与年龄的关系; 体重与体表面积的关系,线性相关分析(linear correlation analysis)或简单相关分析(simple correlation analysis) 则是研究2个随机变量间是否有线性联系、联系程度及方向的统计方法,第一节 直线相关,直线相关 (linear correlation) 描述具有线性关系的两个随机变量间相关方向和密切程度的一种统计分析方法。 相关系数 (correlation coefficient) 描述具有线性关系的两变量间,相关关系
3、的密切程度(大小)和相关方向的指标,总体相关系数用 表示,样本相关系数用r表示,一、直线相关的概念,散点图能直观地看出两变量间的关系,因此研究两变量的关系应先绘出散点图,而后再确定两者的量化关系,图9-1 常见的散点图,一、散点图,相关系数的方向示意图,体重(kg),X,肺 活 量 Y (L,r0,r0,相关系数的大小示意图,r = 1,0 r 1,r = 0,若双变量X与Y均是来自正态总体的随机变量,散点图呈线性趋势,且各观察值相互独立,则两变量之间的相关关系可采用Pearson积矩相关系数表示,二、相关系数的意义与计算,1)相关系数是一个无量纲的数值,且-1 1; (2) 0为正相关, 0
4、为负相关; (3) 越接近于1,说明关联程度较高, 越接近于0,说明相关性极弱或无关联,相关系数的特点,简单相关分析的方法步骤,一)绘制散点图,看有无线性关系 (二)估计简单相关系数r (三)检验简单相关系数 是否有统计学意义,某实验室检测15名健康成人凝血酶浓度(U/ml)与血液凝固时间(秒)如表7-3.试问凝血时间与凝血酶浓度间是否有线性相关关系存在,例7-2,表7-2 15名健康成人凝血酶浓度与血液凝固时间测定结果,研究目的:凝血酶浓度和凝血时间两定量之间是否存在线性关系,其联系程度如何,解析,一)绘制散点图,图7-5 凝血酶浓度X与凝血时间Y散点图,从整体趋势而言,随着凝血酶浓度的增加
5、,凝血时间呈降低的趋势,且二者之间存在线性相关关系,二)估计简单相关系数r,表明凝血时间与凝血酶浓度可能呈负相关趋势,三)相关系数的统计推断,由于抽样误差的存在,即使从相关系数=0的总体中随机抽样,所得样本相关系数r也不一定全为0。因此,我们计算出来的样本相关系数未必等于总体相关系数,所以需要对相关系数进行假设检验。 若0,说明X与Y之间有线性关系。 若=0,说明X与Y之间无线性关系,但也可能存在其它相关关系,的假设检验,H0: =0 H1: 0 0.05,1)查表法 由前面计算得:样本相关系数r=-0.907; 对给定0.05,自由度n-2=13,有附表11(P391)查临界值r0.05(1
6、3)=0.560; 因为 0.9070.560,则P0.05,拒绝H0 ,即认为变量X与Y间的线性相关关系有统计学意义,P391,2)t检验,H0: =0 H1: 0 0.05,查t界值表, 按0.05水准,拒绝H0,接受H1,可认为凝血时间的长短与凝血酶浓度呈负相关,线性相关分析的应用,一)当两变量有线性趋势时,才能进行线性相关分析。一般应首先利用散点图观察并判断两变量间的关系,根据变量间可能的关系,选择不同的相关分析方法。 (二)相关分析适用于双变量正态分布的资料,否则需进行变量变换或采用其它计算方法,如秩相关,三)相关分析适用于两变量均为随机取值的资料,当一个变量的数值人为选定时不能做相
7、关分析。如研究不同温度下兔肺动脉张力,人为选定四个温度16,24,30,37,获得如下资料,四)异常点的存在对相关分析往往有影响,要特别注意,图 9-3 剔除异常值前后的散点图,五)分层资料盲目合并容易引起假象,左图显示:合并前,两组数据无相关关系,但合并后呈正相关。 右图显示:合并前,两组数据分别呈正相关,但合并后无相关关系,相关关系不等于因果关系; 相关分析要有实际意义,两个变量的选择 一定要结合专业背景,不能把毫无关联的两种现象勉强作相关分析。 注意相关关系成立的数据范围,小 结,小 结,案例 有研究者欲研究某药口服量与血药浓度关系,把口服药物设定为1, 2.5, 5, 7.5, 10,
8、 15, 20, 30等档次,每档各取3只动物(共24只)进行试验,于服药后1 h抽血检验血药浓度。在SPSS中作散点图,计算得口服药物量与血药浓度的Pearson相关系数=0.979,经假设检验P0.001,认为口服药物量与血药浓度呈线性正相关,请问:本例的两个变量各有何特征?可以计算Pearson相关系数吗?若可以,则计算的方法与步骤有何不妥吗?计算结果正确吗?可以推出本例的结论吗,案例辨析 本例的重要问题是,线性相关的条件不满足,即口服剂量是人为取定的,属于非随机变量,因此不宜作相关分析。其次,仅利用Pearson相关系数与假设检验值就认为两者呈线性正相关为时过早。分析本例的散点图,可发
9、现散点呈曲线形,而非直线型,因此即使口服剂量是随机变量也不宜直接作线性相关分析。第三,研究者取的剂量范围为130,而结论认为口服药物量与血药浓度呈线性正相关,未限定浓度范围,也是不妥的。相关分析很重要的一条就是在多大范围作的研究就在多大范围下结论,因为超过范围很可能结论就不再成立,第二节直线回归,对于具有相关关系的变量,虽然不能用精确的函数表达式来表达其关系,但是大量观察数据的分析表明,它们之间存在着一定的相互依存关系。 相关分析是用相关系数来刻画这些变量之间相互依存关系的密切程度; 回归分析从变量的观测数据出发,定量地反映它们之间相互依存关系,判断所建立的回归方程式的有效性,进行预测或估计,
10、函数关系:它反映着现象之间严格的数量化依存关系,也称确定性的依存关系。如正方形的面积和边长的关系,回归关系:变量之间存在着不确定、不严格的依存关系,即对于一个变量的某个数值,可以有另一变量的若干数值与之相对应,在这种关系中,对于变量的每一个数值,都有一个或几个确定的值与之严格对应,回归关系的几个例子,子女身高y与父亲身高x之间的关系 收入水平y与受教育程度x之间的关系 体重y与身高x1 、胸围x2 之间的关系 体表面积y与体重x之间的关系 商品销售额y与广告费支出x之间的关系,回归分析的基本概念,一、简单线性回归(Regression)的意义,简单线性回归是用来分析一个变量(反应变量)如何随另
11、一个变量(解释变量)变化而变化数量关系的一种方法,回归分析(Regression analysis) 从一组样本数据出发,确定变量之间的数学关系式; 对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出具有统计学意义的变量,自变量与因变量 a)自变量(independent variable)或解释变量: 影响因变量的变量, 一般用X表示 b)因变量(dependent variable)或响应变量: 受其它变量影响的变量,一般用Y表示 通常由给定的x值来对Y值进行推断,故x是给定的、非随机的,Y是随机变量,直线回归分析的关键就是求出回归方程 中a、b两个常数。由数学知
12、识可知,两点决定一条直线。将容量为n的样本标在(x,y)坐标平面上,可得到n个点。n个点可确定许多直线,到底以哪条线作为回归线呢?直线回归的主要应用是统计预测,即根据实测的X估算Y,当然是希望估算的Y(称为 )与实测之间的差值(Y )越小越好,最小二乘法建立回归方程,故由样本资料决定回归线时,往往用数学上的最小二乘法(least square method)原理求解a和b两个系数(和的点估计值),即在所有直线中找出(残差平方和 ,记为SS残差)达最小值时所对应的直线作为回归线,最小二乘法建立回归方程,1801年,意大利天文学家朱赛普皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷
13、神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。高斯也计算了谷神星的轨道。奥地利天文学家海因里希奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星。 高斯使用的最小二乘法的方法发表于 1809年他的著作天体运动论中,让所有点的 的平方和最小,用最小二乘法拟合直线,选择a和b使其残差(样本点到直线的垂直距离)平方和达到最小,系数估计公式,回归方程,二、回归分析的方法步骤,绘制散点图,求回归系数和常数项,列出回归方程,并进行假设检验,回归方程的解释,例7-1,欲了解急性脑血管病患者血清IL-6与脑
14、脊液IL-6含量之间的关系,某医师随机抽取了该院确诊的10例蛛网膜下腔出血患者,测量24小时内血清IL-6和脑脊液IL-6(pg/ml),问蛛网膜下腔出血患者脑脊液IL-6含量是否随血清IL-6含量的变化而变化,表7-1 蛛网膜下腔出血患者血清和脑脊液IL-6(pg-ml)检测结果,一)散点图,二) 建立直线回归方程,解 例7-1可知: 由系数求解公式得,故所求回归方程为: 回归系数b=72.96表示血清IL-6含量每增加一个单位,将会使脑脊液IL-6含量增加72.96ng,表示回归线性模型中的总体回归系数 参数的意义:若自变量X增加1个单位,反应变量Y的平均值便增加个单位。 =0,说明Y与X
15、之间并不存在线性关系; 0,说明Y与X之间存在线性关系。 理由:从=0的总体抽得样本,计算出的回归系数b很可能不为零,总体回归系数的统计推断,t检验,式7-7,式7-8,式7-6,三、直线回归分析的统计推断,目的:检验求得的回归方程在总体中是否成立; 方法:单因素方差分析,变异的分解,回归方程假设检验的步骤,1) 建立假设H0:=0(方程无统计学意义) (2)计算lxx、lxy、lyy,再计算SS回归、SS残差的值: (3)计算检验统计量的F值,4) 对给定检验水准,查F分布表(附表4),得临界值F(1,n-2); (5)统计判断:FF时,则P,不拒绝H0,例7-1,对例7-1中数据,试检验Y
16、对x的线性回归方程的统计学意义。(=0.05) 查F分布表,得临界值F0.05(1,8)=5.32,因FF , 则P0.05,拒绝H0,认为方程有统计学意义,方差分析表,决定系数,描述回归拟合效果 取值01之间,取值说明在Y的总变异中回归关系能解释的比例。 本例,说明SAH患者脑脊液IL-6含量52.31%的变异 与血清IL-6有关,四、线性回归分析的前提条件,回归模型的基本假设,1.线性(linear) 2.独立(independent) 3.正态 (normal) 4.等方差(equal variance,线性(linear)指反应变量Y的总体平均值与自变量X呈线性关系。 独立(indep
17、endent)指任意两个观察值互相独立。 正态 (normal)指X取某值时,对应的应变量Y服从正态分布。 等方差(equal variance)是指在自变量X取值范围内,不论X取什么值,Y都具有相同的方差,直线回归方程的应用,一)定量描述两变量之间的依存关系。 (二)利用回归方程进行预测。 (三)利用回归方程进行统计控制,五、回归分析的注意事项,1.回归分析中,自变量可以是随机变量或确定性的量,但因变量必须是随机变量且应服从正态分布。 2.回归方程的适用范围是有限的。使用回归方程计算估计值时,一般不可把估计的范围扩大到建立方程时自变量的取值范围之外,六、相关与回归的区别与联系,1.相关与回归的区别。相关系数的计算只适用于两个变量都服从正态分布的资料,表示两个变量之间的关系是双向的;而回归分析中,因变量是随机变量,自变量可以是随机变量也可以是给定的量。回归反映两个变量之间的单向关系,2.相关与回归的联系,1)方向一致:对一组数据若能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二年级上册数学(人教版)3.两位数连加、连减和加减混合运算练习-1教学设计
- 《火车过桥》(教案)四年级上册奥数人教版
- 2024年化妆品品牌建设合作
- 大班安全教案《水的安全》
- (2024版)高端装备制造业产业链协同创新协议
- 建筑行业绿色节能改造方案
- 生态农业水稻种植技术方案
- 酒店给排水系统施工组织设计方案
- 公共交通系统安全演练方案
- 2024化工原料搬运吊装安全合同
- 培智学校四年级生活语文《四季花开》公开课优质课课课件
- 古代服饰发展史英文版课件
- 卡特福德翻译转换理论课件
- 粉笔字入门详解课件
- 二年级上册美术课件-9.亮眼睛 |苏少版 (共14张PPT)
- 2023年嘉定区牙病防治所医护人员招聘笔试题库及答案解析
- 幼儿园经典诵读活动方案(共6篇)
- 肿瘤免疫与CART细胞治疗课件
- 马克思主义基本原理全套课件
- Australian taxation law notes 澳大利亚税法概要
- 三笔字训练教程课件
评论
0/150
提交评论