第八讲 双变量相关与回归_第1页
第八讲 双变量相关与回归_第2页
第八讲 双变量相关与回归_第3页
第八讲 双变量相关与回归_第4页
第八讲 双变量相关与回归_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中医药统计学与软件应用中医药统计学与软件应用 曹治清曹治清成都中医药大学管理学院成都中医药大学管理学院 数学与统计教研室数学与统计教研室 2第第8讲讲 双变量相关与回归双变量相关与回归 o直线相关直线相关o秩相关秩相关o直线回归直线回归o曲线回归曲线回归o双变量相关与回归电脑实验双变量相关与回归电脑实验3第第8讲讲 双变量相关与回归双变量相关与回归引言引言o 世界上万事万物是相互联系的,相互联系着的事物(变量)间的关系有确定性关系和非确定性关系。确定性关系既变量间的函数关系,是指一个变量的每个可能取值,另外的变量都有完全确定的值与之对应;如路程速度时间的关系为。非确定性关系是指变量在宏观上存在

2、关系,但并未精确到可以用函数关系来表达,也称随机性关系。在医药研究中,常常要分析变量间的非确定性关系,如糖尿病患者的血糖与胰岛素水平、降糖药剂量与疗效的关系等。本章介绍研究变量间的非确定性关系的统计分析方法相关(correlation)与回归(regression)。o 相关分析相关分析是研究事物或现象之间有无相关、相关的方向和是研究事物或现象之间有无相关、相关的方向和密切程度如何,一般不区别自变量或因变量。密切程度如何,一般不区别自变量或因变量。4第一节第一节 直线相关直线相关一、直线相关的概念一、直线相关的概念 o直线相关是分析两个变量间是否存在线性相关直线相关是分析两个变量间是否存在线性

3、相关关系的方法。(非确定关系,如身高和体重)关系的方法。(非确定关系,如身高和体重)o适用于双变量正态分布资料适用于双变量正态分布资料o直线相关的性质可由散点图说明直线相关的性质可由散点图说明5第一节第一节 直线相关直线相关受受试试者号者号12345678910111213 1415凝血酶浓度(单位/毫升)1.11.21.00.91.21.10.9 0.6 1.0 0.9 1.1 0.9 1.110.7凝血时间(秒)14131515131416171416151614 1517表表8-1 158-1 15例健康成人凝血时间与凝血酶浓度测量值记录例健康成人凝血时间与凝血酶浓度测量值记录6 121

4、213131414151516161717181819190.50.50.70.70.90.91.11.11.31.3凝血酶浓度(毫升)凝血酶浓度(毫升)凝凝血血时时间间(秒)(秒)7第一节第一节 直线相关直线相关o正相关:正相关:x x、y y同向变化,即同向变化,即x x增大增大y y也增大。也增大。o完全正相关完全正相关o负相关:负相关:x x、y y反向变化,即反向变化,即x x增大,增大,y y减小。减小。o完全负相关完全负相关o零相关:零相关:x x、y y变化无规律变化无规律相关类型8第一节第一节 直线相关直线相关Pearson相关系数o相关系数是描述两个变量间相关关系的密切程度

5、与相关方向的指标。o总体相关系数,样本相关系数rnininiyyxxxyyyxxyyxxlllr11221)()()(9第一节第一节 直线相关直线相关Pearson相关系数10第一节第一节 直线相关直线相关总体相关系数检验相关系数的假设检验相关系数的假设检验o由于存在抽样误差,要判断总体X、Y间是否有相关关系,就要对相关系数进行检验。oH0:0, H1:0ot检验o查附表7,相关系数r界值表。11第一节第一节 直线相关直线相关直线相关分析的步骤o 考察资料是否满足双变量正态性考察资料是否满足双变量正态性 o 作散点图(作散点图(scatter plot),考察两变量间),考察两变量间有无直线趋

6、势有无直线趋势 o 计算相关系数计算相关系数r o 相关系数的假设检验与下结论相关系数的假设检验与下结论 12H0:0H1:0a=0.05 据自由度15-213查t临界值表,P0.001, 故拒绝H0,接受H1,差异有统计学意义。可以认为凝血酶浓度与凝血时间之间存在负相关。587.9215)936.0(1936.02rt13第一节第一节 直线相关直线相关直线相关分析的注意事项o要有实际意义,不能把毫无关联的现象都去做相关分析。n样本的相关系数接近零并不意味着两变量间一定无相关性,绘制散点图o一个变量的数值人为选定时莫作相关o两变量间存在直线相关关系,并不表示一定是因果关系,可能是伴随关系。o相

7、关系数的假设检验中,概率p不能说明相关关系的密切程度14第一节第一节 直线相关直线相关直线相关分析的注意事项o出现异常值时慎用相关o分层资料盲目合并易出假象15o不满足双变量正态分布,或总体分布类型未知,不满足双变量正态分布,或总体分布类型未知,或等级资料,则进行等级相关分析,等级相关分或等级资料,则进行等级相关分析,等级相关分析主要有析主要有SpearmanSpearman法和法和Kendalls Kendalls tau-utau-u法。法。oSpearmanSpearman等级相关即秩相关(等级相关即秩相关(rank rank correlationcorrelation),是一种非参数

8、统计方法),是一种非参数统计方法 。oSpearman等级相关系数,或称秩相关系数等级相关系数,或称秩相关系数 第二节第二节 秩相关秩相关16第二节第二节 秩相关秩相关o 秩相关系数 无量纲,且 。 表示变量和之间的相关程度。 的符号表示相关方向, 称为正相关, 称为负相关。若 的值越接近1,则相关性越强;若 的值越接近0,则相关性越弱;当 称为零相关; 称为完全相关。 sr1sr srsr0sr 0sr srsr0sr 1sr o Pearson相关系数是度量变量间的线性相关关系指标,秩相关系数是作为双变量之间单调关系强弱的统计指标。因此,不管变量之间的关系是不是线性的,只要变量之间具有严格

9、的单调增加(或减少)的关系,变量之间的秩相关系数就是1(或-1),即完全相关。 17第二节第二节 秩相关秩相关 18第二节第二节 秩相关秩相关秩相关假设检验 00sH:(变量 X 和Y 无相关关系) 10sH:(变量 X 和Y 有相关关系) 05. 0 2计算检验统计量:样本秩相关系数sr 3确定P值,作出统计推论 对给定的显著性水平,查 Spearman 等级相关系数临界值表(附表 8 ) ,得临界值),(nsr。若),(nssrr,则拒绝原假设0H ,即可以认为变量 X 和Y 有相关关系;反之,则接受原假设0H ,即两变量无相关关系。 19第二节第二节 秩相关秩相关o 【例9-2】 调查正

10、常成年人脉象,记录各年龄组弦脉阳性率,资料见表9-2,试讨论年龄与弦脉阳性率之间是否存在秩相关关系?20第二节第二节 秩相关秩相关假设0:0sH,1:0sH 取0.05,6n , 查附表 8 , 得886. 0)6,05. 0(sr, =0.9429sr,)6,05. 0(ssrr ,05. 0P,故拒绝0H ,可以认为年龄与弦脉阳性率之间呈现正的秩相关关系。 21第三节第三节 直线回归直线回归引言o “回归”一词最早由英国统计学家弗朗西斯高尔顿爵士(Francis Galton, 1822-1911,达尔文的表兄弟)和他的学生、现代统计学的奠基者之一卡尔皮尔逊(KarlPearson,185

11、6-1936年)在研究父母身高与其子女身高的遗传问题时提出的。他们研究发现身材高的父亲,他们的孩子也高,但这些孩子平均起来并不像他们的父亲那样高。对于比较矮的父亲情形也类似,他们的孩子比较矮,但这些孩子的平均身高要比他们的父亲的平均身高高。高尔顿和皮尔逊把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他们创立的研究计量变量依存关系的方法称为回归分析。22第三节第三节 直线回归直线回归概念o 直线回归(linear regression)又称简单线性回归(simple linear regression),是反映两变量间的线性依存关系,它采用最小二乘法原理找出最能描述变量间非确定性关系的

12、一条直线,此直线为回归直线或经验直线,相应的方程为直线回归方程或经验方程。直线回归分析中两个变量的地位不同,其中一个变量是依赖另一个变量而变化的,因此分别称为因变量(dependent variable)和自变量(independent variable),习惯上分别用y来x表示。直线回归分型回归与型回归两种,y依存于x为型回归,y与x相互依存为型回归。23第三节第三节 直线回归直线回归应用条件o 线性回归模型成立需要满足4个前提条件,即线性(linearity)、独立(independency)、正态(normal )和等方差性(equal variance),简记为Line。2. 独立是指

13、各例观测值yi(i=1,2,n)相互独立 通常利用专业知识或残差分析来判断这项假定是否满足。1. 线性是指因变量的总体平均值与自变量具有线性关系。通过观察散点的分布来判断有无线性趋势 。24第三节第三节 直线回归直线回归应用条件3. 正态是指因变量值服从正态分布 即要求线性模型的随机误差项服从正态分布。如果该条件不成立,在正态分布假设下对总体回归系数的假设检验和可信区间估计的结论均无效。可通过专业知识、对变量进行正态性检验或利用残差分析来考察这一条件是否满足。 4等方差性是指对任意一组自变量x1、x2、xm值,因变量y具有相同方差 如果该条件不成立,总体回归系数的估计有偏性,可信区间估计及假设

14、检验的结论均无效。通常可利用(xi,yi)散点图或残差分析判断等方差性。 25第三节第三节 直线回归直线回归应用条件o 资料不满足这四个条件时,常用的处理方法有:修改资料不满足这四个条件时,常用的处理方法有:修改模型或者采用曲线拟合,也可变量转换。常用的变量模型或者采用曲线拟合,也可变量转换。常用的变量转换有对数转换、平方根转换、倒数转换等。变量转转换有对数转换、平方根转换、倒数转换等。变量转换对自变量或(和)因变量均适宜;如果方差不齐,换对自变量或(和)因变量均适宜;如果方差不齐,可采用加权最小二乘法估计回归系数。可采用加权最小二乘法估计回归系数。26第三节第三节 直线回归直线回归一般步骤1

15、绘制散点图,看有无直线趋势,有无异常点 有直线趋势无异常点方可考虑直线回归分析,否则,查找异常点的缘故,剔除过失误差所致的异常点,保留客观存在的异常点进行曲线回归。2考察资料是否满足直线回归分析的条件 除线性外,可通过残差分析结果来考察资料是否满足其应用条件。3求回归系数b和常数项a4写出回归方程, bXaY27第三节第三节 直线回归直线回归一般步骤5对回归方程和回归系数进行假设检验 6绘制回归直线 7残差分析 8统计预测,有必要时还可进行统计控制 9回归分析效果评价 28第三节第三节 直线回归直线回归直线回归模型o 若随机变量y和确定性变量x(其值是可以精确测量或控制的)存在直线依存关系,则

16、可设其回归模型为:Xy, ) , 0( 2No 为待估参数,为待估参数, 为随机误差。为随机误差。29第三节第三节 直线回归直线回归直线回归模型o 实际中仅能获取有限的样本数据,用直线方程建立关于的近似表达式:bXaYo 其中, 是对应的随机变量y的总体均值的一个估计值, 、 分别是 、 的估计值。 Yab 30第三节第三节 直线回归直线回归直线回归方程的建立o参数一般只能通过样本数据来估计。当X取值为Xi时,Y的平均值的估计值 应为a + b Xi,而实际观察值却是Yi 。两者之差称为残差(residual)。oa和b取不同的数值获得不同的候选直线。如果我们得到了a和b的适宜值,能使所有n个

17、数据点的残差平方和达到最小值,则称这一对a和b为 和 的最小二乘估计(least squared estimation,LSE)。上述使回归残差平方和最小的策略称为最小二乘原则。o最小二乘法:各个散点到直线的纵向距离平方和最小。31第三节第三节 直线回归直线回归直线回归模型2)()(XXYYXXllbXXXYXbYa32第三节第三节 直线回归直线回归直线回归模型的检验(一)回归方程的假设检验:用样本资料建立的直线回归方程是否能反映总体上两个变量之间存在直线回归关系,即直线回归方程在总体中是否成立,这就需要进行直线回归方程的假设检验。回归方程的假设检验常采用方差分析。 33第三节第三节 直线回归

18、直线回归直线回归模型的检验剩余回归总SSSSSS剩余回归总1 n总1回归2 n剩余 剩余回归MSMSF 34第三节第三节 直线回归直线回归直线回归模型的检验(二)回归系数的假设检验(二)回归系数的假设检验 :由于抽样误差的原因,即使x、y的总体回归系数为零,其样本回归系数b也不一定为零,因此需要进行是否为零的假设检验。回归系数的假设检验常采用t检验. 假设00:H,自变量X与因变量Y不存在依存关系 01:H,自变量X与因变量Y存在依存关系 05. 0bSbt 2 n剩余XXXYblSS22)(2nSSnYYSXY剩余 35第三节第三节 直线回归直线回归直线回归模型的检验o 在直线回归方程中,由

19、于只有一个自变量,所以回归模型的方差分析等价于对回归系数进行的t检验,且 。但在多元线性回归分析中回归模型的方差分析与(偏)回归系数的t检验是有区别的。Ft (三)总体回归系数的可信区间估计(三)总体回归系数的可信区间估计 :回归系数b是总体回归系数的点估计,由于存在抽样误差,需要进行的(1-)可信区间估计。 ),(,2/,2/bbStbStb36第三节第三节 直线回归直线回归直线回归模型的检验(四)回归方程的拟合优度(四)回归方程的拟合优度1决定系数(determining coefficient,R2) 就是相关系数的平方r2,是回归平方和在总的离均差平方和中所占的比例,反映因变量的总变异

20、中可由回归因素解释的部分。总剩余总剩余总总回归SSSSSSSSSSSSSSR1237第三节第三节 直线回归直线回归直线回归模型的检验o , 值越接近于1,表示回归平方和在的总离均差平方和中所占的比重越大,模型对数据的拟合程度越好,表明利用回归方程进行预测也越有意义。反之, 值越接近于0,表示回归平方和在y的总离均差平方和中所占的比重越小,模型对数据的拟合程度越差。所以,是评价回归效果的一个重要指标。102 R2R2R2R38第三节第三节 直线回归直线回归直线回归模型的检验2估计标准误差(standard error of emtimate) 是残差平方和的均方根,即回归的剩余标准差,用来 表示,是指扣除了x对y的线性影响后,y的变异,可用于说明估计值 的精确性。它越小,表示回归方程的估计精度越高。若各观察点都落在回归直线上,则它等于0,此时用自变量来预测因变量是没有误差的。因此, 也是考究回归直线拟合优度的一个统计量。 e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论