第9章 双变量回归与相关(改)_第1页
第9章 双变量回归与相关(改)_第2页
第9章 双变量回归与相关(改)_第3页
第9章 双变量回归与相关(改)_第4页
第9章 双变量回归与相关(改)_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章 双变量回归与相关 函数关系与相关关系函数关系与相关关系1、函数关系(确定性关系):两变量间呈一一对应的关系。2、相关关系(非确定性关系):两变量间数量上存在联系,但非一一对应关系。如年龄与血压,儿童年龄与体重等。 1、 相关与回归分析是描述两个或多个呈相关关系(而非一一对应的函数关系)的变量数量上相互依存的统计学方法。 2、相关与回归分析所用的样本数据应是来自研究总体的一份随机样本。编号123456789边长X42.53532.1 周长Y16101220128.41817.6 8.89个正方形其边长个正方形其边长X(cm)与周长与周长Y(cm)的关系的关系2.02.5

2、3.03.54.04.55.0 x8.010.012.014.016.018.020.0y正方形边长X与周长Y的散点图编号12345678910父高X150153155158161164165167168169子高Y159157163166169170169167169170编号11121314151617181920父高X170171172174175177178181183185子高Y173170170176178174173178176180为讨论父子身高间的线性关系,南方某地在应届毕业生花名册中随机抽取了20名男生,分别测量他们和他们父亲的身高(cm),得如下资料:1501601701

3、80190father155160165170175180son父子身高散点图双变量的名称种种双变量的名称种种n因变量(dependent variable)Yn自变量(independent variable)Xn反应变量(response variable)Yn解释变量(explanatory variable)Xn结局变量(outcome)Yn研究因素(design factor)X 第一节第一节 直线回归直线回归 Linear Regression 简单线性回归分析是用线性回归方程描述两变量数量上相互依存的统计方法,简称直线回归。 回归分析解决的问题n确定变量(自变量与因变量)之间是否

4、存在某种线性的统计学关系,存在则应找出这种关系的表达式;n确定这种关系存在的概率的大小。线性回归分析因变量:连续变量自变量:典型的是连续变量,但是在实际应用中,任何类型的变量目的:描述一些自变量与一个因变量之间关联的程度、方向和范围。因变量:准则变量、结果变量自变量:回归变量、预测变量、独立变量1、应变量、应变量(dependent variable)2、自变量自变量(independent variable)3、一元线性回归一元线性回归直线回归方程的模型是:直线回归方程的模型是:yi=a+bxi+ei其中其中()()a是截距是截距()()b是回归系数是回归系数(regression coef

5、ficient)(回归直线的回归直线的斜率)斜率) 回归系数的统计学意义是:自变量每变化一个单位,应回归系数的统计学意义是:自变量每变化一个单位,应变量变量平均平均变化的单位数变化的单位数()()ei是残差是残差因此直线回归方程的一般形式是:因此直线回归方程的一般形式是:n其中其中 是应变量是应变量y的预测值或称估计值。的预测值或称估计值。iyiiyabx 4、多元线性回归、多元线性回归 多元线性回归方程模型为:多元线性回归方程模型为: yi=b0+b1x1i+b2x2i+bnxni+ei其中其中 (1) b0是常数项,是各自变量都等于是常数项,是各自变量都等于0时,应变量的估计值。有时,人们

6、称它时,应变量的估计值。有时,人们称它为本底值。为本底值。(2) b1,b2,bn是偏回归系数是偏回归系数( partial regression coefficient ),其统计学其统计学意义是在其它所有自变量不变的情况下,某一自变量每变化一个单位,意义是在其它所有自变量不变的情况下,某一自变量每变化一个单位,应变量平均变化的单位数。应变量平均变化的单位数。 如果所有参加分析的变量都是标准化的变量,这时如果所有参加分析的变量都是标准化的变量,这时b就等于就等于0, b1,b2,bn 就变成了标准化偏回归系数,用符号就变成了标准化偏回归系数,用符号b1,b2,bn表示。表示。 bi= bi*

7、sxi/sy 由于由于bi没有量纲,因此可以相互比较大小,反映自变量的相对作用大小。没有量纲,因此可以相互比较大小,反映自变量的相对作用大小。 (3) ei是残差是残差多元线性回归方程的一般形式是:多元线性回归方程的一般形式是:其中的符号含义同前。其中的符号含义同前。01122nniiiiybb xb xb x直线回归系数的最小二乘估计直线回归系数的最小二乘估计n基本思想:使样本点到回归直线的纵向距离基本思想:使样本点到回归直线的纵向距离的平方和最小。的平方和最小。 定义定义e (residual)为残差,为残差,Q为残差平方和为残差平方和使关于残差的一阶偏导数为使关于残差的一阶偏导数为0yy

8、e22)() (bxayQyyQ直线回归系数和截距计算公式直线回归系数和截距计算公式xxxyllxxyyxxb2)()(xbya例 9-1 某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1,估计尿肌酐含量(Y)对其年龄(X)的回归方程。 表9-18 名正常儿童的年龄X(岁)与尿肌酐含量(Y)编号12345678年龄X131196810127尿肌酐含量Y3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65由原始数据及散点图的观察,两变量间呈直线趋势,故作下列计算:1.计算X、Y的均数X、Y,离均差平方和XYYYXXlll与离均差积和、5.987

9、6nXX9838. 2887.23nYY428)76(764)(222nXXlXX0462. 18)87.23(2683.72)(222nYYlYY8450. 58)87.23)(76(61.232)(nYXXYlXYab和截距求回归系数. 21392. 042/8450. 5b6617. 1) 5 . 9)(1392. 0(9838. 2a列出直线回归方程. 3XY1392. 06617. 12()XYXXlblXX(X-X)Y-YaYbX假设检验假设检验1方差分析:就总体而言,回归关系是否存方差分析:就总体而言,回归关系是否存在,或回归方程是否成立?在,或回归方程是否成立?2,)(1,)(

10、1,)(222nyySSyySSnyySSeiieiTiT回回eeeMSMSSSSSF回回回/0)(2)()()()()(2222回SSSSyyyyyyyyyyyyyySSeiiiiiiiiiiiiiiiT0)()()()()()()(222222xxbxxbxxbyyxxbyxxbyxxbyyyyyyiiiiiiiiiii回归分析中各离均差平方和的含义SS总:Y的总离均差平方和SS回: SS总中X变量可解释的部分SS残:SS总中X变量不能解释的部分例 9-2 检验例9-1数据得到的直线回归方程是否成立?(1)方差分析间无直线关系即尿肌酐含量与年龄之, 0:0H间有直线关系即尿肌酐含量与年龄之

11、, 0:1H05.08134. 042/845. 5/22XXXYllSS回2328. 08134. 00462. 1回总残SSSSSS。列出方差分析表如表29变异来源自由度SSMSFP总变异71.0462回归10.81340.813420.970.01残差60.23280.0388SSSSSS总回残22/XYXYXXXXSSblllb l回假设检验假设检验2t 检验:检验:H0 : = 0 , H1 : 02,0nsbtbb22)()2/()(xxnyylssiiixxyxb,05. 001. 0611021HHPF接受拒绝水准。按界值表,得,查、龄之间有直线关系。可认为尿肌酐含量与年同上及

12、、10HH1392. 0,42,2328. 08blSSnXX残,本例1970.0282328.0 XYS0304.0421970.0bS579.40304.01392.0t,05. 0005. 0002. 0, 60HPt拒绝水准。按得界值表查结论同上。接受,1H,2nbb-0t=SY XY XbXXSSSl2Y XSSSn残n(2) t检验检验例 9-3 根据例9-1中所得b=0.1392,估计其总体回归系数的双侧95%可信区间。, 6,0304. 029界值表查按自由度已算得由例tSb可信区间的计算按公式得到%95)139(,447. 26, 2/05. 0t)0304. 0447. 2

13、1392. 0 ,0304. 0447. 21392. 0()2136. 0 ,0648. 0(/2,:bbtS依有利用回归方程进行估计和预测00000, 2/0/0220.YY0/00/Y1XX)()(1SSYYXXYXYXXYXYStXXXXn的可信区间为的时,当差。样本而异,存在抽样误会因的一个点估计值。是相应总体均数只的,由样本回归方程得出的数值给定的可信区间:总体均数个体Y值的预测区间000, 2/00220.YY0Y1YXX)()(11SSYXXYXYStXXXXnS预测区间为值的时,个体当为:波动范围。其标准差值也存在一个,对应的个体的数值给定例 9-4 用例9-1所得直线回归方

14、程,计算当X0=12时, 的95%可信区间和相应个体Y值的95%预测区间。0XY;42, 5 . 9,1392. 06617. 119XXlXXY得到回归方程为由例)169()149(和按公式1031. 042)5 . 912(811970. 020YS时。当得到回归由例121970. 0290XSXY3321.3121392.06617.1Y2223. 042) 5 . 912(8111970. 020YS时故按公式前已查得12),159(,447. 206 , 2/05. 0Xt)584. 3 ,080. 3 ()1031. 0447. 23321. 3 ,1031. 0447. 2332

15、1. 3 (预测区间为时尿肌酐含量个体值的按公式%9512),179(0X)876. 3 ,788. 2()2223. 0447. 23321. 3 ,2223. 0447. 23321. 3(尿肌酐含量总体可信区间为均数的%95线性回归的条件线性回归的条件n线性(线性(linear)n独立(独立(independent)n正态(正态(normal)n等方差(等方差(equal variance)数量化回归分析是寻找以数量表示的自变量与因变量之间统计规律,因此,进行分析的变量必须用数量表示。因此,用于进行线性回归分析模型的变量必须是数量型变量。常用的指标数量化方法是0-1法。评价回归模型的指标

16、n决定系数 R 01之间,越接近1,模型越好n复相关系数(R2) R的平方 01之间,越接近1,模型越好n残差角度: 残差标准误 预测残差平方和nR2最大 R2 SS回归 SS总nadjR2最大: adjR21SS残/ SS总回归方程的评价指标残差分析n分析线性回归条件是否满足?分析线性回归条件是否满足? 残差频数分布图(检验正态性) 残差对残差对x或或y作散点图(检验等方差性)作散点图(检验等方差性) 残差Durbin-Watson test(检验残差自相关性)统计量取值在0-4之间,越接近0,则可能为正相关,越接近4,则可能为负相关。n观察可疑值或异常值。 Residual 残差 Std.

17、 Residual 标准化残差 Stud. Residual 学生化残差线性回归的应用n定量描述两变量的数量关系定量描述两变量的数量关系 病因学研究,寻找危险因素 和相关分析的区别n统计预测统计预测 常用的预测手段/如身高预测 标准工作曲(直)线,化学分析 一些指标难以求得,测量易测得的指标,估计难测量的指标,n统计控制统计控制统计控制的思路n已经建立回归方程,并知道相应的要素;已经建立回归方程,并知道相应的要素;n确定控制目的,取确定控制目的,取y值的单侧值的单侧1-a置信区间的上置信区间的上限或下限限或下限y;n将将y代入回归方程,求出代入回归方程,求出x,得得x的控制值。的控制值。 求求

18、y需要知道需要知道x0,而而x0不能事先确定,不不能事先确定,不妨给妨给x0个初始值,比如个初始值,比如x0=均数,然后再用新均数,然后再用新算出的算出的x0代入,可以反复多次,直到满意为止。代入,可以反复多次,直到满意为止。 第二节 直线相关 Linear Correlation相关分析:描述两个随机变量X和Y之间数量上联系密切程度与方向的统计学方法。常用的描述指标为相关系数 。 n 医学上,许多现象之间也都有相互联系,例如:身高与体重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。n 在这些有关系的现象中,它们之间联系的程度和性质也各不相同。n关系:可以说乙肝病毒感染是前因,得了乙肝是

19、后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。n为了研究父亲与成年儿子为了研究父亲与成年儿子身高之间的关系,卡尔身高之间的关系,卡尔.皮皮尔逊测量了尔逊测量了1078对父子对父子的身高。把的身高。把1078对数字对数字表示在坐标上,如图。表示在坐标上,如图。n它的形状象一块橄榄状的它的形状象一块橄榄状的云,中间的点密集,边沿云,中间的点密集,边沿的点稀少,其主要部分是的点稀少,其主要部分是一个椭圆。一个椭圆。二、相关系数二、相关系数 样本的相关系数用r (correlation coefficient) 相关系

20、数r的值在-1和1之间。正相关时,r值在0和1之间,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,此时一个变量增加,另一个变量将减少。 r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。典型的散点图0 xy0 xy0 xy0 xy0 xy0 xy(a) 0r1(c) r 1(b) -1r100),并对r进行假设检验,有统计学意义时,r的绝对值大于0.70.7,则表示两个变量高度相关;r的绝对值大于0.40.4,小于等于0.7时,则表示两个变量之间中度相关;r的绝对值大于0.20.2,小于等于0.4时,则两个变量低度相关。 第三节 秩相关又称

21、等级相关,属于非参数统计方法。1、不服从双变量正态分布而不宜作积差相关2、总体分布类型未知3、原始数据是等级资料Spearman秩相关用等级相关系数来表示两变量间直线相关关系的密切程度和相关方向。分析过程分析过程:1、将n对观察值Xi和Yi分别由小至大编秩2、对两组秩作积差相关系分析,即得秩相关系数3、进行总体秩相关系数为零的假设检验秩相关nSpearman 等级相关) 1(6122nndris例 9-8 某省调查了19951999年当地居民18类死因的构成以及每种死因导致的潜在工作损失年数WYPLL的构成,结果见表9-3。以死因构成为X,WYPLL构成为Y,作等级相关分析。系构成之间无直线相

22、关关即死因构成和WYPLLHs, 0:0系构成之间有直线相关关,即死因构成和:WYPLLHs0105. 0iiXYPQ将两变量 、 的实测值分别从小到大编秩,用 和9 3表示,见表第(3)、(5)栏。每个变量中若有2d2观 测 值 相 同 则 取 平 均 秩 。 求 每 对 秩 的 差 值 d、 d 、。9 3见表第(6)、(7)栏,按公式(9-25)计算s统计量r。36 ( 9 2 )10 . 9 0 51 81 8sr 05. 0001. 014,18。按界值表,得的查附表本例Prns构成和各种可认为当地居民死因的接受拒绝水准,10HH死因。的构成存在正相关关系数导致的潜在工作损失年WYP

23、LL226:1:(1)sdrn n 依有死因类别 (1) 死因构成(%) X(2) P(3) WYPLL 构成(%) Y(4) Q(5) d (6)=(3)-(5) 2d (7)=(6)2 1 0.03 1 0.05 1 0 0 2 0.14 2 0.34 2 0 0 3 0.20 3 0.93 6 -3 9 4 0.43 4 0.69 4 0 0 5 0.44 5 0.38 3 2 4 6 0.45 6 0.79 5 1 1 7 0.47 7 1.19 8 -1 1 8 0.65 8 4.74 12 -4 16 9 0.95 9 2.31 9 0 0 10 0.96 10 5.95 14 -

24、4 16 11 2.44 11 1.11 7 4 16 12 2.69 12 3.53 11 1 1 13 3.07 13 3.48 10 3 9 14 7.78 14 5.65 13 1 1 15 9.82 15 33.95 18 -3 9 16 18.93 16 17.16 17 -1 1 17 18 22.59 17 8.42 15 2 4 27.96 18 9.33 16 2 4 合 计 171 171 92 应用相关注意事项应用相关注意事项 1.实际意义实际意义 进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。 2.相关关系相关关系 相关关系不一定是因

25、果关系,也可能是伴随关系,并不能证明事物间有内在联系。 3.利用散点图利用散点图对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关分析。4.变量范围变量范围相关分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量的相关关系和原来的回归关系。 第四节 加权直线回归 一、加权最小二乘估计2)(残iwwiiwXbaYWSSxxwxywwllbWWXbWYXbYawwwwwWWXWXlxxw22)(WWYWYlyyw22)(WWYWXWXYlxyw)(例 9-9 某儿科医师测得10名婴儿的年龄(岁)与其丝状血红细胞

26、凝集素的lgG水平见表9-4。估计抗体水平(Y)与年龄(X)的直线回归方程。 表 9-4 10名婴儿的年龄与其丝状血红细胞凝集素的lgG抗体水平序号 年龄XlgG抗体WY水平Y(1)(2)(3)(4)(5)(6)(7)(8)10.114.0082.649.09330.5836.361322.3120.125.1069.448.33354.1742.501806.2530.219.5022.684.76215.4245.242046.4940.309.0011.113.33100.0030.00900.0050.3417.208.652.94148.7950.592559.1760.4414.0

27、05.172.2772.3131.821012.4070.5618.903.191.7960.2733.751139.0680.6029.402.781.6781.6749.002401.0090.69546.4232.031025.86100.8041.501.561.2564.8451.872691.02合计4.17170.70209.3236.891474.46403.1616903.5521XW XYWXY 222XYWYXWX1首先根据Y与X的散点图,采用最小二乘法得到直线回归方程为绘制此回归方程的残差与自变量的散点图(图9-8),图中显示出残差的方差 与X的

28、取值具有某种系统变化的趋势,可以假定 ,即残差方差与自变量的平方成正比,故而取 。由于在式(9-28)和(9-29)中常数k可以消去,所以实际计算时权重取为 ,将其代入公式(9-28) 和(9-29) 计算过程列在表9-4中,最后得:加权直线回归方程为XY652.4455. 12i22iikX21kXW 21XW 95.404986.33051.14332.20989.361032.209)46.1474)(89.36(16.4032WbXY95.4017. 0XYWWXXWlbl,WWWWaYb X例 9-10 对例9-9求得的加权最小二乘估计回归方程作假设检验。前面计算已知: 0:0WH0

29、:1WH05. 0中)由表根据公式(49329,3051.143,95.40XYWWlb38.651732.209/46.147455.169032YYWl计算得到:。列出方差分析表如表再根据公式59),319(变异来源自由度SSMSFP总变异96517.38回归15868.345868.3472.330.05组内140.5910.0422列出方差分析表如下不拒绝水准。按得界值表查,05. 005. 0,14, 121PF归直线不平行还不能认为两条总体回,0H1616. 01 .8842174.15845. 5cb二、两个截距的比较(一)F检验)()(tjcijcijijtjijYYYYYY2

30、21122112211)()()(tjinjcijinjcijijinjtjijYYYYYYiii截距间公共截距间误差总回归SSSSSSSSSS截距间公共截距间误差总,总221nn,公共误差321nn1截距间(一)F检验)(公共公共总回归误差截距间3/21nnSSSSSSMSMSF113,212nn(二)t检验,2121ccaaccSaat321nn(二)t检验)(212121XXbYYaaccc公共公共误差SSMSSc22112122121)(11xxxxcaallXXnnSScc例 9-12 由于例9-11中两条总体回归直线平行,现检验两条总体回归直线的截距是否相等。距相等两条总体回归直线

31、的截:0H距不等两条总体回归直线的截:1H05. 0并计算其残差平方和归方程例数据求出一个总的回先用,18。求得总回归总回归8385. 0SSSS)429(,6221. 0119按公式中已求得例公共SS218.5)3810/(6221.06221.08385.0F/MSSSSSFMSSS截距间总回归公共12误差公共(n +n -3)列出方差分析表如下变异来源自由度SSMSFP总回归160.8385截距间10.21640.21645.220.05误差150.62210.0415,05. 005. 0,15, 121水准。按得界值表查按PF的截距不等。可认为两总体回归直线接受拒绝,10HH 第六节 曲线拟合 一、曲线拟合的一般步骤n1.选择合适曲线n2.求回归方程n3.求决定系数n 22211)()(总残YYYYSSSSR例 9-13 以不同剂量的标准促肾上腺皮质激素释放因子CRF(nmol/L)刺激离体培养的大鼠垂体前叶细胞,监测其垂体合成分泌肾上腺皮质激素ACTH的量(pmol/L)。根据表9-10中测得的5对数据建立ACTH-CRF工作曲线。 表9-10 标准CRF(X)刺激大鼠垂体前叶细胞分泌ACTH(Y)测定结果编号XX=lgXY10.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论