医学统计学--第九章 双变量回归与相关_第1页
医学统计学--第九章 双变量回归与相关_第2页
医学统计学--第九章 双变量回归与相关_第3页
医学统计学--第九章 双变量回归与相关_第4页
医学统计学--第九章 双变量回归与相关_第5页
已阅读5页,还剩97页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1021第九章双变量回归与相关1022双变量计量资料:双变量计量资料:每个个体有两个变量值每个个体有两个变量值 总体:总体:无限或有限对变量值无限或有限对变量值 样本:样本:从总体随机抽取的从总体随机抽取的n n对变量值对变量值 (X1,Y1), (X2,Y2), , (Xn,Yn) 目的:目的:研究研究X X和和Y Y的数量关系的数量关系 方法:方法:回归与相关回归与相关 简单、基本简单、基本直线回归、直线相关直线回归、直线相关1023 ContentContent 1. Linear regression 1. Linear regression 2. Linear correlation

2、 2. Linear correlation 3. Rank correlation 3. Rank correlation 4. Curve fitting 4. Curve fitting 1024 十九世纪英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现发现:历史背景:1025 儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系: 即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于

3、其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。33.73 0.516YX1026 目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。1027第一节 直线回归1028一、直线回归的概念 目的:目的:研究应变量研究应变量Y对自变量对自变量X的数量依的数量依 存关系。存关系。特点:特点:统计关系。统计关系。 X值和值和Y的均数的关系,的均数的关系, 不同于一般数学上的不同于一般数学上的X 和和Y的

4、函数的函数 关系。关系。1029 例9-1 某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。10210 表表9-1 8名正常儿童的年龄名正常儿童的年龄 (岁)与尿肌酐含量(岁)与尿肌酐含量 (mmol/24h) XY编 号 1 2 3 4 5 6 7 8 年龄 X 13 11 9 6 8 10 12 7 尿肌酐含量Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65 1021110212 在定量描述儿童年龄与其尿肌酐含量数量上的依存关系时,将年龄称为自变量(independent varia

5、ble),用 X 表示;尿肌酐含量称为应变量(dependent variable),用 Y 表示。10213 由图9-1可见,尿肌酐含量 Y 随年龄 X 增加而增大且呈直线趋势,但并非8个点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linear regression),其方程叫其方程叫直线回归方程直线回归方程,以区别严格意义的直线方程。以区别严格意义的直线方程。 双变量双变量直线直线回归回归是回归分析中最基本、最简单的是回归分析中最基本、最简单的一种,故又称一种,故又称简单回归简单回归。10214 (9 1)YabX直线回归方程的一般表达式为直线回归方程的一般表

6、达式为 Y 为各X处Y的总体均数的估计。102151a 为回归直线在为回归直线在 Y 轴上的截距。轴上的截距。a 0,表示直线与,表示直线与纵轴的交点在原点的纵轴的交点在原点的上方;上方;a 0,则交点在原,则交点在原点的下方;点的下方;a = 0,则回归直线,则回归直线通过原点。通过原点。0a = 0a 0XY10216b0,直线从左下方走向,直线从左下方走向右上方,右上方,Y 随随 X 增大而增大而增大;增大; b0b0b=010217公式(9-1)称为样本回归方程,它是对两变量总体间线性关系的一个估计。根据散点图我们可以假定, 对于X各个取值,相应Y的总体均数|Y X在一条直线上(图 9

7、-2) ,表示为 | (92) Y XX1021810219二、直线回归方程的求法 残差(residual)或剩余值,即实测值Y与假定回归线上的 估 计 值 的 纵 向 距离 。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。YYY原则:最小二乘法(least sum of squares),即可保证各实测点至直线的纵向距离的平方和最小(X,Y)10220式式 中中X Yl为为X 与与Y 的的 离离 均均 差差 乘乘 积积 和和 : ()()()() (9 5)XYlX X Y YXYXYn 2()()()XYXXXXYYlblXX (9-3) (9-4) aYbX10

8、221除了图中所示两变量呈直线关系外,一般还假定每个X对应Y的总体为正态分布,各个正态分布的总体方差相等且各次观测相互独立。这样,公式(9-1)中的Y实际上是X所对应Y的总体均数|Y X的一个样本估计值, 称为回归方程的预测值(predicted value),而a、b分别为和的样本估计。 10222 例9-1 某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。10223 表表9-1 8名正常儿童的年龄名正常儿童的年龄 (岁)与尿肌酐含量(岁)与尿肌酐含量 (mmol/24h) XY编 号 1 2 3 4 5 6 7 8

9、年龄 X 13 11 9 6 8 10 12 7 尿肌酐含量Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65 102241由原始数据及散点图(图 9-1)的观察,两变量间呈直线趋势,故作下列计算。 2计算X、Y的均数X、Y,离均差平方和XXl、YYl与离均差积和XYl。 解题步骤102253计算有关指标 769.58XXn 23.872.98388YYn 222()(76)764428XXXlXn 222()(23.87)72.26831.04628YYYlYn ()()(76)(23.87)232.615.84508XYXYlXYn 1022610227 此

10、直线必然通过点此直线必然通过点( , )( , )且与纵坐标轴且与纵坐标轴相交于截距相交于截距 a a 。如果散点图没有从坐标系原。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易于读点开始,可在自变量实测范围内远端取易于读数的数的 X X 值代入回归方程得到一个点的坐标,值代入回归方程得到一个点的坐标,连接此点与点连接此点与点( , )( , )也可绘出回归直线。也可绘出回归直线。 XYXY1022810229三、直线回归中的统计推断10230(一)回归方程的假设检验 建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确

11、实存在,即是否对总体有 ?01023110232如 图 9-3 中 , 无 论X如 何 取 值 ,|Y X总 在 一 条水 平 线 上 , 即0, 总 体 直 线 回 归 方 程 并 不 成 立 ,意 即Y与X无 直 线 关 系 , 此 时|Y XY。 然 而 在 一次 随 机 抽 样 中 ,如 果 所 得 样 本 为 实 心 园 点 所 示 ,则会 得 到 一 个 并 不 等 于0 的 样 本 回 归 系 数b。b与0相 差 到 多 大 可 以 认 为 具 有 统 计 学 意 义 ? 可 用 方 差分 析 或 与 其 等 价 的 t 检 验 来 回 答 这 一 问 题 。 10233 理 解

12、 回 归 中 方 差 分 析 的 基 本 思 想 ,需 要 对 应 变 量Y的 离 均 差 平 方 和YYl作 分解 ( 如 图 9-4 所 示 ) 。 1方差分析 10234(X,Y)10235数理统计可证明:222)()()(YYYYYY10236SSSSSS总回残 (9-6) 上式用符号表示为 式中 10237Y10238SS残即2)(YY, 为 残 差 平 方 和 。 它 反 应 除了X对Y的 线 性 影 响 之 外 的 一 切 因 素 对Y的 变异 的 作 用 , 也 就 是 在 总 平 方 和 中 无 法 用X解 释的 部 分 ,表 示 考 虑 回 归 之 后Y真 正 的 随 机

13、误 差 。在 散 点 图 中 ,各 实 测 点 离 回 归 直 线 越 近 ,SS残也就 越 小 , 说 明 直 线 回 归 的 估 计 误 差 越 小 , 回 归的 作 用 越 明 显 。 上述三个平方和,各有其相应的自由度 ,并有如下的关系: 总回残,1n总,1回,2n残 (9-7) 10239以上分解可见,不考虑回归时,随机误差是 Y 的总变异总SS;而考虑回归以后,由于回归的贡献使原来的随机误差减小为SS残。 如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量 F10240MS回为回归均方 MS残为残差均方。 F服从自由度为

14、回残、的F分布。 式中22XYXYXXXXSSblllb l回 (9-9) SSMSFSSMS回回回残残残, 1 2n回残, (9-8) 102412. t 检验10242 例9-2 检验例9-1数据得到的直线回归方程是否成立? 10243(1)方差分析0H: 0,即尿肌酐含量与年龄之间无直线关系 1H: 0,即尿肌酐含量与年龄之间有直线关系 0.05 225.845 /420.8134XYXXSSll回 1.04620.81340.2328SSSSSS总回残 10244变异来源 自由度 SS MS F P 总 变 异 7 1.0462 回 归 1 0.8134 0.8134 20.97 0.

15、01 残 差 6 0.2328 0.0388 表9-2 方差分析表 列出方差分析表如表9-2。11、26,查F界值表,得0.01P 。按0.05水准拒绝0H,接受1H,可以认为尿肌酐含量与年龄之间有直线关系。 10245(2)t 检验0H、1H 及同上 本例8n ,SS残0.2328,XXl42,b0.1392 按公式(9-10)、(9-11)和(9-12) 0.23280.197082Y XS,0.19700.030442bS 6,查t界值表,得0.0020.005P。按0.05水准,拒绝0H,接受1H,结论同上。 0.13924.5790.0304t 10246注意:本例20.974.57

16、9Ft,即直线回归中对回归系数的t检验与F检验等价,类似于两样本均数比较可以作t检验亦可作方差分析。 10247(二)总体回归系数 的可信区间 利用上述对回归系数的t检验,可以得到的1双侧可信区间为/2,bbts (9-13) 10248 例9-3 根据例9-1中所得b=0.1392,估计其总体回归系数的双侧95%可信区间。10249例 9-2 已算得=0.0304bS,按自由度6, 查t界值表,得到0.05/2,62.447t,按公式(9-13) 计算的 95%可信区间: (0.1392-2.4470.0304,0.1392+2.4470.0304)=(0.0648,0.2136)注意到此区

17、间不包括 0,可按0.05 水准同样得到总体回归系数不为 0 的结论, 即用区间估计回答相同时的假设检验问题。 10250(三)利用回归方程进行估计和预测 1总体均数|Y X的可信区间 给定X的数值0X,由样本回归方程算出的0Y只是相应总体均数0|Y X的一个点估计。0Y会因样本而异, 存在抽样误差。 10251给定0XX时,总体均数0|Y X的(1)可信区间为 00/2,YYtS(9-15) (9-14) 反映其抽样误差大小的标准误为0202()1()Y XYXXSSnXX102522个体Y值的预测区间 所谓预测就是把预报因子(自变量 X)代入回归方程对总体中预报量(应变量 Y)的个体值进行

18、估计。给定 X 的数值0X, 对应的个体 Y 值也存在一个波动范围。 其标准差0YS(注意勿与样本观察值 Y 的标准差相混)按公式(9-16)计算 (9-16) 00/2,YYtS(9-17) 0202()11()YY XXXSSnXX10253两条实曲线总体均数的可信区间;两条虚曲线个体Y值的预测区间,范围更宽。二者都是中间窄,两头宽;都在X= 处最窄。X10254 例9-4 用例9-1所得直线回归方程,计算当X0=12时, 的95%可信区间和相应个体值的95%预测区间。0Y X10255计算步骤例9-1、例9-2已计算出 1.66170.1392, 9.5, 42, 0.1970XXY X

19、YX XlS 当012X 时,1.66170.1392 123.3321Y 。 按公式(9-14)和(9-16) 021(129.5)0.19700.1031842YS021(129.5)0.1970 10.2223842YS10256已查得0.05/2,62.447t,代入公式(9-15) , 故012X 时尿肌酐含量总体均数的 95%可信区间为 (3.3321-2.4470.1031,3.3321+2.4470.1031) =(3.080,3.584) 代入公式(9-17) ,012X 时尿肌酐含量个体值的 95%预测区间为 (3.3321-2.4470.2223,3.3321+2.447

20、0.2223) =(2.788,3.876) 10257第二节 直线相关10258 直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。其性质可由图9-6散点图直观的说明。 目的:研究 两个变量X,Y数量上的依存(或相关) 关系。 特点:统计关系一、直线相关的概念10259二、相关系数的意义与计算 1. 意义:相关系数意义:相关系数(correlation coefficient)又)又称称Pearson积差相关系数,用来说明具有直线关系的积差相关系数,用来说

21、明具有直线关系的两变量间相关的密切程度与相关方向。两变量间相关的密切程度与相关方向。以符号r表示样本相关系数, 符号表示其总体相关系数。 相关系数没有单位,其值为相关系数没有单位,其值为-1 -1 r r 1 1。r r值为正值为正表示正相关,表示正相关,r r值为负表示负相关,值为负表示负相关,r r的绝对值等的绝对值等于于1 1为完全相关,为完全相关,r r=0=0为零相关。为零相关。 10260102612. 计算:样本相关系数的计算公式为22()()()()XYXX YYXX YYlrllXXYY(9-18) 10262由例9-1算得,42XXl,1.046YYl,5.845XYl 按

22、公式(9-18) 5.8450.881842 1.046r 例9-5 对例9-1数据(见表9-1),计算8名儿童的尿肌酐含量与其年龄的相关系数。10263三、相关系数的统计推断(一)相关系数的假设检验20, 212rrrtnSrn(9-19)10264 例9-6 对例9-5所得 r 值,检验尿肌酐含量与年龄是否有直线相关关系?10265检验步骤0H: 0,1H: 0,=0.05 本例n=8,r=0.8818,按公式(9-19)20.88184.57910.881882t 按6,查 t 界值表,得0.0020.005P。按0.05水准拒绝0H,接受1H,可以认为尿肌酐含量与年龄之间有正的直线相关

23、关系。 若直接查 r 界值表(附表 13, P538),结论相同。 10266(二)总体相关系数的可信区间 由于相关系数的抽样分布在不等于零时呈偏态分布(大样本情况下亦如此) , 所以的可信区间需要先将其进行某种变量变换, 使之服从正态分布, 然后再估计其可信区间。 10267具体步骤如下1首先对 r 作如下 z 变换 1tanhzr 或 1(1)ln2(1)rzr (9-20) 式中 tanh 为双曲正切函数,tanh-1为反双曲正切函数 2按下式根据正态近似原理计算 z 的1可信区间 /2/2(3,3zunzun),缩写为 /23zun (9-21) 3对上一步计算出的 z 的上下限作如下

24、变换,得到 r 的1 可信区间 tanh( )rz 或 1122zzeer (9-22) 10268按公式(9-20)1tanh0.88181.3838z 按公式(9-21)z 的 95%可信区间为 (1.3838-1.96/83,1.3838+1.96/83) =(0.5073,3.2749) 例9-7 对例9-5所得r值,估计总体相关系数的95%可信区间。 再按公式(9-22)将z作反变换,得到年龄与尿肌酐含量的总体相关系数95%可信区间为(0.4678,0.9971)。 10269四、决定系数(coefficient of determination) 定义为回归平方和与总平方和之比,计

25、算公式为:222XYXXXYYYXX YYSSlllRSSlll回总(9-23) 取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。 2R10270公式(9-23)说明当总SS固定不变时,回归平方和的大小决定了相关系数 r 绝对值的大小。回归平方和越接近总平方和, 则 r 绝对值越接近 1, 说明相关的实际效果越好。 例9-5中8名儿童的年龄与其尿肌酐含量之间直线相关系数 r=0.8818,得到2R=0.7775,表示此例中年龄可解释尿肌酐含量变异性的 77.75,另外约 22的变异不能用年龄来解释。 10271五、直线回归与相关应用的

26、注意事项10272 1根据分析目的选择变量及统计方法 直线相关用于说明两变量之间直线关系的方向和密切程度,X与Y没有主次之分; 直线回归则进一步地用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。 两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归或相关分析。10273102742进行相关、回归分析前应绘制散点图第一步(1) 散点图可考察两变量是否有直线趋势;(2) 可发现离群点(outlier)。 散点图对离群点的识别与处理需要从专业知识和现有数据两方面来考虑

27、,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。102753资料的要求 直线相关分析要求 X与Y 服从双变量正态分布; 直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量; * 对于双变量正态分布资料,根据研究目的可选择由 X 估计 Y 或者由 Y 估计 X ,一般情况下两个回归方程不相同)。10276 反应两变量关系密切程度或数量上

28、影响大小的统计量应该是回归系数或相关系数的绝对值,而不是假设检验的P值。 P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围。4结果解释及正确应用 10277第三节 秩相关(非参数统计方法) 10278适用条件: 双变量计量资料:双变量计量资料: 资料不服从双变量态分布; 总体分布型未知,一端或两端是不确定数值(如10岁,65岁)的资料;原始数据(一个或两个变量值)用等级表原始数据(一个或两个变量值)用等级表示的资料。示的资料。10279一、Spearman秩相关 1. 意义:等级相关系数 rs

29、 用来说明两个变量间直线相关关系的密切程度与相关方向。102803. 计算公式 ) 1(6122nndrs(9-25) 1nrus (9-26) 10281例 9-8 某省调查了 1995 年到 1999 年当地居民 18 类死因的构成以及每种死因导致的潜在工作损失年数 WYPLL 的构成, 结果见表 9-3。以死因构成为 X,WYPLL 构成为 Y,作等级相关分析。 10282表9-3 某省1995年到1999年居民死因构成与WYPLL构成10283检验步骤0H: 0s,即死因构成和 WYPLL 构成之间无直线相关关系 1H: 0s,即死因构成和 WYPLL 构成之间有直线相关关系 0.05

30、 36(92)10.9051818sr 本例18n =,查附表 14 的 rs界值表(P539) , 得 P0.01。按0.05水准拒绝0H,接受1H, 可认为当地居民死因的构成和各种死因导 致的潜在工作损失年数 WYPLL 的构成存 在正相关关系。 10284二、相同秩较多时 rs 的校正对X与Y分别排秩时, 若相同秩较多, 宜用公式(9-27)计算校正sr 3233() 6()() 62() 62XYsXYnnTTdrnnTnnT公式中Tx(或TY)(t3t)/12,t为X(或Y)中相同秩的个数。显然当TxTY0时,公式(9-27)与公式(9-25)相等。 (9-27) 10285、 22()()()()XYXX YYXX YYlrllXXYY(9-18)PiXQiY10286第六节 曲线拟合 (curve fitting)10287 医学现象中并非所有的两变量间关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论