




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第七讲第七讲 相关与回归相关与回归 【例例7.2】 计算计算10只绵羊的胸围(只绵羊的胸围(cm)和体重)和体重(kg) 的相关系数。的相关系数。 表表8-3 10只绵羊胸围和体重资料只绵羊胸围和体重资料R=0.847 Sig=0.0020.01例例7.2 作直线相关作直线相关 H H0 0:x与与y无直线相关关系无直线相关关系.0.847,0.0020.01rp拒绝原假设,即拒绝原假设,即x与与y有极显著直线相关关系有极显著直线相关关系.散点图显示,散点图显示,x、y可能存在直线关联可能存在直线关联.经过相关分析:经过相关分析: 例例7. 3 随机抽测随机抽测 29 名儿童的血中微名儿童的血
2、中微量元素钙、镁、量元素钙、镁、锰、铁、铜及血锰、铁、铜及血红蛋白含量,数红蛋白含量,数据如下表。试求据如下表。试求相关系数。相关系数。 1 54. 89 30. 86 448. 7 0. 012 1. 010 13. 50 2 72. 49 42. 61 467. 3 0. 008 1. 640 13. 00 3 53. 81 52. 86 425. 6 0. 004 1. 220 13. 75 4 64. 74 39. 18 469. 8 0. 005 1. 220 14. 00 5 58. 80 37. 67 456. 6 0. 012 1. 010 14. 25 6 43. 67 26
3、. 18 395. 8 0. 001 0. 594 12. 75 7 54. 89 30. 86 448. 7 0. 012 1. 010 12. 50 8 86. 12 43. 79 440. 1 0. 017 1. 770 12. 25 9 60. 35 38. 20 394. 4 0. 001 1. 140 12. 0010 54. 04 34. 23 405. 6 0. 008 1. 300 11. 7511 61. 23 37. 35 446. 0 0. 022 1. 380 11. 5012 60. 17 33. 67 383. 2 0. 001 0. 914 11. 2513 6
4、9. 69 40. 04 416. 7 0. 012 1. 350 11. 0014 72. 28 40. 12 430. 8 0. 000 1. 200 10. 7515 55. 13 33. 02 445. 8 0. 012 0. 918 10. 5016 70. 08 36. 81 409. 8 0. 012 1. 190 10. 2517 63. 05 35. 07 384. 1 0. 000 0. 853 10. 0018 48. 75 30. 53 342. 9 0. 018 0. 924 9. 7519 52. 28 27. 14 326. 3 0. 004 0. 817 9.
5、5020 52. 21 36. 18 388. 5 0. 024 1. 020 9. 2521 49. 71 25. 43 331. 1 0. 012 0. 897 9. 0022 61. 02 29. 27 258. 9 0. 016 1. 190 8. 7523 53. 68 28. 79 292. 8 0. 048 1. 320 8. 5024 50. 22 29. 17 292. 6 0. 006 1. 040 8. 2525 65. 34 29. 99 312. 8 0. 006 1. 030 8. 0026 56. 39 29. 29 283. 0 0. 016 1. 350 7.
6、 8027 66. 12 31. 93 344. 2 0. 000 0. 689 7. 5028 73. 89 32. 94 312. 5 0. 064 1. 150 7. 2529 47. 31 28. 55 294. 7 0. 005 0. 838 7. 00样品号样品号 钙钙x1 镁镁x2 铁铁x3 锰锰x4 铜铜x5 血红蛋白血红蛋白x6简单相关分析简单相关分析: 钙钙 镁镁 铁铁 锰锰 铜铜 血红蛋白血红蛋白 1 . 538 . 300 . 148 . 625 . 097 . 538 1 . 635 -. 121 . 582 . 569 . 300 . 635 1 -. 271 .
7、265 . 863 . 148 -. 121 -. 271 1 . 294 -. 323 . 635 . 582 . 265 . 294 1 . 248 . 097 . 569 . 863 -. 323 . 248 1r =钙钙镁镁铁铁锰锰铜铜血红血红蛋白蛋白 偏相关系数偏相关系数r= r钙镁钙镁= -C12C11C22 = -(- 0. 608) 2. 267 2. 683 = 0. 2465r3 = r钙铁钙铁= -C13C11C33 = -(- 1. 355) 2. 267 5. 337 = 0. 3895 全部偏相关系数(矩阵)为:全部偏相关系数(矩阵)为: r偏偏 = 钙钙 镁镁 铁
8、铁 锰锰 铜铜 血红蛋白血红蛋白 1 0. 246 0. 390 -0. 038 0. 472 -0. 4620. 246 1 0. 215 -0. 178 0. 374 0. 1110. 390 0. 215 1 0. 053 -0. 279 0. 814-0. 038 -0. 178 0. 053 1 0. 405 -0. 206 0. 472 0. 374 -0. 279 0. 405 1 0. 299-0. 462 0. 111 0. 814 -0. 206 0. 299 1 钙钙镁镁铁铁锰锰铜铜血红血红蛋白蛋白 1、计量资料的(、计量资料的(Spearman)等级相关分析)等级相关分
9、析 例例7. 4 某某 7 个地区居民中单纯性甲状腺肿患病率个地区居民中单纯性甲状腺肿患病率 x (%) 与当地食物、与当地食物、饮水中含碘量饮水中含碘量 y 数据如表。试做(数据如表。试做(Spearman)等级相关分析。)等级相关分析。三、三、 等级相关分析等级相关分析 假设假设H0:甲状腺肿患病率与食物、饮水中含:甲状腺肿患病率与食物、饮水中含碘量间无等级相关关系。碘量间无等级相关关系。 分别对分别对 x、y 编秩号,相同数值编平均秩编秩号,相同数值编平均秩号。求各对数据(号。求各对数据(xi , yi)(i=1,2,n,n为数据为数据对子数)的秩号差对子数)的秩号差d。 计算计算Spe
10、arman 等级相关系数等级相关系数 rs: rs=1 - 6d/n(n-1)1 71 1 16. 9 7 -62 81 2 4. 4 6 -43 126 3 2. 5 5 -24 154 4 0. 8 3 15 155 5 1. 1 4 16 178 6 0. 6 2 47 201 7 0. 2 1 6地区地区 含碘含碘 秩秩 患病率患病率 秩秩 秩号秩号 号号 量量y 号号 x(%) 号号 差差d可以证明可以证明 -1 rs1, 当当 r s0时称正等级相关。时称正等级相关。查专用统计表可得界值查专用统计表可得界值rs,n, 若若rs 0. 05,不能拒绝不能拒绝H0; 若若rs rs,n
11、(0. 05), P0. 05,拒绝,拒绝H0。 本例本例rs=1-6(-6)+(-4)+(-2)+1+1+4+6/7(7-1)= - 0. 964 查表得查表得rs,0. 05,7=0. 786,因,因rsrs,0. 05,7, P0. 05,结论:甲状腺肿患病率与食物、饮水中含碘量间存在负等级相关关系。结论:甲状腺肿患病率与食物、饮水中含碘量间存在负等级相关关系。 例例7.4 计量资料的(计量资料的(Spearman)等级相关分析)等级相关分析 (或(或 Kendall) 甲状腺肿患病率与食物、饮水中含碘量间存在甲状腺肿患病率与食物、饮水中含碘量间存在负等级相关关系。负等级相关关系。0.9
12、64,0.0000.01(0.905,0.0040.01)skrprp 或或计量资料的(计量资料的(Spearman)等级相关分析)等级相关分析 (或(或 Kendall)可以证明可以证明 1 rk1, 当当 rk 0 时称正等级相关。时称正等级相关。 查专用统计表可得界值查专用统计表可得界值 rk,n 。 若若rk 0. 05,不能拒绝,不能拒绝 H0; 若若rk rk,n , 0. 05, P0. 05,拒绝拒绝 H0。 本例本例 rk=234/10(10-1)/21= 0. 511 查表得查表得 rk,0. 05,10= 0. 467,因因rk rk,0. 05,10, P 0. 05,
13、结论:,结论:该地肝癌死亡率与某食物中黄曲霉素相对含量间有正等级相关关系。该地肝癌死亡率与某食物中黄曲霉素相对含量间有正等级相关关系。 2、计量资料的(、计量资料的(Kendall)等级相关分析)等级相关分析 例例7. 5 某地某地10个乡的肝癌死亡率个乡的肝癌死亡率y(1/10万)与某食物中黄曲霉素相对含万)与某食物中黄曲霉素相对含量量x的数据如下表。试做(的数据如下表。试做(Kendall)等级相关分析。)等级相关分析。 假设假设H0:肝癌死亡率与某食物黄曲霉素相对含:肝癌死亡率与某食物黄曲霉素相对含量间无等级相关关系。量间无等级相关关系。 先按先按 x (或或 y) 从小到大对样品从小到
14、大对样品 (xi , yi)( I =1,2, , n ,n为数据对子数为数据对子数)排序。排序。 再对再对y (或或 x) 编秩号,相同数值编平均秩号。编秩号,相同数值编平均秩号。 从头计算大于现秩号的秩号个数从头计算大于现秩号的秩号个数Si,并求,并求 合计合计S =Si 。 计算计算Kendall等级相关系数等级相关系数 rk: rk=2S / n (n1)/2 1 1 0. 7 21. 5 3 7 2 1. 0 18. 9 2 7 3 1. 7 14. 4 1 7 4 3. 7 46. 5 7 3 5 4. 0 27. 3 4 5 6 5. 1 64. 6 9 1 7 5. 5 46.
15、 3 6 2 8 5. 7 34. 2 5 2 9 5. 9 77.6 10 010 10. 0 55. 1 8 0乡乡 黄曲霉黄曲霉 肝癌死肝癌死 秩号秩号 大于现秩号大于现秩号号号 素含量素含量x 亡率亡率y 秩号个数秩号个数Si合计合计 S=34 3、含等级指标资料的等级相关分析、含等级指标资料的等级相关分析 例例7. 6 12名急性白血病患儿的血小板计数名急性白血病患儿的血小板计数x与出血状况等级与出血状况等级 y 数数据如下表。试做等级相关分析。据如下表。试做等级相关分析。 这里以这里以Spearman法为例进行分析,法为例进行分析,Kendall法与之相仿。需先将等级指标法与之相仿
16、。需先将等级指标数量化。数量化。 假设假设H0:血小板计数与出血状况:血小板计数与出血状况无等级相关关系。无等级相关关系。 分别对分别对 x , y 编秩号,相同数值或编秩号,相同数值或等级编平均秩号(方法同前)。等级编平均秩号(方法同前)。 求各对数据求各对数据(xi , yi) (i=1,2,n,n为为数据对子数数据对子数)的秩号差的秩号差d。 计算计算Spearman等级相关系数等级相关系数rs。本例本例 rs =1-6378/12(12-1)= - 0. 322 12160 1 明显明显 11. 5 -10. 5 13790 2 较明显较明显 9 -7 16500 3 个别血点个别血点
17、 7 -4 31050 4 无无 3. 5 0. 5 42600 5 较明显较明显 9 -4 54270 6 较明显较明显 9 -3 74240 7 无无 3. 5 3. 5 106430 8 无无 3. 5 4. 5126170 9 无无 3. 5 5. 5129000 10 无无 3. 5 6. 5143800 11 明显明显 11. 5 -0. 5200000 12 无无 3. 5 8. 5血小板血小板 秩秩 出血状况出血状况 秩号秩号 秩号秩号 计数计数x 号号 等级等级y 差差d 查表得查表得 rs,0. 05,12 = 0.591,因,因rs 0.05,结论:尚不能认为血小板计数与
18、出血状况间存在等级相关关系。结论:尚不能认为血小板计数与出血状况间存在等级相关关系。 注意:注意:SPSS统计软件中的统计软件中的Spearman、Kendall等级相关分析法,等级相关分析法,对有平均秩号的情况做了校正,此时对有平均秩号的情况做了校正,此时rs、rk值的计算结果略有出入。值的计算结果略有出入。 例例7.6 含等级指标资料的含等级指标资料的 (Spearman)等级相关分析)等级相关分析 (或(或 Kendall) 尚不能认为血小板计数与出血状况间存在等级尚不能认为血小板计数与出血状况间存在等级相关关系。相关关系。)05. 0117. 0,377. 0(05. 0172. 0,
19、422. 0 prprks或或含等级指标资料的(含等级指标资料的(Spearman)等级相关分析)等级相关分析 (或(或 Kendall) 首先把等级指标数量化,然后再分析。首先把等级指标数量化,然后再分析。 回回 归归 【例例7.7】在四川白鹅的生产性能研究中,得在四川白鹅的生产性能研究中,得到如下一组关于雏鹅重(到如下一组关于雏鹅重(g)与)与70日龄重日龄重(g)的的数据,试建立数据,试建立70日龄重日龄重(y)与雏鹅重与雏鹅重(x)的直线回的直线回归方程。归方程。 表表 四川白鹅雏鹅重与四川白鹅雏鹅重与70日龄重测定结果日龄重测定结果 (单位:(单位:g)表表 四川白鹅四川白鹅70日龄
20、重与雏鹅重回归关系日龄重与雏鹅重回归关系 方差分析方差分析 例例7.7 作直线相关、回归分析作直线相关、回归分析. . H H0 0:x与与y无直线相关关系,无直线相关关系, 即即y对对x无直线回归关系无直线回归关系.01000009770.,. pr即:即:x与与y有直线相关关系,即有直线相关关系,即y对对x有直线回归关系有直线回归关系. 建立建立y对对x的直线回归方程:的直线回归方程:散点图显示,散点图显示,x、y可能存在直线关联可能存在直线关联.xbxay71221185582. 955.02R经过相关分析:经过相关分析:0100000808213.,. pF经过回归分析:经过回归分析:
21、例例7.8 火箭电泳实验中,火箭高度火箭电泳实验中,火箭高度y(mm)与免疫球)与免疫球蛋白蛋白A的浓度的浓度x(IgA,g)数据如表。试做曲线回归)数据如表。试做曲线回归分析。分析。IgA(g) 火箭高度(火箭高度(mm) X=lnx x y=Y 0. 2 7. 6 -1. 6094 0. 4 12. 3 -0. 9163 0. 6 15. 7 -0. 5108 0. 8 18. 2 -0. 2231 1. 0 18. 7 0 1. 2 21. 4 0. 1823 1. 4 22. 6 0. 3365 1. 6 23. 8 0. 4700 做散点图,见左下图。做散点图,见左下图。 初步判断初
22、步判断 x, y 呈现对数曲线关联,作线性化变换呈现对数曲线关联,作线性化变换 Y= y, X = lnx ,新样本数据如上表所示。再作新数据散点图见右上图,已呈现直线关新样本数据如上表所示。再作新数据散点图见右上图,已呈现直线关联,联, 作直线回归分析得:作直线回归分析得: = 19. 7451 + 7. 7771 X 经检验该直线回归方程有意义。做反变换得曲线回归方程:经检验该直线回归方程有意义。做反变换得曲线回归方程: = 19. 7451 + 7. 7771 lnxxy0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.601020. .lnxy-2.0-1.50102
23、0-1.0-0.50.00.5. Y ySPSS曲线回归:曲线回归:Analyzeregressioncurve estimation二次曲线二次曲线Quadratic复合曲线复合曲线Compound增长曲线增长曲线Growth对数曲线对数曲线Logarithmic三次曲线三次曲线CubicS曲线曲线S指数曲线指数曲线Exponential逆函数逆函数Inverse幂函数幂函数Power逻辑函数逻辑函数Logistic 2210tbtbby332210tbtbtbby tbby10tbbey10)ln(10tbbytbbey/10tbeby10tbby/10 10btby tbbuy10/1/
24、1模型汇总和参数估计值模型汇总和参数估计值因变量:y-mm方程模型汇总参数估计值R 方Fdf1df2Sig.常数b1b2b3线性.93992.44516.0007.76110.863对数.992763.49916.00019.7457.777倒数.88545.94816.00123.511-3.516二次.987185.16525.0004.09121.872-6.116三次.994229.28734.0001.52935.202-23.5886.471复合.84232.08816.0018.7302.041幂.982332.17416.00019.325.537S.968180.01816.
25、0003.242-.255增长.84232.08816.0012.167.714指数.84232.08816.0018.730.714自变量为 x-IgA(ug)。1.4857772520749991E-76.255249316474726E-5Model Summary and Parameter EstimatesModel Summary and Parameter EstimatesDependent Variable: y-mm.992763.49916.00019.7457.777EquationLogarithmicR SquareFdf1df2Sig.Model Summary
26、Constantb1Parameter EstimatesThe independent variable is x-IgA(ug).例例7.8 作曲线回归分析作曲线回归分析即:即:y对对x有极显著的对数曲线回归关系有极显著的对数曲线回归关系. 建立建立y对对x的回归方程:的回归方程:散点图显示,散点图显示,x、y可能存在对数曲线关系可能存在对数曲线关系.xxbbyln.ln77777451910 01.0000.0,499.763,992.02pFR经过曲线回归分析,决定系数、回归分析的经过曲线回归分析,决定系数、回归分析的F值及值及P值分别为:值分别为:例例7.9 随机抽测随机抽测10名女
27、中学生的体重名女中学生的体重(x1)、胸围、胸围(x)、胸围呼吸差、胸围呼吸差(x3)、肺活量肺活量(y),数据如表。试做,数据如表。试做 y 对诸对诸 xi 的多元线性回归分析。的多元线性回归分析。 由由SPSS统计软件可建立三元线性回归方程统计软件可建立三元线性回归方程 = -3035.536+60.932x1+37.808x2+101.379x3 H0:1=2=3=0,总体上,总体上y 对对x1、x2、x3无无线性回归关系。线性回归关系。 F=5. 617, P=0. 035,结论:肺活量对体重、,结论:肺活量对体重、胸围、胸围呼吸差存在线性回归关系。胸围、胸围呼吸差存在线性回归关系。
28、H0:0=0 总体截距为总体截距为0,t=-1. 400, P=0. 211学生学生 x1 x2 x3 y 号号 1 35 69 0. 7 1600 2 40 74 2. 5 2600 3 40 64 2. 0 2100 4 42 74 3. 0 2650 5 37 72 1. 1 2400 6 45 68 1. 5 2200 7 43 78 4. 3 2750 8 37 66 2. 0 1600 9 44 70 3. 2 275010 42 65 3. 0 2500y H0:1=0,t =1.679,P=0.14 H0:2=0,t =1.645, P=0.151 H0:3=0,t =0.83
29、1, P=0.438 若将显著水平若将显著水平选为选为0. 25,则体重(,则体重(x1)、胸围()、胸围(x2)对)对y有影响;有影响;但不能说明胸围呼吸差(但不能说明胸围呼吸差(x3)对)对y有影响。有影响。SPSS操作步骤:操作步骤:做多元线性回归分析:做多元线性回归分析:AnalyzeRegressionLinear把因变量选入把因变量选入 Dependent框框把多个自变量选入把多个自变量选入 independent框框在在Method框中选择框中选择 enter 回归回归Statistics:回归系数回归系数残差残差引入或剔除某个自变量引入或剔除某个自变量后决定系数的变化后决定系数
30、的变化Save:将框内所选项存为新变量或新文件将框内所选项存为新变量或新文件预测值预测值预测值的可信区间预测值的可信区间 如果酌情从方程中剔除如果酌情从方程中剔除x3,重新建立二元线性回归方程,则由,重新建立二元线性回归方程,则由SPSS软件分析有软件分析有 = -4187. 416 + 80. 271 x1 + 46. 449 x2 H0:1=2=0 F=8. 453, P=0. 014结论:肺活量对体重、胸围存在线性回归关系。结论:肺活量对体重、胸围存在线性回归关系。 H0:0 = 0 总体截距为总体截距为0,t = -2. 568, P=0. 037 H0:1=0,t =2. 947,
31、P=0. 021 H0:2=0,t =2. 318, P=0. 054在在=0. 25水平上,截距及两个偏回归系数均有意义。水平上,截距及两个偏回归系数均有意义。 对二元线性回归方程,求两个标准偏回归系数对二元线性回归方程,求两个标准偏回归系数 b1= 0. 612, b2= 0. 481因因 b1 b2,可以认为体重对肺活量的影响大于胸围。,可以认为体重对肺活量的影响大于胸围。 注意:注意:1. 从检验结果看,二元线性回归方程从检验从检验结果看,二元线性回归方程从检验F值、值、P值及离回归均值及离回归均方大小看方大小看,优于三元线性回归方程,这说明引进多元线性回归方程的自变量,优于三元线性回
32、归方程,这说明引进多元线性回归方程的自变量并非越多越好,适当剔除对因变量并非越多越好,适当剔除对因变量y影响较小的自变量,可能会改善多元线性影响较小的自变量,可能会改善多元线性回归方程。回归方程。2. 各项检验中,显著水平各项检验中,显著水平的选取,需结合具体专业问题确定,而的选取,需结合具体专业问题确定,而不再以不再以=0. 05做为拒绝做为拒绝 H0 的最宽标准。的最宽标准。 y SPSS操作步骤:操作步骤:做多元线性回归分析:做多元线性回归分析:AnalyzeRegressionLinear把因变量选入把因变量选入 Dependent框框把多个自变量选入把多个自变量选入 independ
33、ent框框在在Method框中选择框中选择 Stepwise 回归回归Model SummaryModel Summary.729a.531.473315.19030.787b.619.510303.77469.859c.737.606272.37870.841d.707.624266.29534Model1234RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), 呼吸差x3a. Predictors: (Constant), 呼吸差x3, 体重x1b. Predictors: (Constant)
34、, 呼吸差x3, 体重x1, 胸围x2c. Predictors: (Constant), 体重x1, 胸围x2d. 逐步回归方程的决定系数逐步回归方程的决定系数A AN NO OV VA Ae e900490.61900490.5799.064.017a794759.4899344.9281695250910492972524648.2835.685.034b645953.4792279.0621695250912501093416703.0235.617.035c445140.9674190.1551695250911988582599428.7788.453.014d496392.477
35、0913.20616952509RegressionResidualTotalRegressionResidualTotalRegressionResidualTotalRegressionResidualTotalModel1234Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), 呼吸差x3a. Predictors: (Constant), 呼吸差x3, 体重x1b. Predictors: (Constant), 呼吸差x3, 体重x1, 胸围x2c. Predictors: (Constant), 体重x1, 胸围x2d. D
36、ependent Variable: 肺活量ye. 逐步回归方程的方差分析表逐步回归方程的方差分析表CoefficientsCoefficientsa a1637.196246.2096.650.000290.90396.623.7293.011.017-183.4841453.259-.126.903192.163121.318.4811.584.15750.63639.875.3861.270.245-3035.5362168.674-1.400.211101.379121.975.254.831.43860.93236.297.4641.679.14437.80822.981.3921.645.151-4187.4161630.820-2.568.03780.27127.236.6122.947.02146.4492
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论