版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十七章 多因素回归分析的sas实现例17-4 某研究者为了研究某种避孕药对人体血糖的影响,分别在正在使用这种避孕药的人群、6个月前曾经使用过这种避孕药的人群、从未使用过避孕药的人群中各随机抽取6人。考虑到血糖可能与年龄有关,所以该研究者不仅测定了这18位对象的血糖,而且也记录了这18位对象的年龄,具体资料见表174。请根据研究问题作统计分析。表17-4 三种避孕药使用情况下的年龄(,岁)与血糖水平(,mg)现服药者曾服药者从未服药者201202412628135211222613032137231242713234138231262913135137241252913435139241273
2、013637144sas分析程序data ch17_4; 定义数据集名input x g1 g2 y; 定义数据集的变量名cards;200112021011222301124230112624011252401127241012626101302710132291013129101343010136280013532001373400138350013735001393700144;proc reg; 利用reg作线性回归分析model y=x g1 g2 /r; 指定模型并输出个体预测值、残差及其标准误run;sas软件输出结果the reg procedure model: model1
3、 dependent variable: y analysis of variance sum of mean source df squares square f value pr > f model 3 717.68456 239.22819 83.88 <.0001 error 14 39.92655 2.85190 corrected total 17 757.61111 root mse 1.68876 r-square 0.9473 dependent mean 131.27778 adj r-sq 0.9360 coeff var 1.28640 parameter
4、estimates parameter standard variable df estimate error t value pr > |t| intercept 1 102.56215 6.05307 16.94 <.0001 x 1 1.06780 0.17951 5.95 <.0001 g1 1 -0.42655 1.45283 -0.29 0.7734 g2 1 -2.58757 2.20223 -1.17 0.2596output statistics dep var predicted std error std error student cook's
5、 obs y value mean predict residual residual residual -2-1 0 1 2 d 1 120.0000 121.3305 0.8226 -1.3305 1.475 -0.902 | *| | 0.063 2 122.0000 122.3983 0.7401 -0.3983 1.518 -0.262 | | | 0.004 3 124.0000 124.5339 0.6952 -0.5339 1.539 -0.347 | | | 0.006 4 126.0000 124.5339 0.6952 1.4661 1.539 0.953 | |* |
6、0.046 5 125.0000 125.6017 0.7401 -0.6017 1.518 -0.396 | | | 0.009 6 127.0000 125.6017 0.7401 1.3983 1.518 0.921 | |* | 0.050 7 126.0000 127.7627 0.9328 -1.7627 1.408 -1.252 | *| | 0.172 8 130.0000 129.8983 0.7401 0.1017 1.518 0.0670 | | | 0.000 9 132.0000 130.9661 0.6952 1.0339 1.539 0.672 | |* | 0.
7、023 10 131.0000 133.1017 0.7401 -2.1017 1.518 -1.385 | *| | 0.114 11 134.0000 133.1017 0.7401 0.8983 1.518 0.592 | |* | 0.021 12 136.0000 134.1695 0.8226 1.8305 1.475 1.241 | |* | 0.120 13 135.0000 132.4605 1.2042 2.5395 1.184 2.145 | |* | 1.190 14 137.0000 136.7316 0.7401 0.2684 1.518 0.177 | | | 0
8、.002 15 138.0000 138.8672 0.6952 -0.8672 1.539 -0.564 | *| | 0.016 16 137.0000 139.9350 0.7401 -2.9350 1.518 -1.934 | *| | 0.222 17 139.0000 139.9350 0.7401 -0.9350 1.518 -0.616 | *| | 0.023 18 144.0000 142.0706 0.9328 1.9294 1.408 1.371 | |* | 0.206 sum of residuals 0 sum of squared residuals 39.92
9、655 predicted residual ss (press) 82.27025the reg procedure线性回归方差分析表sourcedfsum of squaresmean squaref valuepr > f变异来源自由度平方和均方和f值p值model(回归)3717.68456239.22819 83.88<.0001error(残差)1439.926552.85190线性回归参数估计表variabledfparameters estimatestandard errort valuepr >|t|变量自由度参数估计标准误f值p值intercept (截
10、距)1102.562156.0530716.94<.0001x(年龄)11.06780 0.179515.95<.0001g11-0.426551.45283-0.290.7734g21-2.587572.20223-1.170.2596sas软件输出结果解释该输出结果包含三个部分:第一部分是关于线性回归方差分析结果,第二部分是关于回归直线的参数估计结果,最后一部分是给出一些回归直线预测结果。具体来说,由第一部分的结果,由于p值<0.0001,按水准,拒绝h0 认为模型有统计学意义;由第二部分结果,关于截距(intercept)和年龄(x)假设的p值<0.001,而关于
11、g1和g2的假设p值>0.25,按水准,只有截距(intercept)和年龄(x)不为0,同时建立回归方程;由第三部分结果,我们可以得到每一个观察值y的期望值(predicted value)及其标准误(std error mean predict),以及残差(residual)等结果。教材中的说明表17-10 校正年龄后的回归分析主要结果回归系数b标准误setp值95%可信区间g1 -0.4271.453-0.290.773-3.543 2.689g2 -2.5882.202-1.170.260-7.311 2.136年龄x 1.0680.180 5.950.000 0.683 1.4
12、53常数项102.5626.05316.940.00089.580115.545由表17-10所显示的回归分析结果表明,g1和g2的回归系数统计检验的p值均大于0.05,基于a=0.05检验水准,没有足够的证据可以推断三组总体均数不同,并且注意到年龄的回归系数检验的p值<0.001,说明年龄与血糖相关,因此在回归方程中没有引入年龄变量时,三组平均血糖的差异有统计学意义,有可能是三组的年龄差异所致(即:年龄可能是一个混杂因素)。要特别强调的是,表17-10所显示的结果是基于在相同年龄下,g1和 g2的回归系数统计检验的p值均大于0.05,不能推断三组总体均数不同,因此,此结果具有一定的可比
13、性。回归模型中引入年龄变量后对其他因素进行回归分析,通常称为校正年龄因素后的统计结果和推断。例17-5 为了研究影响肥胖者瘦素(leptin)的主要危险因素,某研究者调查了某医院肥胖门诊的500名肥胖就诊者的瘦素、年龄、体重指数、总胆固醇、甘油三酯、是否患糖尿病、是否患高血压、饮食、运动、服药情况等,并用逐步线性回归模型分析影响瘦素的主要因素。为了简化问题,仅取自变量为年龄(x1,岁)、体重指数(x2,kg/m2)、总胆固醇(x3,mmol/l)、是否患糖尿病(x4,患糖尿病为1,不患糖尿病为0)和是否患高血压(x5,患高血压为1,不患高血压为0),应变量为瘦素(y,ng/ml)。为了说明的方
14、便,这里仅从500名肥胖就诊者中随机取30例,具体数据如表17-11所示,试用逐步线性回归分析寻找主要的影响因素。表17-11 例17-5的数据x1x2x3x4x5yx1x2x3x4x5yx1x2x3x4x5y6331.0 14.1 0010.4 3929.0 6.8 018.5 6029.5 13.0 019.1 4327.7 8.5 106.5 6631.1 15.3 0010.4 5828.8 14.2 109.4 5127.6 11.8 119.3 4329.5 7.3 008.2 3428.1 5.5 115.3 5730.7 12.9 1011.1 6329.7 15.5 008.
15、4 3228.9 4.5 005.1 4927.9 8.8 007.1 4928.9 10.1 006.5 6027.9 12.4 119.7 3829.5 6.2 016.7 4428.7 8.6 008.9 5530.7 12.8 1110.3 5728.5 11.6 018.6 3928.3 6.8 005.6 5230.7 9.9 1110.3 3426.8 5.3 003.0 5430.5 11.3 019.4 5126.9 10.9 009.1 4429.3 9.0 006.9 5329.1 11.2 007.1 3025.8 4.9 113.8 6229.5 14.7 1011.
16、4 5428.3 12.8 008.1 6030.3 12.9 1111.8 sas分析程序data ch17_5; 定义数据集名input x1 x2 x3 x4 x5 y; 定义数据集的变量名cards;6331.0 14.1 0010.4 4327.7 8.5 106.5 5127.6 11.8 119.3 5730.7 12.9 1011.1 4927.9 8.8 007.1 3829.5 6.2 016.7 5728.5 11.6 018.6 3426.8 5.3 003.0 4429.3 9.0 006.9 6229.5 14.7 1011.4 3929.0 6.8 018.5 6
17、631.1 15.3 0010.4 4329.5 7.3 008.2 6329.7 15.5 008.4 4928.9 10.1 006.5 4428.7 8.6 008.9 3928.3 6.8 005.6 5430.5 11.3 019.4 5329.1 11.2 007.1 5428.3 12.8 008.1 6029.5 13.0 019.1 5828.8 14.2 109.4 3428.1 5.5 115.3 3228.9 4.5 005.1 6027.9 12.4 119.7 5530.7 12.8 1110.3 5230.7 9.9 1110.3 5126.9 10.9 009.
18、1 3025.8 4.9 113.8 6030.3 12.9 1111.8;proc reg; 利用reg作线性回归分析model y= x1 x2 x3 x4 x5 指定模型/selection=stepwise 采用逐步回归方法sls=0.10 stb; 指定变量保留在模型的显著水平 run;sas软件输出结果the reg procedure model: model1 dependent variable: ypart i stepwise selection: step 1 variable x1 entered: r-square = 0.6950 and c(p) = 12.81
19、31 analysis of variance sum of mean source df squares square f value pr > f model 1 98.80909 98.80909 63.79 <.0001 error 28 43.37091 1.54896 corrected total 29 142.18000 parameter standard variable estimate error type ii ss f value pr > f intercept -0.74184 1.14239 0.65317 0.42 0.5214 x1 0.
20、17955 0.02248 98.80909 63.79 <.0001 bounds on condition number: 1, 1- stepwise selection: step 2 variable x2 entered: r-square = 0.7511 and c(p) = 7.6755 analysis of variance sum of mean source df squares square f value pr > f model 2 106.78494 53.39247 40.73 <.0001 error 27 35.39506 1.3109
21、3 corrected total 29 142.18000 parameter standard variable estimate error type ii ss f value pr > f intercept -13.02042 5.08766 8.58602 6.55 0.0164 x1 0.14411 0.02518 42.91972 32.74 <.0001 x2 0.48472 0.19651 7.97586 6.08 0.0203bounds on condition number: 1.4829, 5.9315-stepwise selection: step
22、 3 variable x4 entered: r-square = 0.8032 and c(p) = 3.0437 analysis of variance sum of mean source df squares square f value pr > f model 3 114.19548 38.06516 35.37 <.0001 error 26 27.98452 1.07633 corrected total 29 142.18000 parameter standard variable estimate error type ii ss f value pr &
23、gt; f intercept -14.67888 4.65313 10.71125 9.95 0.0040 x1 0.13489 0.02309 36.73343 34.13 <.0001 x2 0.54458 0.17952 9.90500 9.20 0.0054 x4 1.04474 0.39816 7.41054 6.89 0.0144 bounds on condition number: 1.518, 12.154- all variables left in the model are significant at the 0.1000 level. no other va
24、riable met the 0.1500 significance level for entry into the model.part iisummary of stepwise selection variable variable number partial modelstep entered removed vars in r-square r-square c(p) f value pr > f 1 x1 1 0.6950 0.6950 12.8131 63.79 <.0001 2 x2 2 0.0561 0.7511 7.6755 6.08 0.0203 3 x4
25、 3 0.0521 0.8032 3.0437 6.89 0.0144part iiianalysis of variance sum of mean source df squares square f value pr > f model 3 114.19548 38.06516 35.37 <.0001 error 26 27.98452 1.07633 corrected total 29 142.18000 root mse 1.03746 r-square 0.8032 dependent mean 8.20000 adj r-sq 0.7805 coeff var 1
26、2.65198 parameter estimates parameter standard standardized variable df estimate error t value pr > |t| estimate intercept 1 -14.67888 4.65313 -3.15 0.0040 0 x1 1 0.13489 0.02309 5.84 <.0001 0.62626 x2 1 0.54458 0.17952 3.03 0.0054 0.32404 x4 1 1.04474 0.39816 2.62 0.0144 0.23126 sas软件输出结果解释该输
27、出结果包含三个部分:第一部分(part i)输出了逐步回归的过程,每一步筛选都对回归作了方差分析,同时对每一个入选变量也作假设检验,以决定该变量是否留在方程中。本例共进行了5步,最终留在方程中的变量为x1,x2和x4;第二部分(part ii)是逐步回归结果的总结,首先说明了入选和剔除模型的标准分别为0.15 和0.10。variable entered和variable removed分别表示入选和剔除变量的名称,partial r-square和 model r-square分别表示偏相关系数和复相关系数,cp值越小说明模型越理想。最后一部分(part iii)对回归模型进行检验,结果为f
28、=35.37,p值<.0001,说明模型有统计学意义。同时根据回归系数估计可以写出回归方程如下:。教材中的说明采用后退逐步回归法,先把所有自变量引入回归模型,然后把无统计学意义的自变量逐次剔除出模型,具体情况如下。(17-7)表17-12 逐步回归计算用表常数说明步骤 1回归系数-14.6580.1750.513 -0.116 0.945 0.348 全部变量进入模型,x3的p值最大,无统计学意义,故剔除p0.0970.0110.7120.0560.454步骤 2回归系数-14.339 0.138 0.524 0.883 0.407 x5的p值最大,并且无统计学意义,故剔除。p 0.00
29、0 0.008 0.052 0.342步骤 3回归系数-14.679 0.135 0.545 1.045 所有自变量均有统计学意义,再尝试x3能否进入模型p0.0000.005 0.014 步骤4回归系数-15.140 0.199 0.521 -0.198 1.111x3 的p值>0.05,故可以认为步骤 3的模型是最好的模型p0.048 0.009 0.499 0.013 最后的回归方程为由表1712的结果,可以认为年龄x1,体重指数x2和患糖尿病x4是影响瘦素的主要因素,年龄x1增大1岁,估计瘦素平均升高0.135 ng/ml;体重指数增大1个单位,估计瘦素平均升高0.545 ng/
30、ml;患糖尿病患者的瘦素比非糖尿病患者平均升高1.045 ng/ml,这些自变量均有统计学意义。例17-6 为了研究荨麻疹史(1为有,0为无)及性别(1为男,0为女)是否对慢性气管炎(1为病例,0为对照)有影响,某病例对照研究的研究结果见表17-13所示,试用logistic回归进行统计分析。表17-13 慢性气管炎的影响因素荨麻疹史性别慢性气管炎频数000 99001 90010153011138100 11101 20110 15111 30sas分析程序data ch17_6; 定义数据集名input x1 x2 y count; 定义数据集的变量名cards;000 99001 900
31、10153011138100 11101 20110 15111 30;proc logistic descending; 利用logistic过程进行分析,descending表示反应变量的水平按从大到小排序freq count; 指定频数变量model y=x1 x2; 指定模型run;sas软件输出结果model information data set work.ch17_6 response variable y number of response levels 2 number of observations 8 frequency variable count sum of f
32、requencies 556 model binary logit optimization technique fisher's scoring response profile ordered total value y frequency 1 1 278 2 0 278 probability modeled is y=1. model convergence status convergence criterion (gconv=1e-8) satisfied. model fit statistics intercept intercept and criterion onl
33、y covariates aic 772.780 767.868 sc 777.100 780.830 -2 log l 770.780 761.868 testing global null hypothesis: beta=0 test chi-square df pr > chisq likelihood ratio 8.9116 2 0.0116 score 8.7798 2 0.0124 wald 8.5082 2 0.0142analysis of maximum likelihood estimates standard wald parameter df estimate
34、 error chi-square pr > chisq intercept 1 -0.1032 0.1400 0.5438 0.4608 x1 1 0.7540 0.2585 8.5082 0.0035 x2 1 0.00519 0.1749 0.0009 0.9763 odds ratio estimates point 95% wald effect estimate confidence limits x1 2.126 1.281 3.528 x2 1.005 0.714 1.416 association of predicted probabilities and observed responses percent concordant 16.7 somers' d 0.087 percent discordant 8.1 gamma 0.350 percent tied 75.2 tau-a 0.043 pairs 77284 c 0.543sas软件输出结果解释 testing global null hypoth
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 洗车设备运输合同三篇
- 2025年四川省南充市高考地理一诊试卷
- 2021年云南省昭通市公开招聘警务辅助人员辅警笔试自考题2卷含答案
- 2021年安徽省淮南市公开招聘警务辅助人员辅警笔试自考题1卷含答案
- 2022年广东省潮州市公开招聘警务辅助人员辅警笔试自考题2卷含答案
- 2022年广西壮族自治区防城港市公开招聘警务辅助人员辅警笔试自考题2卷含答案
- 2024年吉林省松原市公开招聘警务辅助人员辅警笔试自考题1卷含答案
- 陕西省安康市(2024年-2025年小学六年级语文)统编版随堂测试(下学期)试卷及答案
- 2024年给皂液机项目投资申请报告代可行性研究报告
- 2025年中小型电动机项目规划申请报告
- 2024奥数竞赛5年级培训题-答案版
- 主题班会记录表20篇
- 2024年北京通建信息系统有限公司招聘笔试参考题库含答案解析
- 秦代建筑配色特征研究报告
- 安徽省建设工程工程量清单计价依据说明
- 冷库安全操作规程培训
- 省级非急救医疗转运管理规范
- 课程设计DLP4-13型锅炉中硫烟煤烟气袋式除尘湿式脱硫系统设计
- 煤泥综合利用的可行性研究报告
- 三年级《剪窗花》课件
- 四川省自贡市2022-2023学年八年级上学期期末语文试题
评论
0/150
提交评论