




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一部分:基本统计方法注:主要讲述过程:means(描述性统计);freq(算频数表);univariate(检验);anova(方差分析);ttest(检验);glm(广义线性回归);npar1way(非参,wilcox)一:计量资料的统计分析方法1.01均值+频数表+百分位数+正态检验、茎叶图、箱形图、正态概率图data ex2_1;input x;low=2.3;dis=0.3;z=x-mod(x-low,dis);cards;3.96 4.23 4.42 3.59 5.12 4.02 4.32 3.72 4.76 4.16 4.61 4.26 3.77 4.20 4.36 3.07 4
2、.89 3.97 4.28 3.64 4.66 4.04 4.55 4.25 4.63 3.91 4.41 3.52 5.03 4.01 4.30 4.19 4.75 4.14 4.57 4.26 4.56 3.79 3.89 4.21 4.95 3.98 4.29 3.67 4.69 4.12 4.56 4.26 4.66 4.28 3.83 4.20 5.24 4.02 4.33 3.76 4.81 4.17 3.96 3.27 4.61 4.26 3.96 4.23 3.76 4.01 4.29 3.67 3.39 4.12 4.27 3.61 4.98 4.24 3.83 4.20 3
3、.71 4.03 4.34 4.69 3.62 4.18 4.26 4.36 5.28 4.21 4.42 4.36 3.66 4.02 4.31 4.83 3.59 3.97 3.96 4.49 5.11 4.20 4.36 4.54 3.72 3.97 4.28 4.76 3.21 4.04 4.56 4.25 4.92 4.23 4.47 3.60 5.23 4.02 4.32 4.68 4.76 3.69 4.61 4.26 3.89 4.21 4.36 3.42 5.01 4.01 4.29 3.68 4.71 4.13 4.57 4.26 4.03 5.46 4.16 3.64 4
4、.16 3.76 ;/*freq语句,算频数表*/proc freq;tables z;run;proc means data=ex2_1n mean std stderr clm;var x;run;data ex2_1;input x f;cards;3.07 23.27 33.47 93.67 143.87 224.07 304.27 214.47 154.67 104.87 65.07 45.27 2;run;proc means;freq f;var x;run;/*把freq f改成weight f就是把f当权重或频数来算,f则在0,1之间*/*计算x的95%的置信区间*/proc
5、 univariate data=ex2_1;var x;output out=pctpctlpre=ppctlpts=2.5 97.5;run;proc print data=pct;run;/*正态检验、茎叶图、箱形图、正态概率图*/proc univariate data=ex2_1normalplot;var x;run;/*Extreme Observation显示的值是最小的5个极值和最大的5个极值*/1.02几何均值data ex2_5;input x f;y=log10(x);cards;10 420 340 1080 10160 11320 15640 141280 2;pr
6、oc means noprint;/*调用means过程,不显示结果*/var y;freq f;output out=b/*结果输出到数据集b中*/mean=logmean;/*把数据集b中均数的变量名mean改为logmean*/run;data c;/*新建数据集c*/set b;/*调用数据集b*/g=10*logmean;/*计算变量logmean的反对数,该值就是x的几何均数,将该值赋值给变量g*/proc print data=c;var g;run;/*这个是计算平通平均数的值*/proc means data=ex2_5;var x;freq f;run;1.03已知均值和方
7、差求置信区间-单样本+单样本与总体/*单样本*/data ex3_2; n=10; mean=166.95; std=3.64; t=tinv(0.975,n-1); pts=t*std/sqrt(n); lclm=mean-pts; uclm=mean+pts;proc print; var lclm uclm;run;/*单样本与总体均值*/data ex3_5;n=36;/*样本量*/s_m=130.83;/*样本均值*/std=25.74;/*样本标准差*/p_m=140;/*总体均值*/df=n-1;/*自由度*/t=(s_m-p_m)/(std/sqrt(n);p=(1-probt
8、(abs(t),df)*2;/*根据t值计算p值*/run;proc print;var t p;run;1.06双样本均值相等检验+两组分开+两组一起算+两组样本量不同/*双样本分开算*/data ex3_4;n1=29;n2=32;m1=20.10;m2=16.89;s1=7.02;s2=8.46;ss1=s1*2*(n1-1);ss2=s2*2*(n2-1);sc2=(ss1+ss2)/(n1+n2-2);se=sqrt(sc2*(1/n1+1/n2);t=tinv(0.975,n1+n2-2);lclm=(m1-m2)-t*se;uclm=(m1-m2)+t*se;proc print
9、;var t se lclm uclm;run;/*双样本相减后再算*/*用MEANS作配对资料两个样本均数比较的t检验*/data ex3_6; input x1 x2 ; d=x1-x2;cards;0.840 0.5800.591 0.5090.674 0.5000.632 0.3160.687 0.3370.978 0.5170.750 0.4540.730 0.5121.200 0.9970.870 0.506;proc means t prt; var d;run;/*用UNIVARIATE过程作配对资料两样本均数比较的t检验*/proc univariate data=ex3_6
10、; var d;run;/*双样本两组样本量不同*/data ex3_7;input x;if _n_<21 then c=1;/*当观测数小于21时,变量c的值为1,表示试验组*/else c=2;/*其余变量c的值为2,表示对照组*/cards;-0.70 -5.60 2.00 2.80 0.70 3.50 4.00 5.80 7.10 -0.50 2.50 -1.60 1.70 3.00 0.40 4.50 4.60 2.50 6.00 -1.40 3.70 6.50 5.00 5.20 0.80 0.20 0.60 3.40 6.60 -1.10 6.00 3.80 2.00 1
11、.60 2.00 2.20 1.20 3.10 1.70 -2.00 ; proc ttest;/*调用ttest过程*/ var x;/*定义分析变量为x*/ class c;/*定义分组变量为c*/ run;1.08-1.13anova方差分析过程+一维分组+二维分组+三维分组/*只有一组分组因素*/data ex4_2; input x c ;cards;3.53 1 2.42 2 2.86 3 0.89 44.59 1 3.36 2 2.28 3 1.06 44.34 1 4.32 2 2.39 3 1.08 42.66 1 2.34 2 2.28 3 1.27 43.59 1 2.6
12、8 2 2.48 3 1.63 43.13 1 2.95 2 2.28 3 1.89 43.30 1 2.36 2 3.48 3 1.31 44.04 1 2.56 2 2.42 3 2.51 43.53 1 2.52 2 2.41 3 1.88 43.56 1 2.27 2 2.66 3 1.41 43.85 1 2.98 2 3.29 3 3.19 44.07 1 3.72 2 2.70 3 1.92 41.37 1 2.65 2 2.66 3 0.94 43.93 1 2.22 2 3.68 3 2.11 42.33 1 2.90 2 2.65 3 2.81 42.98 1 1.98 2
13、 2.66 3 1.98 44.00 1 2.63 2 2.32 3 1.74 43.55 1 2.86 2 2.61 3 2.16 42.64 1 2.93 2 3.64 3 3.37 42.56 1 2.17 2 2.58 3 2.97 43.50 1 2.72 2 3.65 3 1.69 43.25 1 1.56 2 3.21 3 1.19 42.96 1 3.11 2 2.23 3 2.17 44.30 1 1.81 2 2.32 3 2.28 43.52 1 1.77 2 2.68 3 1.72 43.93 1 2.80 2 3.04 3 2.47 44.19 1 3.57 2 2.
14、81 3 1.02 42.96 1 2.97 2 3.02 3 2.52 44.16 1 4.02 2 1.97 3 2.10 42.59 1 2.31 2 1.68 3 3.71 4;proc anova;/*调用anova过程*/ class c;/*定义分组变量为c*/ model x=c;/*定义模型,分析g对x的影响*/ means c/dunnett;/*用LSD法对多组均数过行两两比较*/ means c/hovtest;/*作方差齐性检验,默认levene法,p值大于0.05,则认为是g组方差相等*/run;quit;/*有两组分组因素*/data ex4_4;input x
15、a b;cards;0.82 1 10.65 2 10.51 3 10.73 1 20.54 2 20.23 3 20.43 1 30.34 2 30.28 3 30.41 1 40.21 2 40.31 3 40.68 1 50.43 2 50.24 3 5;proc anova;class a b;/*定义分组变量a和b*/model x=a b;/*定义模型,分析a和b对x影响*/means a/snk;/*用SNK法对变量a的多组均数进行两两比较*/run;quit;1.15嵌套设计资料的方差分析glm过程一级因素+二组因素(glm过程要先class再model)/*嵌套设计资料的方差
16、分析*/data ex11_6; input x a b ;cards;82 1 184 1 191 1 288 1 285 1 383 1 365 2 461 2 462 2 559 2 556 2 660 2 671 3 767 3 775 3 878 3 885 3 989 3 9;proc glm;/*调用glm过程*/ class a b;/*定义分组变量为a和b*/ model x=a a(b);/*定义模型,以a为一组因素,b为二级因素*/run;quit;1.17重复测量资料的方差分析data ex12_2;input t1 t2 g;/*确定变量名称,t1和t2分别为两个时间
17、点的分析变量,g为处理因素变量,b为区组变量*/cards;130 114 1124 110 1136 126 1128 116 1122 102 1118 100 1116 98 1138 122 1126 108 1124 106 1118 124 2132 122 2134 132 2114 96 2118 124 2128 118 2118 116 2132 122 2120 124 2134 128 2;proc glm;/*调用glm过程*/class g;/*定义分组变量g*/model t1 t2=g;/*定义模型,分析g对变量t1和t2的影响*/repeated time 2
18、/*命名重复因子为time,有2个水平*/contrast(1)/*表示以第一时间点为对照点*/summary;/*考察不同时间点与对照时间点比较的结果*/run;quit;data ex12_3;input t0-t4 g;cards;120 108 112 120 117 1118 109 115 126 123 1119 112 119 124 118 1121 112 119 126 120 1127 121 127 133 126 1121 120 118 131 137 2122 121 119 129 133 2128 129 126 135 142 2117 115 111 1
19、23 131 2118 114 116 123 133 2131 119 118 135 129 3129 128 121 148 132 3123 123 120 143 136 3123 121 116 145 126 3125 124 118 142 130 3;proc glm;class g; model t0-t4=g;repeated time 5/*命名重复因子为time,有2个水平*/contrast(1);run;quit;二:计数资料的统计分析方法2.1四格表资料的卡方检验data ex7_1;input r c f;/*确定变量名称,r为行变量,c为列变量,f为频数变量
20、*/cards;1 1 991 2 52 1 752 2 21;proc freq;/*调用freq过程*/weight f;/*定义f为频数变量*/tables r*c/*作r*c的列联表*/chisq/*对列联表作卡方检验*/expected;/*输出每个格的理论频数*/run;2.5阳性事件发生的概率(二项分布)data ex6_1;do x=6 to 8;/*建立循环,变量x从6到8*/p1=probbnml(0.7,10,x);/*计算二项分布随机变量不大于x的概率*/p2=probbnml(0.7,10,x-1);/*计算二项分布随机变量不大于x-1的概率*/p=p1-p2;*/计
21、算出现x的概率*/output;/*结果输出*/end;proc print;var x p;run;2.6正态分布法计算总体率的可信区间data ex6_3;n=100;x=55;p=x/n;sp=sqrt(p*(1-p)/n);u=probit(0.975);usp=u*sp;lclm=p-usp;uclm=p+usp;proc print;var n p sp lclm uclm;run;2.7样本率与总体率的比较(直接法单侧检验)data ex6_4;d=probbnml(0.55,10,8);p=1-d;proc print;var p;run;2.8样本率与总体率的比较(直接法双侧
22、检验)data ex6_5;p01=probbnml(0.6,10,9);p02=probbnml(0.6,10,8);p0=p01-p02;/*计算出现9的概率*/do i=0 to 10;/*建立循环,变量i从0到10*/p11=probbnml(0.6,10,i);p12=probbnml(0.6,10,i-1);p1=p11-p12;/*计算出现i的概率*/if i=0 then p1=p11; /*定义出现0的概率*/if p1<=p0 then output; /*如果出现i的概率小于出现9的概率,则保留在数据集中*/end;proc means sum;var p1;run
23、;2.9两个样本率比较的z检验data ex6_7;n1=120;n2=110;x1=36;x2=22;p1=x1/n1;p2=x2/n2;pc=(x1+x2)/(n1+n2);/*计算合并发生率*/sp=sqrt(pc*(1-pc)*(1/n1+1/n2);/*计算两个率相差的标准误差*/u=(p1-p2)/sp;/*计算u值*/p=(1-probnorm(abs(u)*2;/*计算p值*/format u p 5.4;/*输出格式为小数点后保留4位*/proc print;var pc sp u p;run;2.10Poisson分布的样本均数与总体均数比较(直接法)data ex6_12
24、;n=120;/*确定样本例数*/pai=0.008; /*确定总体率*/lam=n*pai; /*计算总体均数lamda*/x=4; /*确定实际发生数*/p=1-poisson(lam,x-1);/*计算实际发生数所对应的概率*/proc print;var lam p;run;2.11 Poisson分布的样本均数与总体均数比较(正态近似法)data ex6_12;n=25000;/*样本量*/x=123; /*样本均数*/pi=0.003; /*确定总体率*/lam=n*pi; /*计算总体均数*/u=(x-lam)/sqrt(lam*(1-pi); /*计算u值*/p=1-probn
25、orm(abs(u); /*计算u值所对应的p值*/proc print;var lam u p;run;2.14负二项分布的参数估计data ex6_16;input x f;cards;0 301 142 83 44 25 06 2;proc univariate;var x;freq f;output out=mv2mean=muvar=v;run;data k;set mv2;k=mu*2/(v-mu);proc print;var mu k;run;三、非参数统计方法3.2单个样本中位数和总体中位数比较data ex8_2;input x1;median=45.30;/*假设中位数为
26、45.30*/d=x1-median; /*计算x1和假设中位数的差值*/cards;44.21 45.30 46.39 49.47 51.05 53.1653.26 54.37 57.16 67.37 71.05 87.37;proc univariate; /*调用univariate过程度*/var d;run;proc means median; /*调用means过程计算x1实际的中位数*/var x1;run;3.3两个独立样本比较的Wilcoxon秩和检验(R对应函数wilcox.test()data ex8_3;input x c ;/*确定变量名称,x、c分别为分析变量和分组
27、变量(类别多于两类一样的写法)*/cards;2.78 13.23 14.20 14.87 15.12 16.21 17.18 18.05 18.56 19.60 13.23 23.50 24.04 24.15 24.28 24.34 24.47 24.64 24.75 24.82 24.95 25.10 2;proc npar1way wilcoxon;/*调用npar1way过程,进行wilcoxon分析*/var x;/*定义分析变量为x*/class c;/*定义分组变量为c*/run;3.4等级资料的两样本比较data ex8_4;input c g f;/*确定变量名称,f为频数,
28、c为分类,g为要分析的变量(分类多种类似)*/cards;1 1 11 2 8 1 3 16 1 4 10 1 5 42 1 2 2 2 23 2 3 112 4 42 5 0;proc npar1way wilcoxon;/*调用npar1way过程,进行wilcoxon分析*/freq f;/*确定频数变量为f*/var g;/*定义分析变量g*/class c;/*定义分组变量c*/run;第二部分:多元统计分析方法注:主要讲述过程:reg(回归),corr(相关分析),nlin(对数曲线回归),logistic(逻辑回归),phreg(条件logistic回归分析+cox回归),lif
29、etest(生存分析),discrim(判别分析),stepdisc(逐步回归),cluster(聚类),varclus(指标聚类),princomp(主成分分析),factor(因子分析),cancorr(典型相关分析)一:回归和相关分析1.1两个变量的直线回归分析data ex9_1;input x y;/*确定变量名称*/cards;13 3.5411 3.01 9 3.09 6 2.48 8 2.5610 3.3612 3.18 7 2.65 ; proc reg;/*调用reg过程*/ model y=x;/*定义模型,以y为应变量,以x为自变量*/*在model语句后面加上选项,得
30、到一些有用的统计量,常用的有:stb(输出标准化偏回归系数)、p(输出每个观测的实际值、预测值和残差)、cli(输出每个观测预测值均数的双侧95%置信区间)、clm(输出每个观测预测值的双侧95%置信范围)*/*例如:model y=x /stb p cli */plot y*x;/*画出散点图*/ run;1.2两个变量的直线相关分析data ex9_5;input x y;cards;43217.2274316.1851231.1158220.9650254.7065293.8454263.2857271.7367263.4669276.5380341.1548261.0038213.20
31、85315.1254252.08;proc corr;/*若要求作spearman相关分析,则可以写成proc corr spearman */var x y;run;/*得到一个相关系数矩阵*/1.4加权直线加回data ex9_9;input x y;w=1/(x*x); /*设置权重变量w*/cards;0.11 4.000.12 5.100.21 9.500.30 9.000.34 17.200.44 14.000.56 18.900.60 29.400.69 22.100.80 41.50;proc reg;weight w;/*定义权重变量w*/model y=x;/*定义模型,以
32、y为因变量,以x为自变量*/run;1.5两个直线回归系数的比较data ex9_12;input x y c;cards;13 3.54 111 3.01 1 9 3.09 1 6 2.48 1 8 2.56 110 3.36 112 3.18 1 7 2.65 110 3.01 2 9 2.83 211 2.92 212 3.09 215 3.98 216 3.89 2 8 2.21 2 7 2.39 210 2.74 215 3.36 2;proc glm;class c;model y=x c x*c;/*定义模型,分析x、c以及x和c的交互作用对y的影响,即判断两总体直线回归系数是否
33、相同*/run;proc glm;class c;model y=x c;/*上一步已排除协变量的影响,然后再分析两分析变量是否来自同一总体*/run;1.6两个变量的对数曲线回归data ex9_13;input x y;cards; 0.005 34.11 0.050 57.99 0.500 94.49 5.000 128.5025.000 169.98;proc nlin;/*调用nlin过程*/parms a=0 b=0; /*定义初始值*/model y=a+b*log10(x); /*定义对数模型,以y为因变以量,x为自变量*/run;1.7两个变量的指数曲线回归分析data ex
34、9_14;input x y;cards; 2 54 5 50 7 4510 3714 3519 2526 2031 1634 1838 1345 852 1153 860 465 6;proc nlin;parms a=4 b=0.03;/*定义初始值*/model y=exp(a+b*x);/*定义指数模型,以y为因变量,x为自变量*/run;1.8多元回归data ex15_1;input x1-x4 y;/*确定变量名称,x1,x2,x3,x4分别为自变量,y为应变量*/cards; 5.68 1.90 4.53 8.20 11.20 3.79 1.64 7.32 6.90 8.80
35、6.02 3.56 6.95 10.80 12.30 4.85 1.07 5.88 8.30 11.60 4.60 2.32 4.05 7.50 13.40 6.05 0.64 1.42 13.60 18.30 4.90 8.50 12.60 8.50 11.10 7.08 3.00 6.75 11.50 12.10 3.85 2.11 16.28 7.90 9.60 4.65 0.63 6.59 7.10 8.40 4.59 1.97 3.61 8.70 9.30 4.29 1.97 6.61 7.80 10.60 7.97 1.93 7.57 9.90 8.40 6.19 1.18 1.4
36、2 6.90 9.60 6.13 2.06 10.35 10.50 10.90 5.71 1.78 8.53 8.00 10.10 6.40 2.40 4.53 10.30 14.80 6.06 3.67 12.79 7.10 9.10 5.09 1.03 2.53 8.90 10.80 6.13 1.71 5.28 9.90 10.20 5.78 3.36 2.96 8.00 13.60 5.43 1.13 4.31 11.30 14.90 6.50 6.21 3.47 12.30 16.00 7.98 7.92 3.37 9.80 13.2011.54 10.89 1.20 10.50 2
37、0.00 5.84 0.92 8.61 6.40 13.30 3.84 1.20 6.45 9.60 10.40 ; proc reg;model y=x1-x4;/*也可以写成model y=x1 x2 x3 x4;*/run;1.9逐步回归data ex12_2;input x1-x4 y;cards;5.68 1.90 4.53 8.20 11.20 3.79 1.64 7.32 6.90 8.80 6.02 3.56 6.95 10.80 12.30 4.85 1.07 5.88 8.30 11.60 4.60 2.32 4.05 7.50 13.40 6.05 0.64 1.42 1
38、3.60 18.30 4.90 8.50 12.60 8.50 11.10 7.08 3.00 6.75 11.50 12.10 3.85 2.11 16.28 7.90 9.60 4.65 0.63 6.59 7.10 8.40 4.59 1.97 3.61 8.70 9.30 4.29 1.97 6.61 7.80 10.60 7.97 1.93 7.57 9.90 8.40 6.19 1.18 1.42 6.90 9.60 6.13 2.06 10.35 10.50 10.90 5.71 1.78 8.53 8.00 10.10 6.40 2.40 4.53 10.30 14.80 6.06 3.67 12.79 7.10 9.10 5.09 1.03 2.53 8.90 10.80 6.13 1.71 5.28 9.90 10.20 5.78 3.36 2.96 8.00 13.60 5.43 1.13 4.31 11.30 14.90 6.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023三年级数学上册 二 快乐大课间-两位数乘一位数 信息窗3 呼啦圈表演 求比一个数的几倍多(或少)几的数是多少教学设计 青岛版六三制
- Unit7 Natural World(教学设计)-2023-2024学年剑桥国际少儿英语Kid's Box5五年级下册
- 七年级地理上册 第三章 天气和气候 第3节 降水的变化与分布 第2课时 降水的分布教学设计 (新版)新人教版
- 老年病人围手术期护理
- 海底世界小学语文
- 1 场景歌教学设计-2024-2025学年二年级上册语文统编版
- 7《不甘屈辱 奋勇抗争》第二课时 教学设计-2023-2024学年道德与法治五年级下册统编版
- 七年级生物下册 4.11.2尿的形成和排出教学设计(新版)北师大版
- 初中教学工作计划(10篇)
- 2024秋五年级英语上册 Unit 5 There is a big bed课时6 Read and write-Let's wrap it up教学设计 人教PEP
- 毕业论文-基于单片机的智能浇花系统的设计与实现
- 钢筋混凝土水池施工方案(完整版)
- XK3168电子称重仪表技术手册
- 电梯系统质量检查记录表
- 最新山东地图含市县地图矢量分层可编辑地图PPT模板
- 电子教案与课件:精细化工工艺学(第四版)-第5章-食品添加剂
- 机械设计齿轮机构基础
- 统编版高一语文现代文阅读理解专题练习【含答案】
- T∕CGMA 033001-2018 压缩空气站能效分级指南
- 世联年重庆樵坪山项目发展战略与整体规划
- 人教版七年级数学下册期中知识点整理复习ppt课件
评论
0/150
提交评论