医用SAS统计分析(三)_第1页
医用SAS统计分析(三)_第2页
医用SAS统计分析(三)_第3页
医用SAS统计分析(三)_第4页
医用SAS统计分析(三)_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医用SAS统计分析第三讲一、分类变量的统计推断一、分类变量的统计推断卡方检验卡方检验 在SAS系统中,对分类变量资料的基本统计分析方法主要通过FREQ过程实现的。FREQ过程的主要功能有: 1.产生一维或多维频数表; 2.计算各种表中格子的理论频数、构成比和各种率; 3.对分类变量资料作相应的假设检验。q FREQ过程的语句及说明 主要格式: PROC FREQ 选择项; TABLES 表达式/ 选择项; WEIGHT ; 说明: vPROC过程选择项 data=数据集; 规定PROC FREQ语句使用的数据集。 formchar(1,2,7)=|-+; 规定用来构造列联表单元的轮廓线和分隔线

2、的字符(只有三个字符)。1为垂线,2为水平线,7为水平与垂直的交叉线。vTABLES语句 PROC FREQ过程中可有多条TABLES语句,TABLES语句后可接多个表格表达式,每个表达式可包含任何数量的变量,从而得到所需的表格。 如果TABLES语句缺省,则FREQ过程对数据集中的所有变量都给出相应的一维频数表。不规定任何选项时,若需某变量的一维频数,FREQ给出该变量每一水平的频数(freqency)、累积频数(cumulative freqency)、频数的百分比(percent)和累积百分比(cumulative percent);若需二维频数表,FREQ产生交叉分组列表,即包括各格的

3、频数、总频数的格百分数、行频数的格百分数和列频数的格百分数。 TABLES语句的表达式 表达式是要求FREQ过程分析处理的一维或多维表的清单。一维表有一个变量名表示,二维表由星号“*”联接两个变量名表示,如a*b表示变量a与b的二维表。三维表的形式为a*b*c。TABLES语句的选择项1.普通选项out数据集 建立一个包含变量值和频数计数的输出数据集。如果TABLES语句中不止一个表达式,数据集的内容相应于TABLES语句中最后一个表达式的表格。2.统计分析主要选项chisq 对每层作2检验,包括Pearson 2 、似然比2 和Mantel-Haenszel 2 。此外还给出与2 检验有关的

4、关联指标包括Phi系数、列联系数和Cramers V。对于22表,给出Fisher精确概率。 agree 进行配对2 检验(McNemars检验); 一致性检验的Kappa值。exactexact 对大于22的列联表计算Fisher精确概率。同时也给出CHISQ选项的全部统计量。 cmhcmh 给出Cochran-Mantel-Haenszel统计量,主要用于行列表的统计分析。对于分层22表,cmh过程给出总体相对危险度估计及其可信区间,还给出各层关联度指标是否齐性的Breslow检验。measures 对每层的二维表计算一系列关联指标及相应的标准误,包括Pearson和Spearman相关系

5、数,以及Gamma和Kendall系数等。对于22表,还给出常用的危险度指标及其可信区间。all 给出chisq,measures,cmh所请求的全部统计量。Alpha= 给出检验水准。缺省为0.05.expected 给出期望频数。3.禁止输出选项nofreq 不给出列联表中的格频数 nopct 不给出列联表中的格百分数 norow 不给出列联表中各格的行百分数 nocol 不给出列联表中各格的列百分数 nocum 不给出频数表的累积频数和累积百分数 noprint 不给出表格,但给出CHISQ、CMH等语句所指定的统计量。vWEIGHT语句 指明该变量为频数。只能使用一个WEIGHT语句,

6、且该语句作用于所有的表。 q 四格表资料的卡方检验书中例10-1data chisq1; do r=1 to 2; do c=1 to 2; input f ; output; end; end;cards;63 17 31 68;proc freqFormchar(1,2,7)=|-+;weight f;tables r*c/chisq;run; 卡方检验结果 TABLE OF R BY C R C Frequency|二维表每个格子的频数 Percent |每个格子的频数在总频数中的百分比。 Row Pct |行百分数,每格子频数占该行合计频数的百分比。 Col Pct | * 1| 2|

7、 Total -+-+-+ 1 | 63 | 17 | 80 | 35.20 | 9.50 | 44.69 | 78.75 | 21.25 | *列百分数,每格子频数占 | 67.02 | 20.00 | 该列合计频数的百分比。 -+-+-+ 2 | 31 | 68 | 99 | 17.32 | 37.99 | 55.31 | 31.31 | 68.69 | | 32.98 | 80.00 | -+-+-+ Total 94 85 179 52.51 47.49 100.00 STATISTICS FOR TABLE OF R BY CStatistic DF Value Prob-Chi-S

8、quare 1 39.927 0.001Likelihood Ratio Chi-Square 1 41.860 0.001Continuity Adj. Chi-Square 1 38.047 0.001Mantel-Haenszel Chi-Square 1 39.704 0.001Fishers Exact Test (Left) 1.000 (Right) 1.44E-10 (2-Tail) 1.64E-10Phi Coefficient 0.472Contingency Coefficient 0.427Cramers V 0.472Sample Size = 1792值; 似然比2

9、值; 连续性校正2值; M-H 2值; Fishers 精确概率值; Phi 系数; 列联系数; 可莱姆的V值q 四格表2 值的校正 例 王洁贞主编医学统计学例6.4 表6-3 2种药物治疗白色葡萄球菌败血症结果处 理 有 效 无 效 合 计 甲 药 乙 药 合 计 33(31.02) 6( 7.98) 2(3.98) 3(1.02) 35 9 39 5 44本例有两个格的1T40,故对2值进行校正。程序data chi; do r=1 to 2; do c=1 to 2; input f ; output; end; end;cards; 33 2 6 3 ;proc freq formch

10、ar(1,2,7)=|-+; weight f; tables r*c/chisq expected nocol norow nopct;run; R C Frequency | Expected | 1| 2| Total -+-+-+ 1 | 33 | 2 | 35 | 31.023 | 3.9773 | -+-+-+ 2 | 6 | 3 | 9 | 7.9773 | 1.0227 | -+-+-+ Total 39 5 44 STATISTICS FOR TABLE OF R BY CStatistic DF Value Prob-Chi-Square 1 5.422 0.020Like

11、lihood Ratio Chi-Square 1 4.367 0.037Continuity Adj. Chi-Square 1 3.026 0.082Mantel-Haenszel Chi-Square 1 5.299 0.021Fishers Exact Test (Left) 0.996 (Right) 0.050 (2-Tail) 0.050Phi Coefficient 0.351Contingency Coefficient 0.331Cramers V 0.351Sample Size = 44WARNING: 50% of the cells have expected co

12、unts less than 5. Chi-Square may not be a valid test.q 配对四格表资料的卡方检验 配对四格表资料属于2 2列联表。根据分析的目的可分为关联性检验和差别性检验。 如医学统计学王洁贞主编例6.8 某研究者用甲、乙2种试剂检验132种血清,结果见表6-7,问2种试剂的检验结果有无关系以及有无差别?v关联性检验(独立性检验) 应用一般的2检验H0:甲、乙两试剂的检验结果无关系。 tables语句选择 chisq; 如2检验有统计学意义,通过列联系数(Contingency Coefficient)说明两者的关联性。v差别性检验(一致性检验) 应用M

13、cNemars Test H0:两总体的B=C,即两试剂阳性率无差别。TTA22)(当b+c0.05说明总体方向是一致的,P0.05说明总体方向是不一致的。如方向一致可以用总的OR值表示,否则不能用总的OR值表示。v 多层的行列表 程序10-6data chisq2;do hospital=1 to 2; do trt=1 to 2; do effect=1 to 3; input f ; output; end; end;end;cards;23 7 2 20 13 518 6 2 13 13 2;proc freq formchar(1,2,7)=|-+;weight f;tables h

14、ospital*trt*effect/cmh nopct nocol;run;二、二、 二项分布与二项分布与Poisson分布分布q 二项分布v二项分布的统计说明二项分布的应用条件 1.两分类对立结果资料; 2。试验结果是相互独立,互不影响的。 二项分布的概率函数X=0,1,2,n 。 二项分布的分布函数至多有x例阳性的概率为,即下侧累积概率:至少有x例阳性的概率为,即上侧累积概率:XnxxnnCXP)1 ()(xXnXPxXP0)()(nxXnXPxXP)()(vSAS中二项分布函数SAS中二项分布函数表达式为:probbnml(, n, x);式中 为事件发生的概率,n为样本含量,x为阳性

15、事件个数。表达式计算的结果为发生阳性事件数x的概率。例12-1data jin;p=probbnml(0.5,4,2);q=1-p;proc print;run;结果OBS P Q 1 0.6875 0.3125表明死亡2 的概率(0+1+2的概率)为0.6875;死亡2的概率(3+4的概率)为0.3124。v用二项分布检验治疗效果 例12-3 根据以往的经验用一般疗法治疗某病,其病死率为40%,治愈率为60%。今用某种新药治疗该病人5名,这5名均治愈了。问该项新药是否比一般疗法为优。 当实际率大于理论率时,计算上则累积概率。本例应计算: p=probbnml(0.6,5,5)-probbnm

16、l(0.6,5,4)程序12-3data binom2;p=probbnml(0.6,5,5)-probbnml(0.6,5,4);proc print;run; OBS P 1 0.07776假如 10名病人,结果1名死亡,9名治愈,则应计算P(x9)的概率。程序12-4data binom3;p=probbnml(0.6,10,10)-probbnml(0.6,10,8);Proc print;Run; OBS P 1 0.046357v求二项分布的概率分布 例12-5 设 =0.5,n=4,求x=0,1,2,3,4的概率data binom4;do r=0 to 4;p=probbnml

17、(0.5,4,r);q=1-p;if r=0 then d=p; elsed=probbnml(0.5,4,r)-probbnml(0.5,4,r-1);output;end;proc print;run;OBS R P Q D 1 0 0.0625 0.9375 0.0625 2 1 0.3125 0.6875 0.2500 3 2 0.6875 0.3125 0.3750 4 3 0.9375 0.0625 0.2500 5 4 1.0000 0.0000 0.0625q Poisson分布v Poisson分布的统计说明Poisson分布的应用条件 同二项分布,Poisson分布是二项分

18、布的特例, 当很小,n很大时,Poisson分布非常接近二项分布。 Poisson分布概率函数(X=0,1,2,) =n Poisson分布的分布函数 下侧累积概率: 上侧累积概率:eXXPX!)(XXPXP) 1()(xXXeXxXP0!)(nxXXeXxXP!)(vSAS中Poisson分布函数SAS中Poisson分布函数表达式为:poisson( x);式中为均数( =n),x为事件发生个数。表达式计算的结果为发生事件数x的概率。 例12-6 有人观察红细胞计数池中400个小格,数出每小格中红细胞数,其均数为3.6175,试计算每格中恰有细胞数5个的概率及小格数。data poisso

19、n1;p=poisson(3.6175,5)-poisson(3.6175,4)d=p*400;proc print;run;OBS P D 1 0.13861 55.4448v样本计数与总体均数差别的统计意义检验 例12-8 已知在一培养液中,有细菌数为每毫升3个,今采集放在5冰箱的1ml培养液的细菌数5个,能否说明培养液中细菌数有增加? 本例=3,x=5 3,计算x5的上则累积概率。 可计算 p=1-p(n4)的概率。Data poisson3;P=1-poisson(3,4);Proc print;Run; OBS P 1 0.18474因 P0.05,尚不能认为培养液中细菌数有增长。

20、例 某地区以往胃癌发病率为万分之一。现调查10万人,发现3例胃癌病人。试分析该地区现在的胃癌发病率是否低于以往的发病率。 本例=0.001,n=100000,x=3,=1000000.0001=10,现X ,应计算x的下则累积概率。data a;p=poisson(10,3);proc print;run; OBS P 1 0.010336因P0.05,可以认为该地区现在的胃癌发病率低于以往的发病率。 在SAS中,非参数统计主要由univariate过程和npar1way过程来实现,前者在前面的第一讲中已经介绍,它 可以进行配对设计差值的符号秩和检验(Wilcoxon配对法);后者是一个单因素

21、的非参数方差分析过程,可进行成组设计的两样本( Wilcoxon 法)或多样本比(Kruskal-Wallis法 即H检验)的秩和检验。 注意:npar1way过程不能处理按频数输入的资料。对单项有序资料的频数表,可用前面讲到的cmh过程的 Row Mean Scores Differ(行平均分不同)来检验。 SAS不提供非参检验两两比较的方法,其余统计软件里也只有PEMS提供这一功能。 npar1way含意:“npar”是“非参”的英文缩写,“1way”代表一个因素,合起来就是“单因素的非参数检验”。千万不要写成“NPAPLWAY”!qNPAP1WAY 过程的语法格式过程的语法格式PROC

22、NPAR1WAY DATA= 选项 ;CLASS ; 必需必需,指定要分析的分组变量EXACT ; 要求程序在必要时计算确切概率OUTPUT ;指定统计结果的输出数据集VAR ; 指定要分析的因变量BY ; 统计按指定的变量分组进行,要求已排序。PROC过程的选项MISSING 将缺失值也用于统计分析 ANOVA 同时进行方差分析 MEDIAN 要求进行中位数检验 NOPRINT 禁止统计结果在OUTPUT视窗内输出 SAVAGE 要求对样本进行SAVAGE得分分析 WILCOXON 要求进行WILCOXON秩和检验, 通常必选。 在省略所有选项的情况下,SAS系统默认输出所有的统计结果,这恰

23、恰说明了非参数检验方法的不完善。 q 配对资料的符号秩和检验 和配对t检验过程一样,用Proc univariate过程,结果观察Sgn Rank (即T值)Pr=|s| (即P值)。如例13-1 T值=-8.5,P=0.3594。(SAS程序略)q 两样本成组比较程序13-2data npar1;do c=1 to 2;input n;do I=1 to n;input x ; output;end; end;cards;12134 146 104 119 124 161 107 83 113 129 97 123770 118 101 85 107 132 94;proc npar1way

24、 wilcoxon;class c;Var x; run; N P A R 1 W A Y P R O C E D U R E Wilcoxon Scores (Rank Sums) for Variable X Classified by Variable C Sum of Expected Std Dev MeanC N Scores Under H0 Under H0 Score 样本量 各组的秩和 各组的期望秩和 秩和的标准差 各组的平均秩和1 12 140.500000 120.0 11.8269689 11.70833332 7 49.500000 70.0 11.8269689 7.0714286 Average Scores Were Used for Ties Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S = 49.5000 Z = -1.69105 Prob |Z| = 0.0908 (按正态近似法作秩和检验,较小样本秩和=49.5,z=-1.69105,P=0.0908) T-Test Approx. Significance = 0.1081

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论