《SAS统计分析介绍》ppt课件_第1页
《SAS统计分析介绍》ppt课件_第2页
《SAS统计分析介绍》ppt课件_第3页
《SAS统计分析介绍》ppt课件_第4页
《SAS统计分析介绍》ppt课件_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SAS统计分析过程1.统计方法的选择2.SAS过程步常用语句3.常用SAS过程t检验 MEANS过程 UNIVARIATE过程 卡方检验 FREQ过程方差分析 ANOVA过程 秩和检验 FREQ过程 NPAR1WAY过程4.小结及帮SAS协助窗口的运用编写程序、分析数据的一些好习惯查错:怎样知道本人分析的结果有没有问题?统计知识技艺要素、编写SAS程序技术要素、数据本身的要素协助窗口的运用:熟习根本框架,查询关键词 “找路阅读和了解例子 “学习模拟实验 “演练和运用 目 录1.统计方法的选择“巧妇难为有米之炊1.1 统计方法的选择需依次回答以下问题1.手头资料类型 已有调查/研讨的数据2.研讨

2、目的本研讨拟回答的问题类型3.变量类型、对比组数、样本含量4.选择适宜的统计方法能否需求统计学检验?5.选择适宜的SAS过程步 横断面研讨?队列研讨?病例对照研讨?干涉研讨?生态学研讨?某目的的分布?某程度目的的影响要素?某几个要素之间的相关或因果关系?定性资料?有序分类资料?定量资料?T检验,卡方检验,方差分析,秩和检验,多要素分析FREQ, MEANS,ANOVA1.2 统计方法的选择by 因变量和自变量类型因变量因变量吸烟率,超重吸烟率,超重率,血压程率,血压程度度自变量自变量( (性别、年龄、地域、受教育程度性别、年龄、地域、受教育程度)数值变量数值变量分类变量分类变量有序变量有序变量

3、数值变量数值变量相关分析相关分析多要素回归分析多要素回归分析t t检验检验方差分析方差分析协方差分析协方差分析多要素回归分析多要素回归分析相关分析相关分析多要素回归分析多要素回归分析分类变量分类变量t t检验检验方差分析方差分析logisticlogistic回归分析回归分析判别分析判别分析聚类分析聚类分析c2c2检验检验logisticlogistic回归分析回归分析c2c2检验检验有序变量有序变量方差分析方差分析logisticlogistic回归分析回归分析判别分析判别分析聚类分析聚类分析c2c2检验检验logisticlogistic回归分析回归分析相关分析相关分析c2c2检验检验生存

4、时间生存时间生存分析生存分析c2c2检验、检验、FisherFisher确切概确切概率法率法1.3 统计方法的选择单变量资料 by 研讨设计类型c2c2检验检验1.4 统计方法的选择双/多变量资料的关联性分析方法相关、回归利用慢病监测数据所发表文章中出现过的统计方法 单纯描画,不做统计学检验!单纯描画,不做统计学检验! 采用某一种或几种统计方法采用某一种或几种统计方法 卡方检验卡方检验 t t检验检验 LogisticLogistic回归分析回归分析 秩和检验秩和检验 方差分析方差分析利用慢病监测数据所发表文章中出现过的统计方法2.SAS过程步常用的语句VAR VAR 指定分析变量指定分析变量

5、BY, CLASSBY, CLASS指定分层变量指定分层变量WHEREWHERE限定分析范围等限定分析范围等OUTPUTOUTPUT输出输出 LABEL, LABEL,设置变量标签设置变量标签FORMATFORMAT输出格式等输出格式等2.SAS过程步常用的语句VAR语句在很多过程中用来指定分析变量。在VAR后面给出变量列表:VAR 变量名1 变量名2 变量名n; 变量名列表可以运用省略的方式,如X1-X3,math-chinese等。 假设数据集中有几个变量依次为math,english,chinese,那么var math-chinese 与var math english chinese

6、 等价。VAR语句BY语句和CLASS语句BY语句在过程中普通用来指定一个或几个分组变量,根据这些分组变量值把观测分组,然后对每一组观测分别进展本过程指定的分析。在运用带有BY语句的过程步之前普通先用SORT过程对数据集排序。如:(本例中数据曾经按sex排序了)2BY句和CLASS语句Data score;input name $ sex $ math english chinese;cards;李明 男 92 83 76王思明 男 86 72 64张聪 男 74 79 92刘颍 女 95 82 95张红艺 女 85 98 83;run;proc print data=score; by se

7、x;run; 在一些过程如方差分析中,运用CLASS语句指定一个或几个分类变量。而在另一些过程如MEANS中,CLASS语句作用与BY语句类似,可以指定分类变量,把观测按分类变量分类后分别进展分析。运用CLASS时不需求先按分类变量排序。 用WHERE语句可以选择输入数据集的一个行子集来进展分析,在WHERE关键字后指定一个条件。比如:where math=60 and chinese=60; 表示指定只分析数学、语文成果都及格的学生。3 WHERE语句 在过程步中经常要将指定输出结果存放到数据集。不同过程中把输出结果存入数据集的方法各有不同,其中OUTPUT语句是用得最多的一种,其普通格式为

8、:OUTPUT OUT输出数据集名 关键字变量名 关键字变量名 ;其中用“OUT给出了要生成的结果数据集的名字,而用“关键字变量名的方式指定了输出哪些结果关键字的例子比如MEANS过程中的MEAN,VAR,STD等等,等号后面的变量名指定了这些结果在输出数据集中叫什么名字。4 OUTPUT语句下一页例如,proc means data=score; var math; output out=result n=n mean=meanmath ;run;proc print data=result; run;LABEL语句为变量指定一个标签,很多过程可以运用这样的标签。其格式为 :LABEL 变量

9、名标签 变量名标签 ;例如 :proc print data=score label; id name; var math english chinese; label name=姓名 math=数学 english=英语 chinese=语文;run;5 LABEL语句和FORMAT语句FORMATFORMAT语句可以为变量输出规定一个输出格式,比如语句可以为变量输出规定一个输出格式,比如proc print data=score; proc print data=score; format math 5.1 chinese 5.1;format math 5.1 chinese 5.1;r

10、un;run; 使得列出的数学、语文成果宽度占使得列出的数学、语文成果宽度占5 5位,带一位小数。位,带一位小数。 现实上,在生成数据集的现实上,在生成数据集的DATADATA步中也可以用步中也可以用FORMATFORMAT语句规语句规定变量的输出格式,用定变量的输出格式,用LABEL LABEL 语句规定变量的标签,用语句规定变量的标签,用LENGTHLENGTH语句规定变量的存贮长度,用语句规定变量的存贮长度,用ATTRIBATTRIB语句同时规定变量的各属语句同时规定变量的各属性。在数据步中规定的变量属性是附属于数据集本身的,是永性。在数据步中规定的变量属性是附属于数据集本身的,是永久的

11、;在过程步中规定的变量属性标签、输出格式等只用久的;在过程步中规定的变量属性标签、输出格式等只用于此过程的本次运转。于此过程的本次运转。3.常用SAS过程步引见MEANSMEANS过程过程 TTESTTTEST过程过程UNIVARIATEUNIVARIATE过程过程FREQFREQ过程过程ANOVAANOVA过程过程 NPAR1WAYNPAR1WAY过程过程4.PROC MEANS 延续性变量的“均数proc means data=ncd.stat n mean max min range std fw=6;output out=ncd.out1; var h w cir; class urd

12、; by gender;run;统计量变量标签N均值最大值最小值极差规范差h身高3645160.4193104898.509w体重364562.771453311211.57cir腰围364482.411333010310.354.PROC TTEST t检验单样本检验proc ttest data=ncd.stat h0=170 sides=2; var h; where gender=1; by urd;run;单侧还是双侧?H0假设TTEST 过程变量: h (身高)N均值规范差规范误差最小值最大值1573166.57.25620.183104193均值95% CL 均值规范差95% C

13、L 规范差166.5166.1166.87.25627.01127.519自在度t 值Pr |t|1572-19.28 |t|汇总等于157110.15.0001Satterthwaite不等于1568.910.27.0001proc univariate data=ncd.stat ; var h;run;主要产出结果:主要产出结果:均数、中位数、众数、均数、中位数、众数、最小值、最大值、极差、四分位数间距四分位数极差最小值、最大值、极差、四分位数间距四分位数极差规范差、方差规范差、方差偏度系数偏度系数skewness0正态分布;正态分布;0右偏态正偏态,峰靠右右偏态正偏态,峰靠右峰度系数峰

14、度系数(kurtosis)0 峰尖峭峰尖峭 |t|= |M|= |S| D W-Sq A-Sq0.0050proc univariate data=ncd.stat noprint; histogram h; class urd ;run;proc univariate data=ncd.stat noprint; histogram h; class urd gender;run;5.PROC UNIVARIATE 画直方图3.PROC FREQ 卡方检验proc freq data=ncd.stat;tables region*obe2/expected nocol nopercent c

15、hisq;run;FREQ 过程频数表 - region * obe2期望regionobe2行百分比01合计122575300252.7947.2137525225643299251.9447.05685.6214.38329026316266.2749.73191.778.23合计771144915频数缺失 = 1表“obe2-region的统计量统计量自在度值概率卡方233.2623.0001似然比卡方检验233.2399.0001Mantel-Haenszel 卡方132.4702 F模型1624.5311624.53119.30.0024误差91465.8767.12896校正合计9

16、1561980.4R 方变异系数根 MSEh 均值0.0100765.1188918.193227 160.0586源自在度Anova SS均方F 值Pr Furd1624.531624.5319.30.00243.PROC NPAR1WAY 秩和检验proc anova data =ncd.stat; class urd; model h=urd;run;NPAR1WAY 过程Kolmogorov-Smirnov 检验- 变量 w按以下变量分类:urdurdN最大值最大值处处的 EDF 均值的偏向14500.631111-0.5303824660.6802580.521197合计9160.6

17、56114第 541 个观测发生最大偏向“w的最大值 = 66.20Kolmogorov-Smirnov 双样本检验渐近KS0.024569D0.049146KSa0.743607Pr KSa0.6379Cramer-von Mises 检验- 变量 w按以下变量分类:urdurdN均值的偏向总和1450 0.0785312466 0.075835Cramer-von Mises 统计量渐近CM0.000169CMa0.154366Kuiper 检验- 变量 w按以下变量分类:urdurdN均值的偏向1450 0.0278972466 0.049146Kuiper 双样本检验渐近K0.077043Ka1.1657 Pr Ka0.58

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论