第一讲SAS软件应用总论_第1页
第一讲SAS软件应用总论_第2页
第一讲SAS软件应用总论_第3页
第一讲SAS软件应用总论_第4页
第一讲SAS软件应用总论_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、版权所有,2005上海财经大学邵建利,SAS软件应用,主讲:上海财经大学统计学系邵建利,第一讲总论,邵建利,SAS应用统计实验,上海财经大学出版社,2006.10;李东风,SAS统计软件教程,北京大学统计学系讲义王吉利,张尧庭,SAS应用统计教程樊欣,邵谦谦.SAS8.X经济统计北京希望电子出版社,2003.2SASProceduresGuide,Version8SAS/GRAPHSoftware:Reference,Version8,Volumes1and2SASComponentLanguage:Reference,Version8SAS/AFSoftware:ChangesandEnha

2、ncementsinVersion8,CourseNotesSASLanguage:Reference,Version8,参考教程:,SAS是一个庞大的软件系统,它具有“信息系统”和“计算”两类应用属性。本课程内容主要是针对SAS的“统计学计算”属性。,SAS简介(StatisticalAnalysisSystem),据统计,目前全球发表的经济与管理学术文献中,按研究方法出现频数排名,统计学方法位列第一位,其次是运筹学。本书编写目的在于通过SAS软件应用,培养学生的统计学知识应用能力,同时加强学生的实践和创新能力。SAS涉及统计方法应用的模块主要有SAS/BASE、SAS/STAT、SAS/G

3、RAPH、SAS/ETS、SAS/ASSIST、SAS/IML、SAS/INSIGHT、SAS分析员应用、SAS/EnterpriseMiner和面向对象的SAS/AF程序语言等。,本课程主要针对以上模块,介绍与现代统计学方法相关的一些应用,它具体包括认知性、设计性和研究创新性三类。认知性是以传授SAS统计软件和统计学知识为主;设计性是以掌握解决问题的方法为主线,倡导自学;创新性是以提高素质为主线,要求学生能结合所学知识或自行提出课题。,1统计分析方法现代统计学发展至今积累了许多行之有效的数据分析方法,这些统计分析方法可以帮助我们发现大量数据中蕴藏的规律性,帮助我们在数量上把握客观事物的本质,

4、进一步帮助我们掌握客观事物的发展趋势。所以统计分析方法是当今数据分析的主要应用方法之一。这些统计分析方法一般有以下特点:(1)定量性。(2)复杂性。(3)广泛性。现实中,统计分析方法的复杂性成为制约统计分析方法广泛应用的关键问题,统计分析软件可以避免繁琐演算,也可以避免用户在计算机上自行编制复杂的程序,是普及应用统计分析方法的重要工具。,应用统计软件概述,一、统计分析方法与统计软件,2统计分析软件统计分析软件根据其功能可以大致分为专用统计分析软件和综合统计分析软件两大类。常见在微机上使用的综合统计分析软件有以下几种:,应用统计软件概述,(1)SAS。它是美国SAS软件研究所研制的一套大型集成应

5、用软件系统,具有完备的数据存取、数据管理、数据分析和数据展现功能。尤其是创业产品统计分析系统部分,由于其具有强大的数据分析能力,一直为业界著名软件,在数据处理和统计分析领域,被誉为国际上的标准软件和最权威的优秀统计软件包,广泛应用于政府行政管理、科研、教育、生产和金融等不同领域,发挥着重要的作用。SAS系统中提供的主要分析功能包括统计分析、经济计量分析、时间序列分析、决策分析、财务分析和全面质量管理工具等等。,应用统计软件概述,在国际学术界有条不成文的规定,即在国际学术交流中凡是用SAS软件完成的计算和统计分析,可以不必说明算法。虽然在我国SAS的广泛应用还是近几年的事,但是随着计算机应用的普

6、及和信息事业的不断发展,越来越多的单位采用了SAS软件。尤其在教育、科研领域,SAS软件已成为专业研究人员的实用进行统计分析的标准软件。然而,由于SAS系统是从大型机上的系统发展而来,其操作至今仍以编程为主,人机对话界面不太友好,系统地学习和掌握SAS,需要花费一定的时间和精力。而对大多数科技工作者而言,需要掌握的仅是如何利用SAS来解决自己的实际问题,因此往往会与SAS软件失之交臂。但不管怎样,SAS作为专业统计软件,现在还很难有什么统计软件足以与之抗衡。,应用统计软件概述,(2)SPSS。它是社会科学统计软件包,也是世界著名的统计分析软件之一。20世纪60年代末,美国斯坦福大学的三位研究生

7、研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。20世纪80年代以前,SPSS统计软件主要应用于企事业单位。目前的SPSS是一个组合式软件包,它集数据整理、分析功能于一身。用户可以根据实际需要和计算机的功能选择模块,以降低对系统硬盘容量的要求,有利于该软件的推广应用。,应用统计软件概述,SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归

8、分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。与SAS一样,即在国际学术交流中用SPSS软件完成的计算和统计分析,也不必说明其算法。,(3)SYSTAT。它由美国SYSTAT公司于70年代推出,因方法齐全、速度快、精度高、软件小、处理数据量大而大受欢迎,成为目前较为流行的通用数据分析软件包之一。1994年9月为SPSS公司兼并。但比BMDP幸运的是,SPSS公司并没有放弃SYSTAT的开发研究,它通过调整产品布局,

9、利用SYSTAT较为突出的图形优势,发展MAC平台上的产品系列使得SYSTAT焕然一新,并且SPSS在吞并BMDP后,拟将其UNIX平台版本划入SYSTAT发展。目前SYSTAT主要针对科学研究者,SYSTAT几乎可以完成统计研究者所需要的任何统计方法,软件包含有包括世界地图、三维图、经纬图等普通及奇特的图像模型,它虽然还没有SPSS这样的软件包先进,但比SPSS便宜得多,而且硬盘容量要求更小。,(4)Statistica。它为一套完整的统计资料分析、图表、资料管理、应用程式发展系统。以及对其他技术、工程、工商企业资料挖掘应用等进阶分析之应用程式。此系统不仅包含统计上一般功能及制图程序;还包含

10、特殊的统计应用,例如,社会统计人员、生物研究员或工程师。全新的Statistica在功能上,提供了四种线形模型的分析工具,包括VGLM、VGSR、VGLZ与VPLS;对使用者而言,提供完整且俱可选择性的使用者介面;亦可广泛使用程式语言辅助精灵来建立一般的范围;或整合Statistica与其他应用程式进行计算,这些都是非常方便好用的模组。Statistica能提供使用者所有需要的统计及制图程序。另外,能够在图表视窗中显示各种分析,及有别于传统统计范畴外的最新统计作图技术,皆获得许多使用者的好评。Statistica为基本系列产品;可独立使用此模块,或搭配Statistica其他组合产品系列。,(

11、5)S-plus。S语言是由AT(2)有助于科研论文的规范;(3)有助于提高的科研能力。,二、SAS程序和SAS数据集,安装、启动界面(显示管理系统):三个基本窗口EDIT编辑窗:编辑SAS程序LOG记录窗:程序运行过程、时间、错误信息(红色-错误兰色-正常绿色-警告)OUTPUT结果输出窗:当程序运行无误,且有结果输出时显示其他:var窗、keys窗、lib窗(在命令窗command或命令行command=输入相应的命令激活),使用Options下拉菜单中的Preferences订制DMS的显示,如选择“commendbar”和“commendline”在命令条/行输入num并回车,可在编辑

12、窗口加入行号,方便编程;commendline和行号后的一列禁止写入,命令或程序需从其后第二列开始写SAS文件系统*.sd2SAS数据集(6.12版)(必须以字母开头,长度不超过8位);8.0以上版为*.sas7bdat;*.sasSAS程序文件*.loglog窗口输出*.lstSAS结果文件,二、SAS程序和SAS数据集,由三部分组成;SAS语句以一个关键词开始,以分号(;)结束;Dataesr;/*数据步:输入并建立数据*/Inputx;Cards;39865573108104;Procprint;/*过程步:调用现成的SAS过程,进行统计分析*/Run;/*在程序最后,指示过程步或数据步

13、结束,可以提交*/,SAS程序结构:,Log窗输出,Output窗输出,程序运行-在编辑窗输入程序后点击图标按功能键“F8”在命令行(窗)键入“submit”在local下拉菜单中选“submit”窗口内容保存-激活窗口后在命令行(窗)键入file“路径文件名”点击图标在file下拉菜单中选“save”或“saveas”只有编辑窗口(edit窗)才能打开文件,二、SAS程序和SAS数据集,常用的快捷键F4recall命令,用于edit窗,将前面提交的程序调回,可多次使用F5切换到edit窗F6切换到log窗F7切换到output窗F8submit命令Ctrl-E清除当前窗口的内容。edit窗被

14、清除的内容不能用F4调回,二、SAS程序和SAS数据集,SAS数据集建立-用input和cards语句直接输入,datachild;/*建立临时数据集child.sd2,自动放在saswork子目录下*/inputidx1$x2x3x4x5x6;/*指明要输入的变量,$为字符型变量*/cards;/*标志数据区开始,数据之间以一个或几个空格分隔*/1m3295.514.053.549.642m3592.013.052.041.613m3389.012.553.535.81254m176168.053.582.0100.14255f3091.011.048.035.39256f3391.011.

15、547.044.98521f178163.051.079.087.42;/*标志数据区结束,分号必须单独一行*/run;,SAS中的常用变量类型数值型:不需特殊定义字符型:定义方式变量名$日期型:多种形式如:变量名mmddyy6.实际记录为距1960/01/01的天数其它数据库中的逻辑型、备注型变量在SAS中均为字符型变量。日期型变量转进SAS后一般也变为字符型变量。,SAS数据集建立-用input和cards语句直接输入,dataa1;inputidx1$x2x3x4;cards;1m3295.52m3592.013.03m3389.012.5;procprint;run;结果:OBSIDX

16、1X2X3X411m3295.52.023m3389.012.5,dataa1;inputidx1$x2x3;cards;1m3295.52m3592.013.03m3389.012.5;procprint;run;结果:OBSIDX1X2X311m3295.522m3592.033m3389.0,SAS数据集建立,不分行符的使用dataesr;inputx;/*每读入一天记录后,数据指针保持原位不换行,继续读下一条记录*/cards;39865573108104;procmeans;run;结果:AnalysisVariable:XNMeanStdDevMinimumMaximum-126.

17、50000002.54057973.000000010.0000000-,SAS数据集建立,缺失值的输入-以.表示,缺失值不进入分析datachild;inputidx1$x2x3x4x5x6;cards;1m3295.514.053.549.642m35.13.052.041.613m3389.012.553.535.81254m176168.053.582.0100.14255f3091.011.048.035.39256f3391.011.547.044.98521f178163.051.079.087.42;procmeans;run;,SAS数据集建立,结果VariableNMean

18、StdDevMinimumMaximum-ID7184.5714286194.96397711.0000000521.0000000X2773.857142970.477960130.0000000178.0000000X36116.250000038.241012089.0000000168.0000000X4723.785714319.482593011.000000053.5000000X5759.285714314.736171947.000000082.0000000X6756.427142926.254044635.3900000100.1400000-,SAS数据集建立,如已存在

19、一纯文本文件c:child.txt,内容如下:1m3295.514.053.549.642m3592.013.052.041.613m3389.012.553.535.81254m176168.053.582.0100.14255f3091.011.048.035.39256f3391.011.547.044.98521f178163.051.079.087.42可用infile直接读入:Datachild;Infilec:child.txt;Inputidx1$x2x3x4x5x6;Run;,SAS数据集建立-Infile和input语句,利用file下拉菜单中的import功能,可转入:文

20、本型数据:空格分隔、逗号分隔、制表键分隔DbaseII和III数据库(*.dbf)Excel数据库(7.0版及以下,*.xls)。SAS8以上可转入Excel97及2000的数据库EpiInfo的数据可在EpiInfo中用export模块转成*.sas文件(SAS的程序文件),在edit窗打开后,加上run;语句后提交运行即可。有的数据可通过粘贴的方法贴到edit窗后,加入input和cards等语句,生成sas数据集。,SAS数据集建立-从其他数据集转入,SAS数据集名称的表示方式:两级文件名库关联名.数据集名如work.esr,dw.esr(.sd2省略)库关联名代表硬盘上某一(子)目录,

21、esr即放在该目录下定义库关联名:用libname命令格式:libname库关联名“盘符:路径”;如:libnamedwc:teach;dw为库关联名,代表路径c:teach;库关联名可任意取,一旦定义,只要不退出SAS,始终有效()。但路径必须实际存在,SAS数据集建立-永久数据集和临时数据集,临时数据集:每次启动SAS时,会自动开辟一个临时存储区,用于存储data步或其它过程生成的SAS数据集。它库关联名为WORK,代表sassaswork子目录。一旦退出sas,临时存储区自动删除,存放在其中的数据集也会被自动删除。即的sassaswork子目录下的数据集被删除,称为临时数据集临时数据集的

22、库关联名默认为work,均省略不写。如dataesr;(实际为work.esr),SAS数据集建立-永久数据集和临时数据集,永久数据集:通过两级文件名的形式,将生成的数据集存放到saswork以外的任意路径中(库关联名所指向的路径),即可以生成永久数据集,退出时不会被删除。如:libnamedwc:teach;datadw.esr;/*在c:teach生成esr.sd2数据集*/inputx1x2x3;(略)退出SAS后再进入:libnameaac:teach;库关联名一旦定义,它所代表的目录下所有SAS数据集均可使用,不必再定义。,SAS数据集建立-永久数据集和临时数据集,SAS数据集建立-

23、永久数据集和临时数据集,LIBNAMEDSC:/DATA;PROCCHARTDATA=DS.AA;VBAREXCHANGE;TITLE成交金额数据的缺省条形图;RUN;注:Proc步的操作对象总是最新生成的SAS数据集。只有proc步时,也可通过在proc语句后加data=来指定要分析的数据集。,dataa;setDS.AA;procprint;run;Datab;Seta;Run;,从已建立的SAS数据集中读入数据建立新的SAS数据集-set命令,变量重命名:rename旧变量名=新变量名;如renameid=x0;变量赋值或修改变量值:变量名=表达式;或结合if语句进行条件赋值:ifthe

24、n;else;子集化:用keep或drop语句整理变量名表keep;drop;,SAS数据集的整理-变量操作,datab1;setchild;ifid200thengroup=1;elsegroup=2;renameid=x0;keepidx1x2group;procprint;run;注:keepidx1x2group等价于dropx3-x6;,OBSX0X1X2GROUP11m32122m35133m3314254m17625255f3026256f3327521f1782,SAS数据集的整理-变量操作(例),数据子集化记录输出ifthenoutput数据集;记录删除ifthendelete;datab1;setchild;ifx1=mthenoutput;keepx1x5group;procprint;run;OBSIDX1X2X3X4X5X611m3295.514.053.549.6422m3592.013.052

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论