Ch4SAS的输入输出格式ppt课件_第1页
Ch4SAS的输入输出格式ppt课件_第2页
Ch4SAS的输入输出格式ppt课件_第3页
Ch4SAS的输入输出格式ppt课件_第4页
Ch4SAS的输入输出格式ppt课件_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Slide 1彭斌SAS格式与格式化输入格式与格式化输入Slide 2彭斌SAS的输入输出格式的输入输出格式 SAS的变量包含数值型和字符型变量。 SAS系统对数值型、字符型和日期时间数据提供了许多输入、输出格式。 用户可以用FORMAT过程来定义自己的格式。 什么是格式(Format)? Format is an instruction the SAS System uses to display or write each value of a variable. SAS有输入格式和输出格式。输入格式通常在input语句中使用,输出格式通常在format语句中使用。Slide 3彭斌输入输

2、出格式输入输出格式原始数据值原始数据值SAS变量的值变量的值格式化的格式化的SAS变量值变量值Informatdollar10.Formatcomma8.548,23125JAN20191609501/25/2019InformatDate9.FormatMMDDYY10.$548,231548231Informat(输入格式)(输入格式)Format(输出格式)(输出格式)Slide 4彭斌日期和时间数据的存储日期和时间数据的存储SAS采用数值存储日期和时间形式的数据。在默认情况下,SAS系统以0代表1960年1月1日0时。其它日期在SAS系统中被存储为与该日期相差的天数。例如,1960年1

3、月3日,在系统中存为2。 2019年1月25日,在系统中存为16095。注意:为了使数值型变量显示日期形式,必须使用日期型的输出格式,同样地为了以日期形式输入日期必须使用日期型的输入格式。 Slide 5彭斌输入格式输入格式1、数值型变量、数值型变量 只介绍两个比较特殊的格式:只介绍两个比较特殊的格式: COMMAw.d :用于数据中包含逗号:用于数据中包含逗号(,)的数据的数据形式形式 DOLLARw.d :用于数据前面有美元符:用于数据前面有美元符($)的的数据形式数据形式说明:说明:w:宽度,表示数值域所含的列数。小数点占:宽度,表示数值域所含的列数。小数点占一列。一列。 d:小数位数。

4、:小数位数。d可以省略。可以省略。 例如:例如: 5.2,表示该变量的数据占,表示该变量的数据占5列,其中后两列,其中后两位是小数位。位是小数位。 注意:一定要弄清数据占据的列数,否则极注意:一定要弄清数据占据的列数,否则极易出错。易出错。Slide 6彭斌data a;input x comma7. y comma7.;cards;12,002 34,2312,210 21,311;run;proc print;run; OUTPUT: Obs x y 1 12019 34231 2 2210 21311例例1.有如下两列数据,数据中包有逗号,请建立一个有如下两列数据,数据中包有逗号,请建立

5、一个SAS数据集,变量为数据集,变量为x、y。12,002 34,2312,210 21,311数字数字7是怎是怎么来的?么来的?Slide 7彭斌data a;input x comma7.2 y comma7.4;cards;12,002 34,2312,210 21,311;run;proc print;run; OUTPUT: Obs x y 1 120.02 3.4231 2 22.10 2.1311例例2.有如下两列数据,其中第一列后两位数字为小数,第有如下两列数据,其中第一列后两位数字为小数,第二列后二列后4位为小数,例如第一个数据位为小数,例如第一个数据12,002读入后应为读

6、入后应为120.02。请建立一个。请建立一个SAS数据集,变量为数据集,变量为x、y。12,002 34,2312,210 21,311Slide 8彭斌data a;input x dollar8. y dollar8.;cards;$12,002 $34,231$2,210 $21,311;run;proc print;run; OUTPUT: Obs x y 1 12019 34231 2 2210 21311例例3.有如下两列数据,数据中包有有如下两列数据,数据中包有$和逗号,请建立和逗号,请建立一个一个SAS数据集,变量为数据集,变量为x、y。(例如例如$12,002读入后读入后应为

7、应为12019 )$12,002 $34,231$2,210 $21,311Slide 9彭斌data a;input x dollar8.2 y dollar8.4;cards;$12,002 $34,231$2,210 $21,311;run;proc print;run; OUTPUT: Obs x y 1 120.02 3.4231 2 22.10 2.1311例例4.有如下两列数据,其中第一列后两位数字为小数,有如下两列数据,其中第一列后两位数字为小数,第二列后第二列后4位为小数,例如第一个数据位为小数,例如第一个数据$12,002读入后应读入后应为为120.02。请建立一个。请建立

8、一个SAS数据集,变量为数据集,变量为x、y。$12,002 $34,231$2,210 $21,311Slide 10彭斌2、字符型变量、字符型变量只介绍一个格式:只介绍一个格式:$CHARw. :读取包含空格的连续字符:读取包含空格的连续字符 例例5.下面是一些人名,请将其读入到一个变量下面是一些人名,请将其读入到一个变量NAME中,中,注意:姓和名之间有一个空格,建立的注意:姓和名之间有一个空格,建立的SAS数据集如右数据集如右边的形式。边的形式。Bill ClintonGeorge BushTony BlairSaddam Hussein Vladimir PutinObsname1B

9、ill Clinton2George Bush3Tony Blair4Saddam Hussein5Vladimir PutinSlide 11彭斌 data a; input name $ char14.; cards; Bill Clinton George Bush Tony Blair Saddam Hussein Vladimir Putin ; proc print; run; Obs name 1 Bill Clinton 2 George Bush 3 Tony Blair 4 Saddam Hussein 5 Vladimir Putin如果将如果将char14.去掉,语句去

10、掉,语句改为:改为:input name $;结果是什么样的呢?结果是什么样的呢?Slide 12彭斌3、日期数据、日期数据日期数据的读入通常需要运用日期型的格日期数据的读入通常需要运用日期型的格式。式。Slide 13彭斌输出格式输出格式日期型数据的输入输出格式大部份是相同的,下面是几个常用的:日期型数据的输入输出格式大部份是相同的,下面是几个常用的:Slide 14彭斌该例中日期数据的形式是什么样的?例例6.有如下的日期数据,请建立一个有如下的日期数据,请建立一个SAS数据集数据集EX6存储,存储,并以日期的形式显示出来。并以日期的形式显示出来。1Jan201903 Jan 201915/

11、May/201912-FEB-201917*May* %20191*OCT*201930%sep%/2019DD MMM YYYY故选择DATEw.输入格式Slide 15彭斌 data b; input dd date15.; format dd date9.; cards; 1Jan2019 03 Jan 2019 15/May/2019 12-FEB-2019 17*May* %2019 1*OCT*2019 30%sep%/2019 ; proc print; run;Obsdd101JAN2019203JAN2019315MAY2019412FEB2019517MAY2019601O

12、CT2019730SEP20191Jan201903 Jan 201915/May/201912-FEB-201917*May* %20191*OCT*201930%sep%/2019Slide 16彭斌例例7.有如下的日期数据,请建立一个有如下的日期数据,请建立一个SAS数据集数据集EX7存储,存储,并以日期的形式显示出来。并以日期的形式显示出来。01312019031220195 13 20194 21 20195 25 20191/2/20193-24-2019该例中日期数据的形式是什么样的?MM DD YYYY故选择MMDDYY10.输入格式Slide 17彭斌013120190312

13、20195 13 20194 21 20195 25 20191/2/20193-24-2019data b;input dd mmddyy10.;format dd mmddyy10.;cards;01312019031220195 13 20194 21 20195 25 20191/2/20193-24-2019;proc print;run;Obsdd101/31/2019203/12/2019305/13/2019404/21/2019505/25/2019601/02/2019703/24/2019Slide 18彭斌自定义格式自定义格式 使用PROCFORMAT过程进行格式的自定

14、义。 PROC FORMAT ; INVALUE 格式名格式名 格式格式; VALUE 格式名格式名 格式格式; 其中,其中,invalue定义输入格式,定义输入格式,value定义输出格式。定义输出格式。下面只介绍定义输出格式。下面只介绍定义输出格式。Slide 19彭斌语法:语法:PROCFORMAT; VALUE 自定义输出格式名字自定义输出格式名字 定义的定义的格式格式 ;RUN; 自定义输出格式名字:应符合自定义输出格式名字:应符合SAS的命名要求,注意最后一的命名要求,注意最后一个字符不能是数字。个字符不能是数字。定义的格式:定义的格式: 原始值原始值=格式化的输出值格式化的输出值

15、如:如:value testf 1-5=“1-5” 6-=10”; value ynf 1=“是是” 2=“否否”; value $grpf “A”=“试验组试验组” “B”=“对照组对照组”;Slide 20彭斌例例8.下面是我们班下面是我们班“问卷调查资料的部份数据。变量问卷调查资料的部份数据。变量sex的赋值是:的赋值是:1=Male,2=Female,变量变量Band46的赋值是:的赋值是:A=增加增加, B=不变不变, C=减弱减弱 ,请建立一个,请建立一个SAS数据集数据集EX8,对变量对变量sex、Band46进行格式化。进行格式化。Slide 21彭斌 data qespart

16、; input id$ sex height weight band46$; cards; cnw1r01215449C cnw1r02116964B cnw1r04116967A cnw1r05215350B cnw1r06216050A cnw2r02215646A cnw2r03117362B cnw2r04116857B cnw2r05215545B ; run; proc print; run;Obsidsexheightweightband461cnw1r01215449C2cnw1r02116964B3cnw1r04116967A4cnw1r05215350B5cnw1r0621

17、6050A6cnw2r02215646A7cnw2r03117362B8cnw2r04116857B9cnw2r05215545BSlide 22彭斌PROC FORMAT; VALUE sexfmt 1=Male 2=Female ; VALUE $bandfmt A=增加增加 B=不变不变 C=减弱减弱 ;RUN;首先建立相应的输出格式首先建立相应的输出格式上面建立了两种类型的输出格式:上面建立了两种类型的输出格式: 一种是数值型的,即一种是数值型的,即sexfmt,要求,要求=号左边为数值型数值或区间,如上号左边为数值型数值或区间,如上面的面的1、2为数值;为数值;另一种是字符型的,即另

18、一种是字符型的,即$bandfmt,$表明该格式是字符型,要求表明该格式是字符型,要求=号左边号左边为字符或字符区间,如为字符或字符区间,如A 、 B 、 C 。Slide 23彭斌DATA qesfmt;SET qespart;FORMAT Sex sexfmt. Band46 bandfmt. ;RUN;PROC Print;RUN;Obsidsexheightweightband461cnw1r01Female15449减弱2cnw1r02Male16964不变3cnw1r04Male16967增加4cnw1r05Female15350不变5cnw1r06Female16050增加6cn

19、w2r02Female15646增加7cnw2r03Male17362不变8cnw2r04Male16857不变9cnw2r05Female15545不变格式化后打印输出的数据格式化后打印输出的数据 对变量进行格式化Slide 24彭斌PROC FORMAT; VALUE heighfmt LOW - 150 = 150 150- 155 = 150-155 155- 160 = 155-160 160- 165 = 160-165 165- 170 = 165-170 170- 175 = 170-175 175- =180;RUN;利用格式对连续型变量的离散化分组利用格式对连续型变量的离散

20、化分组(频数表编制频数表编制)例例9. 对对“问卷调查资料中的身高编制频数表,组距取问卷调查资料中的身高编制频数表,组距取5CM,小于,小于150为第一组,为第一组,150-155为第二组为第二组在数据步中运用格式:在数据步中运用格式:Format height heighfmt.;加标签加标签: label height =身高身高;Slide 25彭斌Obsclassid身高身高weight134 cnw1l01175-18070.0234 cnw1l02175-18070.0334 cnw1l03155-16047.0434 cnw1l04160-16548.0heightFrequen

21、cyPercentCumulativeFrequencyCumulativePercent150-1551914.181914.18155-1602216.424130.60160-1653828.367958.96165-1702014.939973.88170-1752115.6712089.55175-180107.4613097.01=18042.99134100.00打印数据集的内容打印数据集的内容(部份部份)用用FREQ过程生成的频数表过程生成的频数表Slide 26彭斌 SAS system Help “索引索引” 输入输入“FORMAT procedure”Slide 27彭斌

22、SAS函数函数Slide 28彭斌1.SAS函数的定义 SAS函数是一个子程序,它由0个或几个自变量返回一个结果值。每个SAS函数都有一个关键词名字。SAS函数的形式为: Function Name(argument,.) 例如: MEAN(x,y,z,a) SUM(x,y,z) MIN(SUM(x,y,z),1000)Slide 29彭斌2. SAS函数的分类: SAS函数种类多,常用的有: 算术函数、数组函数、截取函数、数学函数、概率函数、分位数函数、非中心函数、样本统计函数、随机函数、字符函数、日期时间函数等。 3. 参数的表示法,三种方式均可: Function Name(OF var

23、iable1-variablen) Function Name(OF variable variable .) Function Name(variable, variable, .) 例如: sum(of x1-x5) sum(of x1 x2 x3 x4 x5) sum(x1,x2,x3,x4,x5) 是等价的。Slide 30彭斌三. 函数的分类 SAS函数主要分为以下几类:1、数学函数 abs():求绝对值 mod(var1,var2):求var1除以var2后的余数 sqrt():求平方根值 int():取整函数,截取小数部分 round(var,规定):按规定四舍五入。规定取:0.

24、1,0.01, log():计算以e为底的对数值 log10():计算以10为底的对数值2、三角函数3、概率分布函数Slide 31彭斌 4、样本统计函数 max():求最大值 min():求最小值 mean():求均数 std():求标准差 sum():求和5、随机函数 normal():产生一个正态分布的伪随机数 rannor():产生一个标准正态分布的随机数6、字符函数 substr():从一个字符串中抽取或取代一个指定的子串 trim():去掉字符串尾部的空格7、日期时间函数 year():从变量中抽取“年份值 month():从变量中抽取“月份值 day():返回变量的天数值 mdy(月,日,年):将变量转换成日期值形式具体的函数请查阅: SAS Online Help-SAS Language-SAS Functio

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论