SAS数据分析实验报告_第1页
SAS数据分析实验报告_第2页
SAS数据分析实验报告_第3页
SAS数据分析实验报告_第4页
SAS数据分析实验报告_第5页
免费预览已结束,剩余25页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数理与土木工程学院实验报告课程名称:统计软件SPSS SAS及实践实验名称SAS数据分析实验报告系别数据科学系UN2758UN2758学 号班级实验地点HE103实验日期实验时数4指导教师袁鹏同组其他成员无成绩一、实验目的及要求1 .了解SAS系统的基本知识及操作方法。2 .学会运用SAS系统进行数据的处理与分析。3 .熟练掌握SAS数据集的建立及SAS语句。二、实验环境及相关情况(包含使用软件、实验设备等)SAS Word Excel 软件三、实验内容1、已知以下的数据和对应的变量分为:1) Account_ID;2) Revenue;3) Segment;4) N_var1;5) C_va

2、r1;6) Date;7) Location;8) Code;9) Amount;10001,5,G1,., ,2014-10-23,CHINA,APP_001,10010002,6,G1,., ,2014-10-23,CHINA,APP_002,11010003,.,G1,., ,2014-10-23,CHINA,APP_003,5010004,10,G2,., ,2014-10-23,CHINA,APP_004,9010005,15,G2,., ,2014-10-23,CHINA,CAN_005,1210006,13,G2,., ,2014-10-23,CHINA,MAN_006,1000

3、010007,.,G2,., ,2014-10-23,CHINA,APP_007,1010008,20,G3,., ,2014-10-23,CHINA,APP_008,10010009,25,G3,., ,2014-10-23,CHINA,APP_009,20010010,.,G3,., ,2014-10-23, ,REJ_010,10000010010,.,G3,., ,2014-10-23, ,REJ_010,10000010010,.,G4,., ,2014-10-23, ,REJ_010,10000010010,.,G5,., ,2014-10-23, ,REJ_010,1000001

4、0003,7,G1,., ,2014-10-24,CHINA,MAN_003,5000010004,9,G2,., ,2014-10-24,CHINA,APP_004,9010006,6,G2,., ,2014-10-24,CHINA,MAN_006,100010007,.,G2,., ,2014-10-24,CHINA,APP_007,1010008,8,G3,., ,2014-10-24,CHINA,APP_008,10010009,9,G3,., ,2014-10-24,CHINA,APP_009,20010010,.,G3,., ,2014-10-24,CHINA,APP_010,10

5、010010,10,G4,., ,2014-10-24,CHINA,APP_011,10110010,20,G5,., ,2014-10-24,CHINA,APP_012,102要求:读取数据,并创建一个SAS&据集,命名为transaction ;基于数据集transaction ,将变量“ Revenues,中的缺失数据用其均值代替;基于,将取值全部缺失的变量删除。2、下面的每一行数据代表纸箱子的length, width, 和height, 单位是厘米。计算每一个 箱子的体积、需要的纸板的面积(假定顶部和底部的纸板对折到中间,即:顶部和底部的厚 度是两层纸板)。假定纸板的价格为$平方米。

6、32 18 1216 15 2448 12 3215 30 4520 30 36a)建立一个数据集合读入数据,变量为 length , width和height ;b)使用set语句,利用a)的数据集建立一个新数据集,它包括 a)的所有数据,并建立三个 新变量:每个箱子的体积(volume),制造费用(cost),以及每立方米体积的造价y (公式 为:y=cost/volume )。c)使用b)建立的数据集建立一个新数据集,只包括其中的volume和cost变量。3、使用二手车数据(,见data文件夹),a) 对车的标志(brand)的频数画竖直条形图.b)画里程数(miles)和价格(pri

7、ce)的散点图,价格在竖轴上。c)自学means过程(见SAS过程文件夹),计算变量里程数(miles)和价格(price)的描述统 计量。4、某地区单身人士的收入(V)和住房面积(x)的数据(,见data文件夹)试分析:该地区单身人士的收入与住房面积之间是否相关如果线性相关,确定一元线性回归方程,并做显著性检验。5、收集了我国居民消费价格指数(CPI)从2010年1月到2016年4月的数据(,见data文 件夹),其中,CPI代表居民消费价格指数。试分析:使用intnx命令在数据集中加入 month变量,输出格式为monyy7.。使用gplot过程作CPI对month的时序图;用ARIMA过

8、程建模,并预测我国2016年5月和6月的CPI。 四、实验结果(附在后面页)五、实验总结(包括心得体会、问题回答及实验改进意见)SAS(Statistical Analysis System)是世界上最著名的统计分析系统之一,具有完备的 数据访问、管理、分析和呈现功能,被誉为国际标准统计分析系统。SASa件在我们生活中起到了很多的作用:1.可以进行数据管理。2.可以数据输入、建 库、保存。3.进行统计分析。检验。5.方差分析。6.卡方检验。7.相关、回归。8.秩和检验。在学习过程中,一开始学习比较困难和吃力,很多知识都是刚刚接触,比较陌生,但随 着老师讲解的深入和基础知识的逐步掌握,开始对SA

9、S的使用开始比较灵活。希望在以后继续学习和运用,讲课堂中学到的知识可以很好的运用到实践当中去。六、教师评语1、完成所有规定的实验内容,实验步骤正确,结果正确;2、完成绝大部分规定的实验内容,实验步骤正确,结果正确;3、完成大部分规定的实验内容,实验步骤正确,结果正确;4、基本完成规定的实验内容,实验步骤基本正确,所完成的结果基本正确;5、未能很好地完成规定的实验内容或实验步骤不正确或结果不正确。6、其它:评定等级:优秀 良好中等及格不及格教师:年 月日实验结果(包括程序代码、程序结果分析)第一题:读取数据,并创建一个SAS数据集,命名为transaction ;data transaction

10、;infile cards dlm=,;input Account_ID Revenue Segment N_var1 C_var1 Date Location Code Amount; cards ;10001,5,G1,., ,2014-10-23,CHINA,APP_001,10010002,6,G1,., ,2014-10-23,CHINA,APP_002,11010003,.,G1,., ,2014-10-23,CHINA,APP_003,5010004,10,G2,., ,2014-10-23,CHINA,APP_004,9010005,15,G2,., ,2014-10-23,C

11、HINA,CAN_005,1210006,13,G2,., ,2014-10-23,CHINA,MAN_006,1000010007,.,G2,., ,2014-10-23,CHINA,APP_007,1010008,20,G3,., ,2014-10-23,CHINA,APP_008,10010009,25,G3,., ,2014-10-23,CHINA,APP_009,20010010,.,G3,., ,2014-10-23, ,REJ_010,10000010010,.,G3,., ,2014-10-23, ,REJ_010,10000010010,.,G4,., ,2014-10-23

12、, ,REJ_010,10000010010,.,G5,., ,2014-10-23, ,REJ_010,10000010003,7,G1,., ,2014-10-24,CHINA,MAN_003,5000010004,9,G2,., ,2014-10-24,CHINA,APP_004,9010006,6,G2,., ,2014-10-24,CHINA,MAN_006,100010007,.,G2,., ,2014-10-24,CHINA,APP_007,1010008,8,G3,., ,2014-10-24,CHINA,APP_008,10010009,9,G3,., ,2014-10-24

13、,CHINA,APP_009,20010010,.,G3,., ,2014-10-24,CHINA,APP_010,10010010,10,G4,., ,2014-10-24,CHINA,APP_011,10110010,20,G5,., ,2014-10-24,CHINA,APP_012,102 ;run ;proc transpose data =transaction out =a;var _all_;run ;Obs_NAME_COL1COL2COL3COL4COL5COL6COL7COL81Account_ID 100011000210003100041000510006100071

14、00082Revenue56.101513.203Segment.4N_var1.5C_var1.6Date2014-10- 2014-10-2014-10-2014-10- 2014-10- 2014-10- 2014-10- 2014-10-7LocationCHINACHINACHINACHINACHINACHINACHINACHINA8CodeAPP_001APP_002APP_003APP_004CAN_005MAN_006APP_007APP_0089Amount1001105090121000010100ObsCOL9 COL10 COL11 COL12 COL13 COL14

15、COL15 COL16 COL17110009 10010100101001010010 10003100041000610007225.796.3.4.5.62014-10-2014-10- 2014-10- 2014-10-2014-10-2014-10- 2014-10- 2014-10- 2014-10-7CHINACHINACHINACHINACHINA8APP_009REJ_010REJ_010REJ_010REJ_010MAN_003APP_004MAN_006APP_00792001000001000001000001000005000090100010ObsCOL18COL1

16、9COL20COL21COL2211000810009100101001010010289.10203.4.ObsCOL18COL19COL20COL21COL225.62014-10-2014-10- 2()14-10- 2014-10-2014-10-7CHINACHINACHINACHINACHINA8APP_008APP_009APP_010APP_011APP_0129100200100101102基于数据集transaction ,将变量“ Revenues,中的缺失数据用其均值代替;data a;set a;array s(*) aa1-aa2;n=n(of s(*);mean=

17、mean(of s(*);sum=sum( of s(*);do i= 1 to dim(s);if s(i)= . then s(i)=mean;end;run ;proc print ;run ;Obs_NAME_COL1COL2COL3COL4COL5COL6COL7COL8COL91Account_ID 1(0001 10002 10003 10004100051000610007 10008100092Revenue5610151320253Segment.4N_var1.5C_var1.6Date.7Location.8Code.9Amount1001105090121000010

18、100200ObsCOL10COL11COL12COL13COL14COL15COL16i COL171100101001010010100101000310004100061000727963.4.5.6.7.8.9100000 100000 1()0000 10()000 500)090100010ObsCOL18COL19COL20COL21COL22nmeansumi11000800091001010010100102222015223289102014163233.0.234.0.235.0.236.0.237.0.238.0.2391002001001011022246237523

19、基于,将取值全部缺失的变量删除。data a;set a;array aa aa1-aa2;do over aa;if col= . then deleteend;run ;proc transpose data =a out =transaction(drop=_name_);var aa1-aa2;run ;proc print ;run ;ObsAccount_IDRevenueAmount1100011002100021103100035041000490510005126100061000071000710810008100910009200101001010000011100101

20、00000121001010000013100101000001410003500001510004901610006100017100071018100081001910009200201001010021100101012210010102第二题:a)建立一个数据集合读入数据,变量为 length , width和heightdata b;input length width height;cards ;32 18 1216 15 2448 12 3215 30 4520 30 36run ;proc print data =b;run ;Obslength w13218122161524

21、348123241530455203036idth heigthb)使用set语句,利用a)的数据集建立一个新数据集,它包括 a)的所有数据,并建立三个新变量:每个 箱子的体积(volume),制造费用(cost),以及每立方米体积的造价 y (公式为:y=cost/volume )。data c;set b;cost=* 4*length*width*+*volume=length*width*height;2 *length*heigth*+*2 *heigth*width*;y=cost/volume;run ;proc print data =c;run ;Obslengthwidth

22、heigthvolumecost 00001013921615245760.000008500348123218432.000006667Obslengthwidthheigthvolumecost y415304520250.000005778520303621600.000005556c)使用b)建立的数据集建立一个新数据集,只包括其中的volume和cost变量。data d;set c(keep=volume cost);run ;proc print data =d;run ;Obsvolumecost1691225760318432420250521600

23、第三题:a) 对车的标志(brand)的频数画竖直条形图。libname mydata D:dataproc print data =;run ;data e;set ;run ;proc gchart ;vbar brand;run ;ObsYEARBRANDTYPECOLORMILESPLATEPRICE11999,ChevroleBlazerRed80157D0523X1065022002,ChevroleCavalierBlue32863D0631A11850ObsYEARBRANDTYPECOLORMILESPLATEPRICE319961ChevroleCavalierTan907

24、84T9572PA5350420041ChevroleImpalaWhite11910DA6737B16350520031ChevroleS-10White8260LT1124PhevroleVentureBlue77037D2429A11850720021ChevroleVentureSilver36980D3537A1303582000DodgeCaravanBlue75688FC1361PA765092001DodgeDakotaBlack61932DA3955odgeDakotaSilver33620DB5767A1915511200

25、3DodgeNeonYellow17698D8611A12350122003FordExpeditiGold40956D3362A24850132003FordExplorerWhite34322D0435ordExplorerWhite60920D9125ordExplorerBlack28294FT1289ordF-150Blue39149D6445A24420172003FordFocusSilver33985C1316P11650182003FordFocusGreen19295C1417P139251920

26、04FordFocusBeige20446FC1341ordRangerWhite29005D8654ordRangerWhite30114DA9800A12350222004FordTaurusWhite18261C1205ordWindstarWhite36450FT1285PA16325242001FordWindstarWhite35705FT1363,JeepLibertySilver22794D1926,JeepWranglerBlue5985C9861

27、P,JeepWranglerBlack36677D3097A17560ObsYEARBRANDTYPECOLORMILESPLATEPRICE282003 .JeepWranglerTan12964D4494A20050291997MercuryMountainBlue43472DA2785A9650302002MercuryMountainBlue41175LT1432P19135312001MercurySableWhite53324C1438P10305322001PontiacMontanaSilver45814T1140ontiac

28、SunfireSilver15207C1294ontiacSunfireWhite93521B1947B4850b)画里程数(miles)和价格(price)的散点图,价格在竖轴上data f;set (keep=miles price);proc gplot ;plot price*miles;symbol v=star cv=green;run ;BRANDPRICE 30000 20000 10000 00100002000030000400005000060000700008000090000100000MILESc)自学means过程(见SAS过程文件夹),

29、计算变量里程数(miles)和价格(price)的描述统计量data g;set f;proc means data =g ;run ;变量标签N均值标准差最小值最大值MILESPRICEMILESPRICE3434第四题:试分析:该地区单身人士的收入与住房面积之间是否相关如果线性相关,确定一元线性回归方程,并做显 著性检验。data danshen;input area income;cards ;x y21 11193813003813003391035 60022 400238002180047120034130050170041127027 8003450037130032120030

30、90530 3503590038 11103211002990029 65046160029 90023 500246003912002875034 80035 65041150052 84035127028 70023 73549150054184732780521200318703780040 6793454038130021110033100060110033 60051262945 150052 62670 90060192650 40040 128070100056110022 48040 90045 180056300048 110050 66043 72035150046 900

31、44116636 6602174431112447104243106357 33656160070 50028140046160024 80036140032200029160021800219002165030 70044 68042 57542 81635 31760189040 95027 80078117036 93032450030100040 50033 600461900proc corr pearson outp =pearsoncorr;var area income;run ;简单统计量变量N均值标准差总和最小值最大值area1003864income10010691069

32、094500Pearson 相关系数,N = 100Prob |r| under H0: Rho=0areaincomeareaincome通过以上程序,运行出单身人士的收入与住房面积相关系数为,虽然相关系数很小,但仍然建立 以下两个模型进行检验。运行下列程序,得到运行结果data danshenl;set danshen;proc gplot ;plot income*area;run ;income50004000300020001000050area图由散点图可以看到,图中的点主要集中在收入1000-2000之间,与住房面积基本无线性关系,建立模型进行检验。模型一(有截距项一元线性回归方

33、程):proc reg graphics;model income=area;model income=area/ noint r clm clirun ;方差分析源自由度平方和F值Pr F模型11952832 1952832误差98324704校正合计99均方根误差R方因变量均值调整R方变异系数表参数估计值变量自由度参数佶计值标准误差t 值Pr|t|Intercept1area1表根据运行的结果,从表中可以得到一元线性回归方程为:Y=+从表可以看到,模型的拟合效果很差,R 2=,表明单身人士的收入变化 %7由住房面积的变化来解 释。表中,从方程整体的F检验上看,F检验的P值为小于显著性水平,

34、说明方程整体上通过了F检验,说明在显著性水平下是显著的;从表中,在 T检验中,截距项的P值为远小于, 系数P值为也远小于,都通过了 T检验,说明在显著性水平下是显著的。模型二(无截距项一元线性回归方程):表方差分析源自由度平方和F值Pr F模型133 |t|area1i-i jio 1mi)fdiMirhHlEll -甯 lUll iU 820Ui(J -!()-fOLTTi 断:i ii(4khir-9*1-jOOO 12001400他如出4 Nu2 -:wanJJUL-HJDLiI)woo网注她Htffli-a2通州白包境的XbE4101R 才D. OSTHA整N方 口.04皆2!根据运行

35、的结果,从表中可以得到一元线性回归方程为:Y=从表可以看到,模型的拟合效果相对模型一较理想,从图中看到,残差图的的预测值残差基本在0值线上波动,R2=,表明单身人士的收入变化75%T由住房面积的变化来解释。表中,从方程整 体上的F检验上看,F检验的P值接近为0,说明方程整体上通过了 F检验,说明方程整体是显 著的;从表中,在T检验中,X的系数P值近似为0,通过了 T检验,说明方程的系数也是显著 的。对比以上两个模型,明显可以看到第二个模型的拟合效果更好。第五题:使用intnx命令在数据集中加入month变量,输出格式为monyy%libname mydata D:data ;proc prin

36、t data = cpil;set ;time=intnx( month ,01jan2010d,_n_- 1);format time monyy7.;run ;procprint data =cpi1 ;ObsCPItime1JAN20102FEB20103MAR201C4APR20105MAY20106JUN20107JUL20108AUG20109SEP201010OCT201011NOV201012DEC201013JAN201114FEB201115MAR201116APR201117MAY201118JUN2011ObsCPItime19JUL201120AUG201121SEP201122OCT201123NOV201124DEC201125JAN201226FEB20122

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论