




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八讲:sas数据处理夏敏2016.10生成一个数据集,记录发送失败的和发送延迟的;包括ID、目标邮箱、发送状态;结果按照id排序作业分析邮件的日志文件,要求:1、生成一个数据集,该数据集包括ID、目标邮箱2、生成一个数据集,包括ID、发送状态、反馈信息;3、生成一个数据集,包括ID、发送状态、反馈信息(去掉显示发送信息的行,并把状态是success的,如果有ip地址则显示ip地址,如果没有IP地址则清空反馈信息)4、生成一个数据集,记录发送失败的,并且只提取最后一次记录;包括ID、目标邮箱、发送状态、反馈信息5、生成一个数据集,记录发送延迟的,并且只提取最后一次记录;包括ID、目标邮箱、发送状态、反馈信息作业1、2input@'startingdelivery'id4.@'toremote'email:$50.;input@'delivery'id4.@':'status:$msg&$400.;MsgSuccess:Deferral:Failure:ifindex(status,":")>0thenstatus=substr(status,1,length(status)-1);//另一种思路:指针回跳一列,读取字符,判断是否是:作业3ifstatuseq“msg”thendelete;//结果中不会出现msg的行对于deferral和failure的行输出完整的反馈信息对于success行ifstatuseq“success”andindex(msg,".")>0thenMsg=substr(msg,1,16);elsemsg="";//ip最大15位,最小9位;并且后面的字符是_accepted,所以先去16Msg=subsstr(msg,1,index(msg,”_")-1)或者使用find()函数直接匹配accepted这个字符串或者:ifindex(message,"did_1+0+0/")>0thenmsg="";作业4、5第一个和第三个数据集合并procsortdata=aa;byid;procsortdata=cc;byid;Datax_merge;mergeaacc;byemailid;作业4、5ifemail=“”thendelete;//把目标邮箱地址为空的行删除ifstatus=”success“thendelete;//把状态为success的行删除procsortdata=x_merge;//新数据集先按照邮箱地址进行排序,当邮箱地址相同时再按照id排序byemailid;作业4、5Datafailure;Setx_merge;//导入合并的数据集byemail;//按email进行分组,然后取每组中的最后一条记录,
iflast.emailandstatus”failure”thenoutput;//如果遇到email组最后一条记录就输出到last_email数据集run;
procprint;
optionslinesize=256;
run;数据分析-建模数据建模描述性统计量均值最大值、最小值计数求和方差、标准差标准误变异系数极差校正平方和、非校正平方和偏斜度、峰度分位数函数卡方分布正太分布分位数F分布分位数T分布分位数。。。随机数函数正太分布均匀分布二项分布柏松分布贝塔分布几何分布极值分布指数分布Means过程Means过程是对观测值进行列的操作Sas统计描述中的函数是对行的操作Means过程Libnameaa“d:\temp”;Procmeansdata=aa.scoremaxdec=3;//缺省是2Vart1-t3;/要处理的变量Classclas;//按照clas进行分组Byclas;Procmeansmaxdec=3;Byclas;vart1-t3;Run;//输出结果:是缺省状态,包括计数、均值、标准差、最小值、最大值Means过程Libnameaa“d:\temp”;Procmeansdata=aa.score把统计量写在此处
maxdec=3;//缺省是2Vart1-t3;/要处理的变量Classclas;//按照clas进行分组Procsortdata=aa.score;Byclas;Procmeansmaxdec=3;Byclas;vart1-t3;Run;//Classclas;与byclas的区别是后者必须先用sort排序Weight语句指定观测值的权重如果变量为缺失值或是0,则该观测被剔除Freq语句频率指定观测值出现的频率,如果指定的值不是整数,将自动取整。如果指定的值小于1,则观测值不会被计算SexagenumberF2010f1820M2023m2019Procmens;Varage;Bysex;Run;SexagenumberF2010f1820M2023m2019Procmens;Freqnumber;Varage;Bysex;Run;Freq语句Freq过程产生一维至n维的频数表和列联表以总计百分比和数据计数的形式表示变量值的分布Output语句与data数据步中的output不同Varac;Outputout=aaMEAN=mamcSTD=sasc;MEAN=mamc//表示求得变量ac的平均值的列名用mamc表示STD=sasc//表示求得变量ac的标准差的列名用sasc表示制作制表与画图Table语句制表,不仅仅是制表,还包含了统计量的计算Tabulate过程Datatest;Inputxy@@;Datalines;123343876308630958;Proctabulate;Classxy;Tablex*y;Run;生成的表格中x为控制维度,y为子维度Tablexy;//按照xy两个变量生成相对独立的Tablex*yz;Tablex*(yz);如果行很宽,通过optionslinesize=’1000’;Tabulate过程*表示控制空格表示相互独立上面都是列维度上,表示分为行维度和列维度Tablex,y*z;//x表示的是行维度Univ
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电工理论考试过关检测训练题
- 小麦水稻周年生产主要病虫害全程绿色防控技术
- 萝卜全程机械化生产技术模式
- 低年级疫情防控课件
- 2024年CPSM考试常见误区试题及答案
- 生态系统动态变化试题及答案
- 急性缺血性脑血管病抗血小板聚集治疗2025
- 刷题宝典:2024年CPMM试题及答案
- 电子商务数据分析基础与设计实践试题及答案
- 关键国际物流师人际沟通技巧试题及答案
- 2025年全国中小学生安全知识竞赛参考试题库500题(含答案)
- 2025新人教版七年级下语文-4.16《有为有不为》教案教学设计
- 如何做好护理实习生的带教
- (二调)武汉市2025届高中毕业生二月调研考试 生物试卷(含标准答案)
- 2025年宁夏建设职业技术学院单招职业倾向性测试题库一套
- 真需求-打开商业世界的万能钥匙
- 《矿山隐蔽致灾因素普查规范》解读培训
- GB_T 2946-2018 氯化铵(高清正版)
- 3d3s教程(课堂PPT)
- 幻想水浒传1全人物收集方案201109150
- 小学一年级语文拼音练习题(全部)(共24页)
评论
0/150
提交评论