版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1SAS基础与金融计算游家兴厦门大学经济学院计统系第一页,共二十一页。2描述统计中的单变量分析UNIVARIATE过程 该过程除可以完成类似MEANS过程的基本统计量的计算外,它还可以计算以下统计量: 描述变量极端值的情况; 计算分位数,如中位数; 生成若干个描述变量的分布图; 生成频率表; 对数据进行正态性检验; 对数据进行t检验和秩和检验。第二页,共二十一页。3该过程由下列语句控制:PROC UNIVARIATE options; VAR variables; BY variables; OUTPUT out=SAS-data-set output-statistics; Run;第三页,
2、共二十一页。4PROC UNIVARIATE语句详解PROC UNIVARIATE options; 用于UNIVARIATE过程语句的可选项有(与MEANS过程相同用法的选项略去说明): DATA=SAS-data-set FREQ:要求生成包括变量值、频数、百分数和累计频数的频率表。 NORMAL:要求计算关于变量服从正态分布的假设检验统计量,这个检验统计量相应的概率也被输出。第四页,共二十一页。5 PLOT:要求生成茎叶图、盒形图和正态概率图。 PCTLDEF=value:规定计算百分位数的方法,值取为1,2,3,4,5。缺省时为5。第五页,共二十一页。6OUTPUT语句 OUTPUT语
3、句的用法与MEANS过程中类似,下面指出两点不同之处: output-statistics选项中可用的关键词除了在MEANS过程中已介绍过的以外,还有: NOBS,MEDIAN,MODE,P1,P5,P10,P90,P95,P99,MSIGN(符号统计量),PROBN(正态性检验统计量对应的概率),SIGNRANK,NORMAL,Q1,Q3,QRANGE(四分位差)。第六页,共二十一页。7PCTLPTS=percentiles:规定在该过程中不能自动提供而用户又希望计算的百分位数。例如要计算第33分位数值,必须选择此项。PCTLPRE=prefix-names:该选项规定要求计算的百分位数的输
4、出变量名的前缀。 PCTLNAME=suffix-names:该选项规定要求计算的百分位数的输出变量名的后缀。第七页,共二十一页。8以上三个选项往往结合起来使用,如:Proc univariate data= ; var age weight height ; output pctlpts=33.3 66.7 pctlpre=a w h pctlname=p33_3 p66_7;Run; 第八页,共二十一页。9例:我们利用前面建立的数据集student来看看Univariate过程的输出结果。Data student; input class sex $ age weight height ;
5、cards; 1 f 15 46 156 1 f 14 41 149 1 m 13 48 155 2 m 16 55 165 2 f 17 50 160 2 f 16 60 165 2 m 17 65 175 3 f 18 65 165 3 m 18 70 180 3 m 17 68 176;Run;Proc univariate data= student; var height ;Run;Proc univariate data= student normal; var height ;Run;Proc univariate data= student plot; var height ;
6、Run;第九页,共二十一页。10 MomentsN 15 Sum Weights 15Mean 163.2 Sum Observations 2448Std Deviation 9.1354881 Variance 83.4571429Skewness 0.28385259 Kurtosis -0.5095875Uncorrected SS 400682 Corrected SS 1168.4Coeff Variation 5.59772555 Std Error Mean 2.35877289 Basic Statistical Measures Location Variability M
7、ean 163.2000 Std Deviation 9.13549 Median 162.0000 Variance 83.45714 Mode 160.0000 Range 31.00000 Interquartile Range 14.00000 NOTE: The mode displayed is the smallest of 2 modes with a count of 3.第十页,共二十一页。11 Extreme Observations-Lowest- -Highest-Value Obs Value Obs 149 2 165 11 150 5 170 7 155 4 1
8、75 10 156 1 176 15 160 12 180 13 Tests for Location: Mu0=0Test -Statistic- -p Value-Students t t 69.18852 Pr |t| = |M| = |S| .0001Quantiles (Definition 5) Quantile Estimate 100% Max 180 99% 180 95% 180 90% 176 75% Q3 170 50% Median 162 25% Q1 156 10% 150 5% 149 1% 149 0% Min 149第十一页,共二十一页。12 Tests f
9、or Normality Test -Statistic- -p Value- Shapiro-Wilk W 0.961232 Pr D 0.1500 Cramer-von Mises W-Sq 0.042367 Pr W-Sq 0.2500 Anderson-Darling A-Sq 0.259036 Pr A-Sq 0.2500Normal(1)当样本量小于2000时,应选用Shapiro-Wilks的W检验。W值愈接近于1,说明该变量愈接近正态分布;(2)当样本量大于2000时,应选用Kolmogorov-Smirnov正态性检验。D值越大,P值越小,说明该变量愈不服从正态分布;D值越小
10、,P值越大,说明该变量愈服从正态分布。Proc univariate data= student normal; var height ;Run;第十二页,共二十一页。13为什么要进行正态检验?正态分布是许多统计方法的理论基础。t检验、方差分析、相关和回归分析等多种统计方法均要求分析的变量服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。如果变量不服从正态分布,那么以正态分布为假设所获得的结论就不可靠。第十三页,共二十一页。14Proc univariate data= student plo
11、t; var height ;Run;获得三个图: 1、茎叶图 2、箱线图 3、正态概率图第十四页,共二十一页。15茎叶图 茎叶图,类似直方图,但又与直方图不同,它的思路是将数组的数按位数进行比较,将数大小基本不变或变化不大的位作为一个主杆(茎),将变化大的位的数作为分枝(叶),列在主杆的后面,这样就可以清楚地看到每个主杆后面的几个数,每个数具体是多少。 第十五页,共二十一页。16 茎叶图有三列数: (1)最左边的一列表示茎,也就是变化不大的位数; (2)中间的是数组中的变化位,它是按照一定的间隔将数组中的每个变化的数一一列出来,象一条枝上抽出的叶子一样,所以人们形象地叫它茎叶图; (3)右边
12、的一列数为统计数,表示该组的单位个数。 Stem Leaf # 18 0 1 17 56 2 17 0 1 16 555 3 16 0002 4 15 56 2 15 0 1 14 9 1 Multiply Stem.Leaf by 10*+1第十六页,共二十一页。17箱线图 箱线图,也称盒须图,由一个箱子(或盒子)和两条线段组成。其绘制的方法是,求出总体的五个数量特征值:极大值、极小值、中位数、上四分位数、下四分位数,连接上四分位数和下四分位数画出箱体,再将两个极值点与箱体相连。 Stem Leaf # Boxplot 18 0 1 | 17 56 2 | 17 0 1 +-+ 16 555
13、 3 | | 16 0002 4 *-+-* 15 56 2 +-+ 15 0 1 | 14 9 1 | -+-+-+-+ Multiply Stem.Leaf by 10*+1第十七页,共二十一页。18 Normal Probability Plot 182.5+ * + | * *+ | *+ | *+*+ | * *+*+ | *+*+ | +*+ 147.5+ +*+ +-+-+-+-+-+-+-+-+-+-+ -2 -1 0 +1 +2纵轴为实测值标度,横轴按标准正态分布U值标度。图中的“+”号标记标准正态u值的参考直线,“*”号标记实际数据点。如果样本来自正态总体,则观测值数据“*
14、”构成的直线与参考直线基本重合,表明观测值数据服从正态分布。正态概率图第十八页,共二十一页。19Proc univariate data= student frep; var height ;Run;生成包括变量值、频数、百分数和累计频数的频率表。第十九页,共二十一页。20本次课上机作业对数据集finance进行如下操作:1、画出股票收益率正态概率图,并判断它是否服从正态分布? 2、剔除股票收益率和市盈率在1%和99%分位数之外的观测值,将结果生成新的数据集(test);3、用Univariate过程对test数据集中的股票收益率进行描述性统计分析,将结果生成新的数据集(stat),要求该数据集包含均值、标准差、中位数、上10分位数和下10分位数等统计量。第二十页,共二十一页。内容总结1。对数据进行t检验和秩和检验。OUTPUT out=SAS-data-set outp
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 雨课件教学课件
- 2024年度教育培训居间服务合同
- 2024年度高空作业安全宣传与推广合同3篇
- 二零二四年度项目融资与贷款合同2篇
- 党建工作重要性课件
- 《手术室制度》课件
- 2024年度版权许可协议:音乐版权转让合同3篇
- 《net监控系统》课件
- 2024版工程居间环保责任合同2篇
- 离职解除劳动合同模板范文
- L07G324钢筋混凝土密肋楼板
- 建设工程造价咨询合同中英文ENCN
- 初一数学课件(共47张PPT)
- 设备备品备件管理规定
- 东华大学游泳理论考试题目及答案
- YY 0569-2005生物安全柜
- 设备检修作业证样本
- GB/T 706-2008热轧型钢
- GB/T 3952-2008电工用铜线坯
- 好书推荐-《一千零一夜》
- juniper防火墙培训(SRX系列)
评论
0/150
提交评论