第2章数学基础和sas软件基础课件_第1页
第2章数学基础和sas软件基础课件_第2页
第2章数学基础和sas软件基础课件_第3页
第2章数学基础和sas软件基础课件_第4页
第2章数学基础和sas软件基础课件_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章.数学基础和SAS软件基础2.1统计学与概率论基础知识

1.随机变量随机变量的含义离散型连续型密度函数分布函数随机变量在某个区间[]上的取值的概率也可以表示为。

第二章.数学基础和SAS软件基础

2.随机变量的数值特征期望值常用表示期望值的概念

方差标准差第二章.数学基础和SAS软件基础

协方差:测算两个随机变量之间相互关系的统计指标

相关系数

a.完全正相关

b.完全负相关c.完全不相关

第二章.数学基础和SAS软件基础

偏度:衡量随机变量的概率分布围绕其均值是否对称,公式定义为正偏态:负偏态:偏度系数:

峰度:反映的是随机变量概率密度函数尾部的厚尾(或称为宽度)的统计量,通常用于判断某个随机变量是否服从正态分布

第二章.数学基础和SAS软件基础

峰度系数:

若随机变量服从正态分布,则峰度近似等于3.若峰度显著大于3,则概率分布的尾部要比正态分布的尾部厚,分布密度曲线在距均值较远地方位于正态分布曲线的上方,称为尖峰厚尾现象

第二章.数学基础和SAS软件基础3.概率分布

正态分布记作:密度函数:的正态分布称为标准正态分布,记作累计概率分布函数:

正态分布

第二章.数学基础和SAS软件基础若随机变量服从均值为、标准差为的正态分布,则其值在区间内的概率为95%。即:

一般正态分布的接收域和拒绝域第二章.数学基础和SAS软件基础

分布:

若,则

下标k为的自由度,分布只取正值,并且是偏斜分布。偏度取决于自由度的大小,自由度越小越右偏,随着自由度的增多,分布逐渐对称,接近正态分布。当N无限大时,近似存在:

分布随自由度的变化情况

第二章.数学基础和SAS软件基础

t分布:若Z是一个变量,而变量X独立于Z,且X服从自由度为k的分布,则服从自由度为k的t分布对称性期望值为0方差为t分布的尾部比正态分布的尾部更厚自由度较大时,t分布趋从于标准正态分布第二章.数学基础和SAS软件基础

F分布:若两个服从分布的随机变量相互独立,其自由度分别为和,则服从自由度为的t分布。不同自由度的F分布密度函数

第二章.数学基础和SAS软件基础

二项式分布:如果进行n次贝努里试验,取得成功次数为的概率可用下面的二项分布概率公式来描述

n为独立的贝努里试验次数,为成功的概率,(1-)为失败的概率,X为在次贝努里试验中出现成功的次数,表示在n次试验中X出现的各种组合情况,在此称为二项系数。记为:

第二章.数学基础和SAS软件基础2.2SAS软件基础1.常用金融计量软件网址

软件名称网址SASSPSSEviewsMatlabSPLUSStatisticaStata.com第二章.数学基础和SAS软件基础2.SAS简介模块:BASESAS为基本模块SAS的系统核心SAS/ETSSAS/GRAPHSAS/QCSAS/ETSSAS/FSPSAS/AF等特点:统计功能强大简捷具有功能强大的宏功能将数据处理与统计分析融为一体适应性强应用面广3.SAS中的几个基本概念窗口和文件类型:编辑器工作日志输出数据浏览器结果窗口第二章.数学基础和SAS软件基础

逻辑库:将电脑硬盘中的“f:\fe”目录定义为SAS中的逻辑库“data”.libnamedata‘f:\fe’;SAS数据文件的命名方式临时性文件:一级文件名datareturn;永久性文件:两极文件名Datadata.size长方形的SAS数据结构:SAS的基本要素有观测、变量、变量值变量名,建议数据文件整理成长方形结构,更易于数据的处理和分析SAS程序的可控分段运行:

将需要运行的程序段选黑,然后点击运行按钮第二章.数学基础和SAS软件基础

如图:分段执行SAS程序“运行”命令按钮第二章.数学基础和SAS软件基础

日志文件中的信息阅读:原数据文件出错的程序

datadata.p;infile'f:\fe\chap2-2-1p.csv'delimiter=','MISSOVERDSDlrecl=32767;inputdate$p;

run;/*此段程序的文件名有误,系统将报错,请在执行此段程序后观察日志文件*/

在这段程序运行后,在日志文件中出现这样的信息:

ERROR:物理文件f:\fe\chap2-2-1p.csv不存在。NOTE:SAS系统由于错误而停止了该步的处理。WARNING:数据集DATA.P可能不完整。该步停止时,共有0个观测和2个变量。NOTE:“DATA语句”所用时间(总处理时间):实际时间0.04秒CPU时间0.01秒第二章.数学基础和SAS软件基础根据错误进行修改后再次执行,得到下面日志信息

NOTE:从Infile‘f:\fe\chap2-2-1p.csv’中读取了403条记录。最小记录长度是10。最大记录长度是14。NOTE:数据集DATA.P有403个观测和2个变量。NOTE:“DATA语句”所用时间(总处理时间):实际时间0.10秒CPU时间0.00秒

数据文件的浏览和直接编辑:双击文件,则可以打开数据文件浏览

4.SAS语句:

由SAS关键词、用户提供信息构成,SAS语句以分号(;)结束,如:inputxy;第二章.数学基础和SAS软件基础5.SAS中的data步和proc步data步:将外部数据转化为SAS数据文件对原SAS文件进行修改,包括长生新变量、选择观测和选择变量合并两个或多个已有的数据集合,产生新的数据集将SAS数据集转化为外部数据例:将外部数据‘f:\fe\chap2-2-1p.csv’转化为SAS数据文件,该数据文件在逻辑库data中,根据”libname”语句的定义,逻辑库data和电脑文件目录‘f:\fe’是对应的libnamedata'f:\fe';datadata.p;infile'f:\fe\chap2-2-1p.csv'delimiter=','MISSOVERDSDlrecl=32767;inputdate$p;

run;第二章.数学基础和SAS软件基础产生一个新的数据文件data.r,根据原始价格计算对数收益率r,剔出不需要的变量和观测。lag函数是取一阶时滞函数,lag(p)表示上一期的价格。由于第一个观测(即2006年1月4日这个观测)没有上一期的数值,SAS系统对这个观测的r给出了空值“.”。在数据处理上,可以将这个观测剔除。

datadata.r;setdata.p;r=log(p)-log(lag(p));/*addavariable*/keepdater;/*choosevariables*/ifr=.thendelete;/*chooseobservations*/run;datadata.rm;setdata.index;rm=log(index)-log(lag(index));/*addavariable*/dropindex;/*choosevariables*/ifrm=.thendelete;/*chooseobservations*/run;

第二章.数学基础和SAS软件基础将两个数据data.r和data.rm按照时间进行合并,由merge语句来完成,by变量date的功能是将两个原数据文件中date相同的观测合并到新数据data.co中的同一观测中。

datadata.co;mergedata.rmdata.r;bydate;/*byvariables*/run;

SAS内部数据也可输出为外部数据

data_null_;setdata.co;file'f:\fe\co.txt';putdater1rm;run;第二章.数学基础和SAS软件基础

proc步:对已有数据文件进行统计分析,并输出结果,最常见的是排序、打印和求单变量的统计量等下面对文件data.co执行排序,排序的关键变量为dateProcsortdata=data.co;bydate;Run;

SAS程序包括:(1)将外部数据集合变成SAS数据集;(2)执行data步,对于数据集进行一定的变换、删除等预处理,将同一时间、同一对象的自变量和应变量放入到同一个观测中。(3)执行proc步(回归、时间序列等),生成结果;(4)对结果进行分析,提取有用信息,形成最后的报表。

第二章.数学基础和SAS软件基础6.主要BASESAS程序

排序过程sort:将数据按照一个或者多个变量排序,排序后的数据替代原数据,例如将数据return按照date和code排序

procsortdata=return;bydatecode;/*第一排序变量date,第二排序变量code*/run;反向排序变量后加入“descending”选项procsortdata=return;bydatedescendingcode;run;将排序后的数据写入新数据集合

procsortdata=returnout=return1;bydatedescendingcode;run;第二章.数学基础和SAS软件基础

单变量过程UNIVARIATE:对上例中变量rm画直方图,并填充颜色。在左上角插入正态性检验结果,添加拟合曲线,在右上角加入均值和标准差的图标。

procunivariatedata=demo.rm;varrm;histogramrm/cfill=ltgraynormal(color=yelloww=3percents=20406080midpercents);insetmeanstd="StdDev"/pos=neformat=6.3cfill=ywh;insetnnormal(ksdpval)/pos=nwformat=6.3;run;

输出结果如下:

rm的直方图和拟合曲线的输出结果

第二章.数学基础和SAS软件基础在上面的收益率数据中,需要按月输出日收益率的均值,标准差和t统计量(均值=0)。程序如下:datadata.rm_month;setdata.rm;month=substr(date,1,6);run;procunivariatedata=data.rm_month;varrm;bymonth;outputout=data.rm_statmean=rm_meanstd=rm_stdt=test;run;相关性过程CORR:计算变量的描述性统计量和两个变量之间的Pearson相关系数。也可以计算三个非参数相关系数,秩序相关系数,偏相关系数和Cronbach系数alpha.第二章.数学基础和SAS软件基础

例:计算股票和指数的收益率的相关性

Odshtml;proccorrdata=data.cooutp=data.corr_stat;/*定义了输入数据集和结果输出数据集*/VARrmr1;run;odshtmlclose;结果输出:CORR过程的运行结果简单统计量变量N均值标准偏差总和最小值最大值rm4020.004060.018631.63067-0.099490.06039r14020.004870.030691.95964-0.104620.20122Pearson相关系数,N=402当H0:Rho=0时,Prob>|r|

Rmr1

rm1.000000.65666<.0001

r10.65666<.00011.00000

第二章.数学基础和SAS软件基础秩序过程RANK:对数据集中的原变量进行秩序分析,并据需求产生一个新的秩序变量,该变量把数值从小到大排序,给最小值赋予1,给第二小值赋予2,直到最大值n。

rank语句以“procrank”引导,并跟随ranks、var和by三个一般语句。var语句后跟随的变量(var变量)通常是原变量ranks语句后则跟随导出数据集中的秩序变量例:sashelp.class数据为班级学生的性别、身高和体重。下面先按性别分组,对男生和女生的身高产生秩序变量rank_height,得rank1;然后再按照性别和rank_height分组,得到体重的秩序变量rank_weightprocsortdata=sashelp.class;bysexheight;run;procrankdata=sashelp.classout=rank1groups=2;ranksrank_height;varheight;bysex;run;第二章.数学基础和SAS软件基础procsortdata=rank1;bysexrank_height;run;procrankdata=rank1out=rank2groups=3;ranksrank_weight;varweight;bysexrank_height;run;例:数据data.u中包含了A-H两地上市公司股票的A股市场的每月平均溢价率数据。希望对每月根据溢价率大小将股票分为等分的五组

procrankdata=data.uout=data.urankgroups=5;/*定义输入数据和输出数据以及分组个数*/ranksrk;/*产生的新秩序变量*/varu;/*原变量*/bymth;/*分组变量*/run;第二章.数学基础和SAS软件基础分组前后的数据集分别为:溢价率数据集秩序过程产生的新数据集data.urank第二章.数学基础和SAS软件基础非参数检验NPAR1WAY过程:基于Wilcoxon得分的简单线性秩统计量可用于检验一个变量的分布在不同的组中是否具有相同的位置参数。主语句以“procnpar1waywilcoxon”引导,并跟随by、class、var三个一般语句。例:procsortdata=sashelp.class;byage;procnpar1waywilcoxondata=sashelp.class;byage;classsex;varheightweight;outputout=npar1way;data_null_;setnpar1way;file"c:\npar1way.csv"delimiter=',';putage_var_z_wilp2_wilpt2_wil_kw_p_kw;run;第二章.数学基础和SAS软件基础画图过程GPLOT和GCHART:下面三个程序分别绘制了收益率的折线图、直方图和饼状图

procgplotdata=data.co;/*绘制折线图*/symboli=join;plotrm*date/vref=0;run;procgchartdata=data.co;/*绘制直方图*/vbarr;run;procgchartdata=data.co;/*绘制饼状图*/pier/type=percent;run;输出结果分别是:第二章.数学基础和SAS软件基础

第二章.数学基础和SAS软件基础2.3SAS宏功能基础:核心就是通过对文字或程序段进行迭代,简化程序

1.宏变量:用于迭代文字或程序段内容的变量介绍最简单的迭代:%letCity1=Shanghai;%letCity2=Beijing;%put&City1;%putCity1;%put&City1&City2City1City2"&City1"'&City1';在这段程序中,宏变量City1和City2分别在前两个语句中被赋值,而第三个语句中,%put用于显示宏变量City1所代替的内容。其中,宏变量City1前的&符号表示对宏变量的引用。执行前三句程序后日志中将显示Shanghai的字样。执行第四个语句,日志中出现的是City1,而不是Shanghai。最后一个语句请自行尝试,可以看到单引号和双引号对于宏变量的作用是完全不同的。第二章.数学基础和SAS软件基础在宏定义语句中,等号后所出现的文字或程序段最前面和最后面的连续空格将被程序自动的剔除。下面的三个语句完全等价:%letCity1=Shanghai;%letCity1=Shanghai;%letCity1=Shanghai;因此,若需对以空格开头或结尾的文字进行引用,则需用到函数%str()%letCity1=%str(Shanghai);%putIlove&City;得到的是IloveShanghai,其中love和Shanghai中的空格来自于宏变量City1的第一个字符。如果在宏变量后直接相连文字,则SAS对其解析就将遇到麻烦:如&City1Daily,系统会将City1Daily视作另一个宏变量的名字,而不会将其视作宏变量City1后紧跟Daily。SAS程序规定用一个句点“.”将宏变量与其后所紧跟的字符分开。因此,正确的表达为:&City1.Daily。而若想用宏表达一个二级文件名Shanghai.Daily,则需要用两个句点:&City1..Daily。第二章.数学基础和SAS软件基础如果%和&出现,则需要用函数%nrstr()进行宏变量的定义;而%str()中如果出现不对称引号则需要在前面加上一个%。%letaa=%str(Shanghai%'s);%letbb=%nrstr(%put);%letcc=&aa;%letdd=%nrstr(%aa);%put&bb&cc;%put&bbⅆ%Eval()对整形的数字字符进行运算,且运算结果将被截为整数。%Sysevalf()不仅能对浮点的数字字符进行运算,还可以对运算结果的格式进行调整。请自行尝试下面这段程序:第二章.数学基础和SAS软件基础%leta=%eval(5/3);%letb=%eval(10.0+20.0);/*INCORRECT*/%letc=%sysevalf(5/3);%letd=%sysevalf(10.0+20.0);%lete=2.5+3;%put%sysevalf(&e,boolean);%put%sysevalf(&e,integer);%put%sysevalf(&e,ceil);%put%sysevalf(&e,floor);%put&eequals%sysevalf(&e);下面介绍对宏变量的二次及多次引用。在下面的程序中,以宏变量n代表数字1,而以宏变量var代表字符City,执行最后三个语句的结果是相同的。两个相连的连字符&&的含义为:先解析后面的部分,并将解析的结果作为一个宏变量名的整体。第二章.数学基础和SAS软件基础%letCity1=Shanghai;%letCity2=Beijing;%letn=1;%letvar=city;%put&City1;%put&&City&n;%put&&&var&n;2.宏程序和宏函数:以%macro语句来实现,区别在于%macro语句是否包含参数。如果%macro语句包含参数,则为一个宏程序;否则为一个宏函数,需要用户输入参数或变量。一段完整的%macro语句包括定义宏和调用宏两个阶段。定义宏的格式为:%macroMAC<(参数1,参数2,…)>;……%mendMAC;第二章.数学基础和SAS软件基础

其中,MAC为用户自定义的宏参数名。而在调用宏的过程中,只需在宏前面加上百分号%,如:“%MAC;”。在下例中,名为fund的宏中包含code1、code2、maturity和scales四个参数。首先定义数据集data1_&code1,然后定义了数据集data2_&code1,并将其与data1_&code1合并为data_&code1。%macrofund(code1,code2,maturity,scale);datadata1_&code1;infile"D:\fund\data\data1\%str(&code1).%str(&code2).csv"delimiter=","dsdmissover\lrecl=32767firstobs=2;inputcodename$datephslnv;date=mdy(substr(date,9,2),substr(date,11,2),substr(date,5,4));formatdateyymmdd10.;t=mdy(substr(&maturity,9,2),substr(&maturity,11,2),substr(&maturity,5,4))-date;第二章.数学基础和SAS软件基础

scale=&scale/100000000;dis=-log(p/nv);lag_dis=lag(dis);keepcodenamedatedishsltscalelag_dis;run;datadata2_&code1;infile"d:\fund\data\data2\%str(&code1).%str(&code2).csv"delimiter=","dsdmissoverlrecl=32767firstobs=2;inputcodename$datenv;date=mdy(substr(date,9,2),substr(date,11,2),substr(date,5,4));formatdateyymmdd10.;r=log(nv)-log(lag(nv));lag_r=lag(r);keepcodenamedaterlag_r;run;datadata_&code1;mergedata1_&code1data2_&code1;bycodenamedate;ifdate<='18oct2002'dthendelete;run;%mend;第二章.数学基础和SAS软件基础下面的程序则可以将一个含有四个字段、上百个基金基础信息的数据表转化为上百行的宏调用程序%fund(…)。data

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论