SAS复习.doc_第1页
SAS复习.doc_第2页
SAS复习.doc_第3页
SAS复习.doc_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

金融数据挖掘各章主要知识点第一章:1、数据挖掘的定义和数据挖掘的四个基本模块;l 数据挖掘时从海量数据中发掘那些潜在的、鲜为人知的数据规律和数理模式(新的决策有用知识),其目的是在海量数据的基础上发现规律、预测未来的发展趋势。l 四个基本模块u 特征化、比较与关联规则挖掘u 分类与预测u 聚类分析u 序列发现(时间序列的数据挖掘)2、数据挖掘的两种基本类型:描述式挖掘与预测式挖掘;3、将Excel数据集转化为SAS数据集、数据挖掘数据集的具体方法;4、一些重要的SAS函数:计算收益率、正态分布的分布值、二项分布vg 的分布值、Logistic分布的概率值、均匀分布的随机抽样数;收益率:r=log(p)-log(lag1(p)5、SAS数据库编辑中的一些重要命令的使用SAS函数表达式;modify;if then的使用方法;set与merge、drop与keep、or与and的使用与区别;利用sort命令对变量进行排序的方法;a) 打开SAS数据集,点变量名,点,点sort,保存数据集。b) proc sort data=a1;by var1;run;在数据库中生成均匀分布的随机数的SAS命令;6、将一个数据集随机地分成训练样本组、检验样本组的SAS程序;7、VaR的定义,计算VaR时的主要影响因素,利用历史模拟方法计算VaR的SAS程序。l VaR具体含义:在未来24小时内,可以以1-a的把握说,可能发生的银行资产的最大损失不会超过VaR。通常以货币单位计量。也可以用其他单位计量。l 重要影响因素:a) 持有期:可以是一天24小时,也可以更长货更短。持有期的变化将改变函数,从而改变计算得到的VaR值。b) 置信水平a:一般a越小,则计算的VaR越大。对于各金融而言,两者取多少,都有明确的内部与外部规定。第二章:1、在分类模型构建中,预测变量的选取有几种方法;两步法:预测变量的初步选择; 预测变量的进一步选择1检验法;2信号噪音差方法;3 SAS中逐步回归方法。2、T检验方法的基本原理和SAS程序,T检验方法存在的主要缺陷;Proc ttest data=sasuser.bank;Class k;(k分类变量)Run;T检验的缺陷:a) 相对“粗糙”的方法,是通过均值是否存在显著差异进行的间接检验。检验结果容易受到极端值的影响。b) 如果需进一步筛选(需减少指标数,或在相关性强的指标中舍去一些),这种方法不能提供更多信息。3、随机变量的熵的定义和计算方法;定义:随机变量的不确定性。离散型和连续性若P1表示企业违约概率,(1-P1)就是不违约概率I(y)=-P1*logP1-(1-P1)*log(1-P1)4、预测指标的信号比、噪音比的定义和计算方法;指标x的信号比=x发出警报的违约企业数/违约企业总数(越大越有效,接近于1)指标x的噪音比=x发出警报的未违约企业数/未违约企业总数(越小越有效,接近于0)财务指标的预测信息含量=信号比-噪音比n 差越大,预测作用越强。如果是1,每个警报都是信号,没有噪音。且该指标对所有违约公司都能发出警报,这个指标就是罪好的预测变量。n 如果指标无用,信号噪音差接近于0。信号比和噪音比接近0.5。5、相关系数计算的SAS程序;6、判别分析的基本原理,马尔柯夫距离的具体含义和具体表达式,进行判别分析的SAS程序;7、在判别分析中,为什么要假设两个总体具有相同的方差-协方差矩阵?距离差:d=d1-d0在通常情况下,d是一个由变量X1,X5等组成的二次型,计算比较复杂。在SAS系统中,通常假设两个总体具有相同的方差-协方差矩阵,在这种假设条件下,d中各指标的二次项可以相互抵消,这样d是这些指标的一个线性函数。所以,判别分析法通常又称为线性判别分析法。8、Logistic回归和probit过程的原理和SAS程序,逐步回归选择变量的SAS命令;l Logistic回归SAS:Proc logistic descending data=a1;Model k=x1 x5 x6 x12 x13 x16;Run;程序提交运行后,SAS系统的output窗口将给出模型参数的估计结果。从估计结果可以看出模型对训练样本组数据的预测准确状况。Data b1;set a1;Z=(模型的具体表达式);P=1/(1+exp(-Z);Run;l Probit过程SASProc probit data=a1;Class k;Model k=x1 x5 x6 x12 x13 x16;Run;程序提交运行后,SAS系统的output窗口将给出模型参数的估计结果。Data b1;set a1;Z=(模型的具体表达式);P=probnorm(z);Run;l 逐步回归SAS:Proc logistic descending data=a;Model k=x1-x20/selection=stepwise;Run;stepwise反复选择;backward向后,剔除后不再进入;forward向前,进入后不再剔除.9、决策数模型的基本原理,决策数挖掘时需要设置哪些参数,其作用是什么;l 分类原理:n 首先寻找预测信息含量最大的指标作为树根,根据树根处的阈值将全部企业分为两组;n 对每组企业再寻找信息含量最大的指标作为第二层树根,同时继续将企业分组;n 这样分组一直持续,直到a) 分组后的企业满足属于同一类型;b) 以及达到参数确定的限制条件,如最大数深度、每片叶子的最大纯度、每片叶子的最少数据个数,此时,叶子的归属按照少数服从多数的原则给出。10、决策数预测规则的表示方法及应用;11、在分类预测模型构建时,为何需要建立训练样本组和检验样本组。l 问题:在构建分类模型时,通常遇到情况是,模型对训练样本数据存在过度拟合的现象,因此如果利用训练样本数据来判断,就会高估模型的预测准确性。l 解决:a) 在构建模型前,通过随机抽样的方法将数据分为训练样本组、检验样本组;b) 训练样本组数据构建分类模型,检验样本组数据评价模型的预测准确率;c) 如果模型对训练样本组数据、检验样本组数据具有相接近的预测准确率,说明对模型的预测准确率的评价是比较稳健的。第三章:1、利用价格变动相关分析方法来判断统一市场还是分割市场的基本原理,及主要缺陷,为什么是对价格变动而不是直接对价格进行相关分析; 2、组间相关系数与组内相关系数的概念及作用;3、在相关分析中为何、以及如何扣除共同影响因素;4、可以采用用格兰杰因果关系检验两个市场是同一市场还是分割市场的主要理由; 5、用单位根检验或协整检验法判别两个市场是统一市场还是分割市场的基本原理。第四章1、特征化挖掘与比较挖掘有什么共同点个不同点;2、特征化挖掘前对连续型数据进行必要的离散化处理的原因是什么;3、关联规则的一些基本概念:支持度、置信度的定义与计算;频繁规则和强规则的概念;规则体、规则头、规则长度的概念;关联规则的表示方法;4、关联规则挖掘时有哪些重要的参数需要设置,其作用是什么。第五章1、VaR的三类计算方法;l 历史模拟法:假设历史会不断重演,或者说随机变量x的未来分布,会与其历史上的分布相一致。根据x的历史数据的分布情况,来计算需要的VaR值,可以以ln(x/x0)的最近的历史数据的百分之一的分位数来估计VaR。l 参数方法:假设ln(x/x0)服从某种形式的分布,如正态分布、t分布等,根据x的历史数据来估计其中的参数,最后计算得到需要的VaR值。l 蒙特卡罗模拟方法:在一定的假设条件下,利用计算机技术,随机、海量模拟出随机变量的各种可能的取值从而得到随机变量的模拟的分布数据,然后就可以利用历史模拟法得到VaR的估计值。2、在计算VaR时,持有期与置信水平所起的作用;3、在一个数据集中截取相应计算窗口的SAS程序;4、计算变量的均值、标准差并将其输出到外部数据集的SAS程序;5、加权正态法对正态方法的主要改进及理由;由于金融资产的收益率时间序列中,通常存在“厚尾”现象,因此普通正态假设下的VaR预测模型,通常存在低估风险的倾向。用加权正态法代替普通正态法,在估计分布函数的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论