版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
金融市场的数据挖掘教材:数据采掘入门与应用张尧庭编中国统计出版社参考教材:
1、数据挖掘——概念与技术
jiaweiHan著,范明译机械工业出版社
2、多元统计数据分析——理论、方法、实例任若恩著国防工业出版社配套应用软件:
1、Intelligentminerfordata2、SAS
第一章:概论
一、何为数据挖掘(datamining)现代信息社会的特征:信息(数据)泛滥、知识缺乏,如何从海量数据(广义的概念)中挖掘出决策有用信息?
数据挖掘是结合现代数学、统计学,机器学习、人工智能、数据库管理、计算机图形学、软件工程等各领域的技术和知识,1990年代在西方国家出现的一种高新技术——从海量数据中挖掘出决策有用信息的技术。
1990年代末,在对100名美国著名科学家的问卷调查中,数据挖掘被列为21世纪对人类发展影响最大、最有前途的10大技术的第三位。
我国对数据挖掘技术的重视(开发与应用)
1、863、963项目;
2、国家及省重点科学领域;
3、国家统计局在全国组织数据挖掘培训(2000);
4、企业特别是银行对数据挖掘技术的重视;
5、人民大学数据挖掘研究与应用中心。
海量数据——沙漠,隐含的知识——金子,数据挖掘——从沙漠中挖掘金子的技术。
二、不同学科对数据挖掘技术的研究与开发
1、理论研究——各种数据挖掘技术的理论基础、理论依据研究,从数学、统计学、人工智能、计算机图形学等不同领域;
2、挖掘技术研究,从统计学、人工智能、机器学习、计算机图形学、软件工程等领域;3、数据管理策略研究,从数据库管理技术等领域;
4、数据挖掘技术的应用研究,其中数据挖掘技术在金融领域的应用是一个重要方面。三、几种相对比较成熟的数据挖掘技术
数据挖掘是一门新兴的、正在不断发展中的技术,近年来,几类十分重要、且相对比较成熟的数据挖掘技术是:
1、分类与预测
2、特征化、比较与关联规则挖掘
3、聚类分析
4、序列发现
本课程主要内容:几类数据挖掘技术的基本原理、数据挖掘方法、及这些挖掘技术在金融领域的应用。
2、预测
预测是指对连续性变量的取值进行预测,如:*某个借款人的违约概率是多少
*银行资产组合明天在99%置信度下的最大损失(VaR)有多大
*如果某开放式基金因面临巨额赎回申请而不得不大量抛售某种证券,这种证券的价格会下跌多少分类——对离散型变量进行预测预测——对连续型变量进行预测
二、分类案例教学——
上市公司财务困境预测模型构建
1、要求:
将因财务状况异常而被特别处理的ST公司界定为财务困境公司、非ST公司界定为财务正常公司,利用上市公司的财务报表数据,建立上市公司财务困境预测模型(提前一年预测,即用第t-2年的数据预测企业在第t年是否会陷入财务困境)。分类变量y的取值y=0如果公司为财务困境公司y=1如果公司为财务正常公司
5、研究所需数据
①、预测变量选取——实践经验、其他文献使用的预测变量、采用技术手段(统计技术、数据挖掘技术)选取预测变量、在一定理论指导下构造新的预测变量;②、样本数据的结构形式
③、采集样本数据时应注意的问题
*尽量采用跨年度数据*需要删除的数据
*尽量不采用配对抽样
④、随机构造的训练样本组与检验样本组(过度拟合现象)
⑤、本案例的数据说明(sj0):
*1995年底前上市的公司;*删除其他原因被特别处理的公司;*数据跨期1996-2001,分别预测1998-2003;*删除在预测年度已陷入财务困境的公司;*共有非ST公司数据1008个,ST公司数据111个;*采用的6个预测变量为(第一种方法):
总负债/总资产、主营业务收入/总资产、总利润/总资产、(货币资金+短期投资净额)/流动资产、留存盈余/总资产、总资产的自然对数。
⑥、随机抽样构造训练样本组、检验样本组的SAS方法:*将EXCEL数据库转为SAS数据库;
*
SAS随机数函数——uniform(seed),随机种子数seed取奇数,产生[0,1]区间上的一个随机数*随机建立训练样本组、检验样本组的SAS程序#dataa;setsasuser.sj0;k=uniform(15);run;#对已进行k排序的数据库adatab;seta;m=int(_n_/2);run;(sj1,sj2)二、构造分类预测模型的方法1、判别分析法
①、判别分析方法的统计学原理假设有两个总体——财务困境公司与财务正常公司,每个总体都可以用一个六维随机变量表示,不同的总体分布不同。预测上市公司是否会陷入财务困境,就是判断这个公司所对应的样本属于哪个总体。判别分析是利用距离(相似程度的体现)来判断样本的归属。较常用的距离度量是马氏距离:,判别分析实际上是利用距离差:为判断指标来判断样本的归属。由于马氏距离为一个二次型,因此当时,距离差也会一个二次型,这样在计算时较复杂,如果,且两个总体均服从正态分布,则距离差为一个线性函数(线性判别函数),可利用这个线性函数建立预测规则。
②、判别分析的SAS程序:procdiscrimdata=sasuser.sj1;classy;run;③、SAS结果
对两个距离的说明。现在可以得到线行判别函数为:
⑦、讨论
*判别分析只能运用于离散型因变量预测,而不能运用于连续型因变量预测;*建立线性判别准则,需要较强的限制条件——正态分布与等协方差矩阵;*临界值的确定需考虑不同误判的损失函数,考虑使用者的风险偏好;*使用判别分析方法,需要事先确定预测变量。*也可以建立另外形式的预测规则。
练习:交换sj1与sj2的地位,建立预测规则,并进行预测准确率检验。或建立其他问题的判别分析预测模型。
2、Logistic回归预测
①、统计学原理计量经济学中,回归模型具有预测功能,但现在的数据结构为:,因变量为离散变量(虚拟变量),一般的线性回归模型不适用。
Logistic回归模型实际上是概率预测模型,其原理如下:
建立如下形式的线性模型:
则得到概率预测模型
⑤、预测准确率检验训练样本组检验样本组ST公司46/56=82.1%44/55=80%非ST公司433/504=85.9%425/504=84.3%⑥、讨论*模型可用于分类预测,也可用于概率预测(如违约率预测);*构建模型时应该避免非随机抽样,否则模型参数估计会产生偏差,特别是在构建概率预测模型时;*如果需要采用分层抽样方法,则对参数估计方法应进行调整;*事先确定预测变量,否则的话,可以采用逐步回归法。
⑦、逐步回归方法与预测变量选取预测变量选取是建立分类预测模型的关键步骤。经常的情况是,知道预测变量的大致范围,但不知哪些变量具有较大的信息含量。利用逐步回归方法,可以在这个范围内挑选出较佳的构建Logistic回归模型的预测变量组。现在,另外选取了15个可能有用的预测指标y1-y15,对1119家上市公司利用逐步回归法建立预测模型。
⑧、逐步回归的SAS程序
proclogisticdescendingdata=sasuser.sj00;modely=y1-y15/selection=stepwise;run;
⑨、SAS结果构建Logistic回归模型的变量为:y3、y4、y5、y6、y10、y11、y12、y13、y14;
⑩、预测规则与预测准确率预测规则:P>0.09,一年后上市公司将陷入财务困境;P<0.09,一年后上市公司不会陷入财务困境。预测准确率ST公司:92/111=82.9%;非ST公司:864/1008=85.71%.
3、Probir回归预测
数据结构为:,因变量为离散变量(虚拟变量),一般的线性回归模型不适用。
Probit建立如下形式的回归模型:
Probit回归同样通过最大似然估计来估计模型参数。
Probit回归的SAS程序
procprobitdata=sasuser.sj1;classy;(注意Logistic程序中没有这一项)modely=x1-x6;run;经计算得到:
预测规则:
P>0.1一年后上市公司将陷入财务困境,或者就不会陷入财务困境。预测准确率:训练样本组检验样本组
St公司:46/56=82.146/55=83.6
非St公司:428/504=84.9419/504=83.1
4、决策树方法与前面讨论的几种分类预测方法相比,决策树方法是一种近年来才出现的分类预测方法,其基本原理如下。①、熵与信息
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基于2025年度市场调研数据之分析报告保密协议2篇
- 二零二五年度工厂搬迁及设施重建合同3篇
- 2024网络安全保障服务外包合同
- 2025年度抵押借款房屋租赁期满续约合同示范4篇
- 二零二五版校企合作实习实训基地安全教育与保障协议3篇
- 2025年销售渠道拓展劳动合同标准范本3篇
- 2025年度个人买卖房屋交易税费结算及支付合同4篇
- 2025年度美容院连锁经营合作协议范本3篇
- 长沙航空职业技术学院《童话名篇研读》2023-2024学年第一学期期末试卷
- 个人二手物品交易平台服务协议(2024版)3篇
- 2024年采购代发货合作协议范本
- 工业自动化设备维护保养指南
- 《向心力》参考课件4
- 2024至2030年中国膨润土行业投资战略分析及发展前景研究报告
- 【地理】地图的选择和应用(分层练) 2024-2025学年七年级地理上册同步备课系列(人教版)
- (正式版)CB∕T 4552-2024 船舶行业企业安全生产文件编制和管理规定
- JBT 14588-2023 激光加工镜头 (正式版)
- 2024年四川省成都市树德实验中学物理八年级下册期末质量检测试题含解析
- 廉洁应征承诺书
- 2023年四川省成都市中考物理试卷真题(含答案)
- 泵车述职报告
评论
0/150
提交评论