版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘技术在金融领域的应用武扬金融部门每天的业务都会产生大量数据,利用目前的数据库系统可以有效地实现数据的录入、查询、统 计等功能,但无法发现数据中存在的尖系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数 据背后隐藏的知识的手段,导致了数据爆炸但知识贫乏的现象。与此同时,金融机构的运作必然存在金融 风险,风险管理是每一个金融机构的重要工作。利用数据挖掘技术不但可以从这海量的数据中发现隐藏在 其后的规律,而且可以很好地降低金融机构存在的风险。学习和应用数据挖掘技术对我国的金融机构有重要 意义。1.数据挖掘概述1.1数据挖掘的定义对于数据挖掘,一种比较公认的定义是W.J.Frawley
2、,G.Piatetsk Shapiro等人提出的。数据挖掘 就是从大型数据库的数据中提取人们感兴趣的知识、这些知识是隐含的、事先未知的、潜在有用的信息, 提取的知识表示为概念(Concepts ),规则(Rules )、规律(Regularities )、模式(Patterns)等形式。这 彳定义把数据挖掘的对象定义为数据库。随着数据挖掘技术的不断发展,其应用领域也不断拓广。数据挖掘的对象已不再仅是数据库,也可以是文 件系统,或组织在一起的数据集合,还可以是数据仓库。与此同时,数据挖掘也有了越来越多不同的定义, 但这些定义尽管表达方式不同,其本质都是近似的,概括起来主要是从技术角度和商业角度给
3、出数据挖掘 的定义。从技术角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在的和有用的信息和知识的过程。它是一门广义的交叉 学科,涉及数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信 息检索、高性能计算和数据可视化等多学科领域且本身还在不断发展。目前有许多富有挑战的领域如文本 数据挖掘、Web言息挖掘、空间数据挖掘等。从商业角度看,数据挖掘是一种深层次的商业信息分析技 术。它按照企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的 规律性并进一步将其模型
4、化,从而自动地提取出用以辅助商业决策的相尖商业模式。1.2数据挖掘方法数据挖掘技术是数据库技术、统计技术和人工智能技术发展的产物。从使用的技术角度,主要的数据挖 掘方法包括:1.2.1决策树方法:利用树形结构来表示决策集合,这些决策集合通过对数据集的分类产生规则。国际上最有影响和最早的决策树方法是ID3方法,后来又发展了其它的决策树方法。122规则归纳方法:通过统计方法归纳,提取有价值的if- then规则。规则归纳技术在数据挖掘中被广泛 使用,其中以尖联规则挖掘的研究开展得较为积极和深入。1.2.3神经网络方法:从结构上模拟生物神经网络,以模型和学习规则为基础,建立3种神经网络模型:前馈式网
5、络、反馈式网络和自组织网络。这种方法通过训练来学习的非线性预测模型,可以 完成分类、聚类和特征挖掘等多种数据挖掘任务。1.2.4遗传算法:模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组 成。为了应用遗传算法,需要将数据挖掘任务表达为一种搜索问题,从而发挥遗传算法的优化搜索能力。1.2.5粗糙集(Rough Set)方法:Rough集理论是由波兰数学家Pawlak在八十年代初提出的一种处理模 糊和不精确性问题的新型数学工具。它特别适合于数据简化,数据相尖性的发现,发现数据意义,发现数 据的相似或差别,发现数据模式和数据的近似分类等,近年来已被成功地应用在数据挖掘
6、和知识发现研究 领域中。1.2.6 K2最邻近技术:这种技术通过K个最相近的历史记录的组合来辨别新的记录。这种技术可以作为聚类和偏差分析等挖掘任务。1.2.7可视化技术:将信息模式、数据的尖联或趋势等以直观的图形方式表示,决策者可以通过可视化 技术交互地分析数据尖系。可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。1.3.数据挖掘在金融行业中的应用数据挖掘已经被广泛应用于银行和商业中,有以下的典型应用:1.3.1对目标市场(targeted marketing)客户的分类与聚类。例如,可以将具有相同储蓄和货款偿还 行为的客户分为一组。有效的聚类和协同过滤(collaborat
7、ive filtering)方法有助于识别客户组,以及推动目 标市场。1.3.2客户价值分析。在客户价值分析之前一般先使用客户分类,在实施分类之后根据“二八原则”,找出重点客户,即对给银行创造了 80%价值的20%客户实施最优质的服务。重点客户的发现通常采用一系列数据处理、转换过程、AI人工智能等数据挖掘技术来实现。通过分析客户对金融产品的应用频率、持续性等指标来判别客户的忠诚度;通过对交易数据的详细分分析鉴 别哪些是银行希望保持的客户;通过挖掘找到流失的客户的共同特征,就可以在那些具有相似特征的客户 还未流失之前进行针对性的弥补。1.3.3 客户行为分析。找到重点客户之后,可对其进行客户行为
8、分析,发现客户的行为偏好,为客户贴身定制特色服务。客户行为分析又分为整体行为分析和群体行为分析。整体行为分析用来发现企业现有客 户的行为规律。同时,通过对不同客户群组之间的交叉挖掘分析,可以发现客户群体间的变化规律,并可通过数据仓库的数据清洁与集中过程,将客户对市场的反馈自动输人 到数据仓库中。通过对客户的理解和客户行为规律的发现,企业可以制定相应的市场策略。1.3.4为多维数据分析和数据挖掘设计和构造数据仓库。例如,人们可能希望按月、按地区、按部门、以 及按其他因素查看负债和收入的变化情况,同时希望能提供诸如最大、最小、总和、平均和其他等统计信 息。数据仓库、数据立方体、多特征和发现驱动数据
9、立方体,特征和比较分析,以及孤立点分析等,都会在 金融数据分析和挖掘中发挥重要作用。1.3.5货款偿还预测和客户信用政策分析。有很多因素会对货款偿还效能和客户信用等级计算产生不同程 度的影响。数据挖掘的方法,如特征选择和属性相尖性计算,有助于识别重要的因素,别除非相尖因素。 例如,与货款偿还风险相尖的因素包括货款率、资款期限、负债率、偿还与收入(payment-to -income)比 率、客户收入水平、受教育程度、居住地区、信用历史,等等。而其中偿还与收入比率是主导因素,受教育 水平和负债率则不是。银行可以据此调整货款发放政策,以便将货款发放给那些以前曾被拒绝,但根据尖 键因素分析,其基本信
10、息显示是相对低风险的申请。1.3.6 业务尖联分析。通过尖联分析可找出数据库中隐藏的尖联网,银行存储了大量的客户交易信息, 可对客户的收人水平、消费习惯、购买物种等指标进行挖掘分析,找出客户的潜在需求;通过挖掘对公客户 信息,银行可以作为厂商和消费者之间的中介,与厂商联手,在掌握消费者需求的基础上,发展中间业务, 更好地为客户服务。1.3.7 洗黑钱和其他金融犯罪的侦破。要侦破洗黑钱和其他金融犯罪,重要的一点是要把多个数据库的信 息集成起来,然后采用多种数据分析工具找出异常模式,如在某段时间内,通过某一组人发生大量现金流量 等,再运用数据可视化工具、分类工具、联接工具、孤立点分析工具、序列模式
11、分析工具等,发现可疑线 索,做出进一步的处理。数据挖掘技术可以用来发现数据库中对象演变特征或对象变化趋势,这些信息对 于决策或规划是有用的,金融行业数据的挖掘有助于根据顾客的流量安排工作人员。可以挖掘股票交易数 据,发现可能帮助你制定投资策略的趋势数据。挖掘给企业带来的潜在的投资回报几乎是无止境的。当 然,数据挖掘中得到的模式必须要在现实生活中进行验证。2基于小波分析和支持向量机的指数预测模型小波分析理论是目前科学界和工程界讨 论和研究最多的课题之一,它包含了丰富的数学内容,又具有巨大的应用潜力。小波分析是在Fourier分析 的基础上发展起来的,是调和分析近半个世纪以来的结晶。其基本思想是将
12、一般函数(信号)表示为规范 正交小波基的线性叠加,核心内容是小波变换。由于小波变换在时域和频域具有良好的局部化性质,能自 动调整时、频窗口,以适应实际分析需要,因而已成为许多工程学科应用的有力工具。在进一步介绍小波 分析理论之前,我们先了解一下金融时间序列的概念。支持向量机(support vector machine, SVM )是数据挖掘中的一项新技术,是借助于最优化方法解决 机器学习问题的新工具。它成为克服“维数灾难”和“过学习”等传统困难的有效办法,虽然他还处在飞速 发展的阶段,但它的理论基础和实现途径的基本框架已经形成。支持向量机目前主要用来解决分类问题(模 式识别,判别分析)和回归
13、问题。而股市行为预测通常为预测股市数据的走势和预测股市数据的未来数值。 而当我们将走势看作两种状态(涨、跌),问题便转化为分类问题,而预测股市未来的价格是指为典型的回 归问题。我们有理由相信支持向量机可以对股市进行预测。2.1金融时间序列概况金融市场是国家经济生活的核心,寻找其中的变化规律,进行有有效合理的管理是各国政府及相尖研 究机构孜孜以求的目标之一。同时,人们对金融预测也作了大量的探索,取得了丰硕的成果。典型的金 融预测是时间序列预测。金融市场的数据绝大多数都是时间序列数据,即指这些数据是按照时间的排序取得 的一系列观测值,如股票或期货价格、货币利率、外汇利率等。这些数据具有非常复杂的变
14、化规律,而利 用一定的数学方法对其进行分析和研究将有助于制定更为精确的定价和预测决策,当然对于金融投资与风险 管理活动具有十分重要的意义。金融时间序列分析主要是以统计理论和方法为基础,通过模型假设、参数估 计、回归分析等技术来描述其内在的规律。适当的数学工具和真实的数据使金融时间序列分析成为金融经 济研究中独具魅力的一块领域,例如美国经济学家Engle和英国经济学家Granger就因其提出的ARCI模型 和协整理论而荣获2003年度诺贝尔经济学奖。一般来说,时间序列的分析可以通过时域和频域两个途径进行。但是很多金融时间序列表现出较强的非平稳性和长记忆性,这使得许多传统的单独集中于时域或频域的研
15、究分析方法已经不再适用。而小波分析作为一种新型的信号分析方法,因其在时域和频域都具有表征信号局部特征的能力,被誉为“数学显微镜“,因而它非常适用于分析分平稳信号。小波分析是近20年发展起来的新兴数学分支, 也是目前数学界和工程界讨论最多的话题之一。并且已经在信号和图像处理、模式识别、语音识别、地震勘测等众多学科中得到了广泛应用。相对来说,其在金融时间序列分析和建模中的应用却相对较少。但近年来,小波分析方法在金融时间序列分析中的重要地位已经越来越受到人们的尖注。2.2小波消噪在金融时间序列中的应用金融市场中数据由于各种偶然因素的影响,即使不存在暗箱操作,或没有什么重要新闻、重要政策岀台,也会表现
16、一种小幅的随机波动。这些随机波动可以看成是信号的噪声, 不具有分析和预测的价值,而且这些随机波动往往严重地影响了进一步的分析和处理。因而在做金融事件序列的建模分析之前,往往对数据进行预处理,消除这些噪音。小波消噪的步骤:为了更有效的预测金融市场的未来趋势,我们可以将大幅波动作为有用信号保留,而将小的波动作为噪音消除,先将数据进行预处理之后,再做时间序列的建模分析。假设原始的时间序列So,建模的基本步骤如下:1、 小波分解;选择合适的小波函数和小波分解的层次,计算时间序列So到第N!的小波分解。即首先对含噪音信号S ( k)进行小波变换,得到一组小波系数wf (j,k)根据多分辨率分析理论,分解
17、的层次越高,去掉的低频成份就越多,而低频成份主要代表有用信号。因而分解的层次越高,去噪效果越好,但是相应的失真程度也越大。2、阀值处理;将分解得到的小波系数进行阀值处理来区分信号和噪声。阀值的确定对消噪性能有很大影响,阀值过高会使信号失真,阀值过低又会使得消噪不完全。一般来说,选定阀值可以有以下几种常用准则:(D无偏风险估计准则(rigrsure)即一种基于Stein的无偏似然估计原理的自适应阀值选择方法,对每个阀值求岀对应的风险值,风险最小的即为所选;(2)固定阀值准则(sqtwolog),设n为小波系数向量长度,则设定阀值为Tr . 2log n ; (3)混合阀值准则:用于最优预测变量阀
18、值的选择,它是 rigrsure准则和sqtwolog准则的混合。(4)最小最大 阀值准则(minmax),是根据统计学中的绩效极大估计量而设定的一种固定阀值选择方法。以上四它仅是部分系数銘零,可种阀值准则中rigrsure准则和sqtwolog准则是相对比较保守的准则sqtwolog准备来确定阀值。在我们实证中阀值取的是140。3、小波消噪及重构;一般来说,除了简单的强制消噪方法(该方法直接将小波分解结构中的高频系数路 零),阀值消噪方法可分为默认阀值消噪处理和软(硬)阀值消噪处理两种,后者在实际应用中比前者更具有操作性。通过阀值选择的高频和低频系数及小波逆变变换公式,计算出信号的小波重构,
19、达到消噪的目的。常用的小波变换重构公式为:Sf(j 1,k) S(j,k广h(j,k) Wf(j,k)*g(j,k)其中Sf (j,k)为尺度系数,Wf(j,k)为小波系数,h和g分别为对应于尺度函数和小波函数的低通和高通滤波器。例:东风汽车时间序列消噪的实证分析首先我们对2011年5月至2012年3月共222个交易日的东风汽车收盘价信号进行去噪实验。 原 始的时间序列见下图1。根据上述的理论,对此金融序列进行小波分解,选择小波Daubechies小波系(db4)并确定分解层次为4层,得到4层高半频和4层低半频序列。由于理论上通常认为噪声部分包含 在高频中,因此我们对小波分解的高频系数进行阀值
20、量化处理,其中阀值处理选择sqtwolog阀值估计准则。最后根据小波分解的第4层低频系数和经过量化处理后的1至4层高频系数进行小波分析。以下依次为小波分解后的第 4层低频(图2)和高频第4、第3、第2和第1层信号(图3):HighCM0-0 202c0 1说I10QI120High Frpquwiry CD3160 wc50100120140160180020406050100120140160180200223图3小波分解后的高频第 4.第3、第2和第1层信号提取第4层的低频信号及根据固定阀值处理的高频信号,进行小波重构,得到新的消噪走势如F图4 :图4第4层的低频信号及根据固定阀值处理的高
21、频信号,进行小波重构,得到新的消噪走势2.3支持向量机在金融时间序列中的应用2.3.1支持向量机的原理(理论推导略)持向量机(Support Vector Machine,SVM ) 是 Cortes 和 Vapnik 于 1995 年首先提出的、它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。它是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。所谓vet是对函数类的一种度量,可以简单的理解为问题的复杂程度,vet越高,一个问题就越复杂。而SVME是用来解决这个问题的,它基本不尖乎维数的多少,和样本的维数无尖(有这样的能力也因为引入了核函数)。机器学习本质上就是一种对问题真实模型的逼近,我们选择的模型与问题真实解之间究竟有多大差距,我们无法得知,因此统计学习引入 了泛化误差界的概念,就是指真实风险应该由两部分内容刻画,一是经验风险,代表了分类器在给定样本上的误差;二是置信风险,代表了我们在多大程度上可以信任分类器在未知文本上分类的结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年学生会个人工作计划书样本(二篇)
- 2024年室内设计合同格式范文(二篇)
- 2024年委托理财合同参考样本(三篇)
- 2024年实验室人员管理制度样本(四篇)
- 2024年安全隐患自检自查制度例文(六篇)
- 2024年幼儿园小班下学期教学计划样本(五篇)
- 2024年大学生实习总结例文(三篇)
- 2024年原材料购销合同参考范本(二篇)
- 2024年学校安全工作领导小组工作制度范文(二篇)
- 2024年小学体育教学工作计划范本(二篇)
- 启东市变电站网络信息运维安全教育考试题(含答案)
- 特殊教育支持体系
- 手术安全核查PDCA案例
- 布袋除尘器卸灰操作步骤
- 《病原生物与免疫学》课程标准
- 投资项目法律意见书模板-法律意见书模板
- 2021《外国文学史》题库及答案
- DB63-T 2109-2023 湟水流域水生植物繁育技术规程
- 中药煎药质量评估检查表
- 组态软件技术课程设计报告书
- 北京市城乡居民养老保险发展评估研究报告
评论
0/150
提交评论