金融领域时间序列挖掘技术研究_第1页
金融领域时间序列挖掘技术研究_第2页
金融领域时间序列挖掘技术研究_第3页
金融领域时间序列挖掘技术研究_第4页
金融领域时间序列挖掘技术研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、金融范畴时间序列开掘技能研究摘要数据开掘技能比年来被普及用于时间序列阐发,时间序列开掘技能重要包罗关联阐发、序列阐发、分类阐发、聚类阐发和非常检测等五类。由于金融范畴的时间序列具有一些紧张的特性,因此将种种开掘要领与金融时间序列的特性,以及种种传统的时间序列阐发模子相结合,是如今金融时间序列开掘范畴的研究热门。关键词时间序列;金融;数据开掘一、弁言在金融范畴,时间序列是一种紧张的数据范例,对时间序列的阐发是金融数据阐发的一个紧张内容。作为数理统计学的一个分支,时间序列阐发自1960年代起就已经得到了普及的研究。传统的金融时间序列阐发要领重要包罗基天职析、技能阐发以及种种数理统计学要领等。随着比

2、年来数据范围的不竭增长以及阐发使命的日益庞大,数据开掘技能开始被运用到金融时间序列的阐发中。所谓数据开掘是指从大范围的数据中抽取隐含、未知、有埋伏利用代价的规矩的历程。作为一门交织学科,数据开掘集成了很多学科中成熟的东西和技能,包罗数据库技能、统计学、呆板学习以及人工智能等。广义地说,全部从海量数据中创造新的纪律的要领都可以统称为数据开掘技能。本文在对传统的金融时间序列阐发要领举行简朴回首的底子上,对当前重要的金融时间序列开掘技能举行综述,并指出相干要领的优缺点和必要进一步研究的题目,为该范畴的进一步研究提供基矗二、金融时间序列传统阐发要领基天职析与技能阐发是最常见的阐发要领,重要用于证券与期

3、货市场中的时间序列阐发。基天职析重要通过对影响证券市场供求干系的根本因素举行阐发,从而断定股票代价的走势。技能阐发那么通过对汗青数据举行一些简朴的盘算,得到相干的技能指标和图表,从而断定序列将来的变革趋势。另一类重要的金融时间序列阐发要领是数理统计要领,这类要领重要包罗种种统计特性的查验阐发、相干阐发、线性非线性回归阐发、自回归挪动均匀(ARA)阐发以及分形阐发等,别的,种种多元阐发要领也被普及用于金融时间序列阐发,如鉴别阐发、主身分阐发以及因子阐发等。限于篇幅,本文不再详细讨论这些要领。三、时间序列开掘要领比年来数据开掘技能在时间序列阐发范畴开始得到普及的研究与应用,已有大量的文献提出了种种

4、时间序列开掘算法。必要指出的是,固然这些文献本质上属于对通用的底子算法举行研究,并不是专门针对金融范畴的时间序列,然而此中很多要领都是以金融时间序列为例,来说明算法的有用性、正确度或性能,因此这些算法也在金融范畴得到了应用。时间序列开掘要领重要包罗以下几个方面。1关联阐发与序列阐发关联阐发与序列阐发的目的都是创造数据间的种种相干接洽,差异的是,关联阐发用于创造同一时间段内的种种接洽,而序列阐发用于创造在时间上具有先后干系的接洽。利用关联与序列阐发要领,可以或许创造同一序列的前后变革或差异序列变革间的庞大干系。由于传统的关联与序列开掘算法重要实用于标记型数据,因此在对数值型金融时间序列举行关联与

5、序列阐发时一样平常必要先对序列举行标记化。将序列分别为多个子序列,按照子序列的外形举行聚类并标记化,在此底子上接纳序列开掘算法创造标记间的规矩。多个股票在差异时段的涨跌干系转换为具有双时间维束缚的关联规矩模子,并提出相干的开掘算法,用于开掘“当某几种资产的收益率变更凌驾必然幅度时,哪些资产会在同时(或隔断一段时间后)有同样(或相反)的表示这类庞大的规矩。一种基于“紧张点的要领将时间序列逐段标记化,并提出了一种基于互关联后继树模子的时间序列关联规矩创造算法。2相似性查寻相似性查寻是时间序列开掘范畴的一个紧张研究标的目的。所谓相似性查寻是指对付给定的目的序列Q,按照某种相似性度量函数,探求与Q最相

6、似的序列Qk。时间序列的相似性查寻分为全序列匹配和子序列匹配两大类,全序列匹配是指所查寻的序列与目的序列Q具有雷同的长度;子序列匹配那么是指在一个更长的序列中,探求与目的序列Q相似的全部子序列。相似性查寻在金融范畴典范的应用是,按照图形上的相似性,探求与某种资产的代价(或收益率)变更环境比力靠近的其他资产。由于金融时间序列一样平常都超过较长的时间段,理论上乃至具有无穷长度,因此这类数据都表示出高维乃至是超高维的特性。由于大多数相似性度量函数(如欧氏间隔函数)在处置惩罚高维数据时性能都急剧落落,因此对付这类数据,一样平常先接纳某种要领对序列举行维约简,马上原始序列变更到低维空间,在此底子上再比力

7、序列间的相似性。常见的时间序列维约简要领包罗离散傅立叶变更、离散小波变更、逐段线性形貌等。除了维约简要领,相似性度量函数也是这一题目的研究热门。3聚类阐发聚类阐发的目的是把整个目的数据分成多个差异的簇,使得每个簇中的数据尽大概相似,而差异簇中的数据具有显着的差异。在金融范畴,聚类阐发对付板块研究、投资组合模子的构建以及客户生意业务形式研究等都有着紧张的意义。由于时间序列的聚类阐发同样必要举行序列间的相似性度量,因此与相似性查寻雷同,在聚类阐发之前一样平常先对序列举行维约简。利用离散傅立叶变更对序列举行维约简,在此底子上利用欧氏间隔举行聚类,与此雷同,研究了基于离散小波变更和主身分阐发的时间序列

8、维约简以及聚类,对基于线性模子的聚类要领举行了研究。研究了基于隐马尔可夫模子(H)的时间序列聚类,将H和盼望最大要领相结合,从而进步了聚类结果的正确性。针对由于时间序列中常常存在非常数据,提出将原始序列按照中位数转化为二元时间序列,在此底子上举行聚类,从而淘汰非常数据的影响。试验结果表白,当序列中存在非常数据时,该要领可以或许有用地进步聚类结果的正确性。4支解与逐段形貌时间序列的支解与逐段形貌是指对长度为n的序列Q,将其分为k段(kn),对各段别离利用某种模子举行形貌并记为Q,使得Q与Q非常靠近。对时间序列举行支解与逐段形貌的重要缘故原由有两个方面:第一,时间序列每每超过较长的时间段,某些序列

9、在理论上乃至具有无穷长度,在此期间数据的很多特性都大概产生变革,对如许的数据用一个单一的模子来形貌是不符合的;第二,时间序列在演化的历程中,由于受到种种因素的影响,每每具有庞大的局部特性,利用一些简朴的模子(如线性模子)对序列举行逐段形貌,抛弃一些细节变革信息,对付某些开掘使命来说更符合。由于金融时间序列常常受到浩繁非线性因素的影响,而且随着时间的推移,种种因素的影响结果也不竭变革,因此金融时间序列每每出现出庞大多变的形态特性。对金融时间序列举行支解并逐段形貌,对很多开掘使命而言更成心义。最常用的时间序列支解要领是利用线性模子对序列举行支解与逐段形貌,称为逐段线性形貌,对这类支解要领举行了详细

10、的先容。一种基于隐马尔可夫模子的联机时间序列支解算法,按照概率密度函数的变革对序列举行支解。5非常检测非常检测是时间序列开掘中的一个紧张方面。所谓非常是指数据会合显着差异凡响的数据,使人猜疑这些数据是由差异的机制产生的,而非随机缺点。非常检测开始在统计学范畴得到研究,这些要领通常将数据用某个假定的统计漫衍举行建模,然后按照假定的模子和数据的实际漫衍来确定非常。由于通常无法正确地确定实际数据的漫衍情势,而且实际数据每每并不切合任何一种抱负的数学漫衍,因此统计非常检测要领具有相称大的范围性。在时间序列开掘范畴,序列非常的观点,即当扫描序列时,假设某个数据点显着差异于其前面的序列,如许的点就被以为是

11、非常数据。由于序列非常在观点上存在必然的缺陷,因此该要领轻易遗漏真正的非常数据。利用柱状图要领来创造非常数据,假设将某个数据从序列中移去,单独用一个桶存放,可以或许淘汰团体柱状图的偏向,那么该数据被以为是非常。一种两阶段支持向量回归的算法,用于检测金融时间序列中的非常数据,以制止非常数据对猜测精度产生影响。四、混淆开掘要领比年来金融时间序列阐发范畴出现一种新的趋势,马上种种时间序列开掘技能与传统阐发要领和模子相结合,我们将这些要领称为混淆开掘要领。与第三节中的时间序列开掘要领差异,这类要领大多针对付金融范畴某个特定的阐发使命,大概基于金融时间序列的某些特性,因此更具有针对性,当前的时间序列聚类

12、要领分为基于原始数据、基于特性量以及基于模子的聚类三类。此中后两类均属于混淆开掘要领。一种基于ARA模子的时间序列相似性度量和聚类算法,该要领利用ARA模子对序列举行建模,而且将模子的系数转换为线性猜测编码倒谱系数(LP)。在此底子上,对LP利用欧氏间隔断定两个序列的相似程度并举行聚类。对同一个序列利用多个ARA模子建模,以便更正确地捕捉数据的各项特性。结合盼望最大要领,鉴于ARA模子在金融时间序列阐发中已经得到普及应用,上述要领在金融范畴有着紧张的意义。一种新的时间序列趋势变更阐发要领,该要领将传统的时间序列趋势阐发与文本开掘技能相结合,阐发证券市场中的种种消息信息与股票数据趋势变更之间的干

13、系,从而通过阐发相干的消息来猜测股票数据的变更标的目的。与此雷同,研究了外汇市场中的相干消息对汇率颠簸的影响,从而按照这些消息举行汇率的短期猜测。别的,大多数基于逐段线性形貌的时间序列支解要领都利用了线性回归模子的相干特性。一个常用于形貌金融资产颠簸性的技能阐发指标布历加信道与逐段线性形貌要领相结合,用于对金融时间序列举行联机支解,在此底子上举行相似性查寻以及资产代价变更的趋势猜测。五、对上述要领的批评基天职析与技能阐发要领重要用于证券与期货市场中的时间序列阐发,这两种阐发要领固然盘算简朴而且易于利用,但是无法用于进一步阐发数据中隐蔽的其他纪律和种种庞大的统计特性。数理统计要领是如今金融时间序

14、列阐发中最紧张的要领。但是随着数据量的不竭增长(如金融范畴中的高频和超高频数据),这些要领在阐发本领方面存在必然的缺陷。种种统计阐发要领的一个重要题目在于,其无法有用地处置惩罚具有较大范围的数据集。别的数理统计阐发要领也不适实用于从大量的数据中主动地创造种种埋伏的规矩。固然比年来出现了大量的时间序列开掘要领,然而将这些要领直接用于阐发金融时间序列仍旧存在一些不敷。此中一个重要的缘故原由在于差异范畴的时间序列每每具有差异的特性。比方金融范畴的时间序列一样平常不具有典范的周期性,而这一特性在贸易或景象范畴的时间序列中那么非常显着。比年来时间序列开掘范畴的重要研究结果做了一个详细的先容,并对这些开掘

15、要领利用大量新的数据集举行了重新查验。作者创造随着测试数据集的差异,这些要领的有用性、性能以及正确度等都市得到迥异的实行结果,有些要领针对某些数据集乃至底子无法利用。实行结果说明,对付来自差异范畴、具有完全差异特性的时间序列,提出一种普适的开掘要领是困难的。我们以为金融时间序列开掘技能将来的重要生长标的目的是混淆开掘技能,这里的“混淆重要包罗以下两个方面的内容:一方面,种种新的数据开掘算法必需思量到金融时间序列所具有的重要特性,即按照序列的特性研究相干开掘算法,基于特性阐发的金融时间序列开掘举行了详细研究;另一方面,新的数据开掘算法应与传统阐发要领和统计模子进一步结合,并针对金融范畴的特定阐发

16、使命,从而包管阐发与开掘事情的有用性。终究上,传统的数理统计阐发要领与模子大多基于严酷的统计数学和相干的金融阐发理论,在金融时间序列阐发中发挥着不成交换的作用。数据开掘技能那么为在海量的金融数据中快速、主动、智能化地创造种种埋伏的、有代价的纪律提供了新的支持。这些要领的结合,将使得金融时间序列阐发范畴具有更辽阔的应用远景。六、进一步研究的题目固然金融时间序列开掘技能得到了普及的研究,但是仍旧存在一些有待于进一步研究的题目。一方面,金融范畴的某些阐发使命或数据特性具有必然的特别性,必要开拓新的数据开掘算法举行支持。另一方面,种种时间序列开掘技能在金融范畴的应用条理也有待于进一步深化,比方现有的关联阐发与序列阐发技能,大多侧重于创造序列中大量IPTHEN情势的规矩以及这些规矩的可信度。然而怎样利用这些规矩,并按照投资者的风险偏好以及本钱金范围等相干特性,为其提供本性化的投资与理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论