基于数据挖掘的开放式基金投资决策支持系统设计与实现_第1页
基于数据挖掘的开放式基金投资决策支持系统设计与实现_第2页
基于数据挖掘的开放式基金投资决策支持系统设计与实现_第3页
基于数据挖掘的开放式基金投资决策支持系统设计与实现_第4页
基于数据挖掘的开放式基金投资决策支持系统设计与实现_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于数据挖掘的开放式基金投资决策支持系统设计与实现 基于数据挖掘的开放式基金投资决策支持系统 设计与实现摘 要数据挖掘是近些年来发展起来的新技术,通过数据挖掘,人们可以发现数据背后隐藏的有价值的、潜在的知识,为科学地进行各种商业决策提供强有力的支持。当今,数据挖掘已发展成一门跨越多领域的学科,在金融领域的应用也逐渐成为研究者关注的热点。本文将主要关注数据挖掘在开放式基金投资中的应用研究,用先进的技术解决实际问题,拓展数据挖掘的行业应用。 中国的开放式基金在国家政策大力支持下,发行的规模逐年增大,基金投资者迅猛增长。如何能够准确地判断基金优劣和预测发展走势一直备受人们的关注。建立一个准确度比较高

2、的基金分析模型及其应用系统,对于基金投资者和基金管理机构都具有重要的实用价值。 基金与股票不同,它是多种股票或证券投资的组合体,其资产配置、市场大势表现、基金经理的选股与择时能力,直接影响到基金净值的变化。因而,本研究从基金历史净值入手,结合股指、债券指数的变化趋势,使用聚类及神经网络等数据挖掘算法,能够客观评价出基金的风格类型,推断其未来的收益状况及潜在的风险。 本文的基本内容分为五章,第一章绪论部分对本课题的研究背景、国内外研究情况、论文创新点和结构作了简要的介绍。第二章介绍了数据挖掘研究的相关背景及基本理论,为本文打下理论铺垫。第三章对开放式基金绩效评价相关知识作了简要的阐述,从开放式基

3、金的特点、风格形成和评价要素等几个方面进行了分析,引出了本课题的开发需求及设计思路。鉴于本课题需要运用一些具体挖掘技术,在第四章还特地对 k-均值聚类算法、BP(Back propagation)神经网络算法和遗传算法分别作了论述。第五章是本文昀具价值和创新的部分,在这部分对决策系统的设计与实现作了详细的论述,其研究工作归纳起来主要有以下几个方面: (1)数据预处理工作中,考虑到挖掘数据来自多个异构数据源,极易受到噪声、丢失数据和不一致数据的侵扰。所以,对收集来的数据进行整合、清洗、构建和选择等预处理操作,消除了由于基金和证券股指等数据来源分散、格式不规范所带来的不完整和不一致,提高了数据质量

4、,为数据挖掘提供了可靠的数据源;(2)风格分析模块的设计中,结合开放式基金风格形成的特点和曼哈顿距离算法原理,为基金中的收益、风险、收益增长与证券指数变化相似度和收益超越证券市场能力等基本要素,设计了 8个计算公式并分别进行运算。然后,再借助 k-均值聚类算法对这 8类数据分别进行分组,得到了每只基金风格要素所处的相对值,并通过表格和图形直观地向用户展现; (3)收益与风险预测模块设计中,借鉴了基于遗传算法的神经网络算法,并对基于遗传算法的神经网络进行了改进,在 BP 算法训练网络出现收敛缓慢时启用遗传算法优化网络训练参数,把优化的结果作为BP算法的初始值再用BP算法训练网络交替运行,直到达到

5、问题要求的精度。本文中的实验数据证明,该方法能够在提高预测效率的基础上显著降低预测误差,并且提高预测序列与实际序列的相似形,较好实现了对基金收益与风险的短期预测; (4)组合投资优化模块设计中,对基金组合投资的特点进行了分析,运用遗传算法的全局寻优对智能组合问题进行研究。根据用户组合投资需同时满足收益昀大化、风险分散化和组成比例灵活化等要求,引入惩罚函数、部分交叉匹配等算法,使传统的遗传算法具备了多目标寻优的能力。实验结果表明该方法效率较高且能够充分满足用户决策时的多样化需求。 上述开放式基金决策支持系统采用 B/S(浏览器/服务器)模式构建,便于系统推广与应用。并以C# ASP.NET2.0

6、为前台开发工具,MS SQL server2005为后台数据库进行开发。本文还图文并茂的介绍了几大功能模块运行的实证效果,其结果充分表明了本决策系统成功实现了预期目标,能够为投资者科学决策提供有效帮助,具有较好的应用前景。关键词:数据挖掘,BP神经网络,遗传算法,开放式基金Design and Implement of Investment Decision Support System for Open-End Fund Based on Data Minging Technology Tutor:LiCuiping Author:HuangGuiyi Abstract Data minin

7、g is a new technique which has become increasingly popular in recent years. People can discover valuable rules behind the data that can support the science decision.Now data mining has become a subject which involves lots of science domain,and has become the focus in the financial domain.The author

8、trys to focus his study on open-end fund based on data mining chronically,and used the technology to design the decision support system for open-end fund.This study develops a new applied field of data miningChinese open-end funds got support of national policy.As more and more new funds are being e

9、stablished.Fund investors grew rapidly.How to measure fund performance becomes an important topic.Building up a exact analysis model of fund which has important practical value for fund investors and fund managementsFund is different from stock.Fund is a body of various stocks or bonds.Many factors

10、impact to change fund net,such as asset allocation, market trend and the analysis of capability to select stocks and time.Firstly, the author contrast between stock value and fund net in history.And then, the author analyses actual style of fund and dope out future fund value and fund risk by data m

11、ining technologyThere are five chapters in all.In chapter 1, the author introduces the background of research,the international research status,innovation of the paper, structure of the paper.In chapter 2, the author reviews the history of data mining,this chapter is a theoretical foundation of the

12、paper.In chapter 3,the author introduces summarizes performance evaluation theories of fund and analyses the characteristics of open-end fund, investment styles of fund, evaluation elements of fund. In this chapter,the author refers to the system requirements.As the system must use some algorithms b

13、ase on data mining, the author introduces the K-mean clustering algorithm,BP neural network,genetic algorithm in chapter 4.The chapter 5 is a important part of the paper.In the part, the author introduces the design and implement of decision support system for open-end fund.This chapter contents are

14、 as following: 1The database are highly susceptible to noisy,missing,and inconsistent data due to different origin of the data.Therefore, the system adopts dataaggregation,data cleaning,data choice,by which it smooth out noise of the data 2In the design of the fund investment style, The author desig

15、ns eight formulas which bases on the investment characteristics of fund and Manhattan distance algorithm.The eight formulas can calculate income of fund,risk of fund,the resemblance of fund and securities, the exceedance of fund and securities.Firstly, this module account out the result of each fund

16、 by this eight formulas.Then, the module accounts out the result of each fund by K-mean algorithm.Lastly,the result is displayed on browser by picture or table3In the design of the income and risk prediction, this paper tries to seek a new algorithm based on BP algorithm.This new algorithm improves

17、traditional BP neutral algorithm and can optimizes the training parameter of BP neutral algorithm when traditional BP algorithm trains parameter slowly.This new algorithm is proved highly effective by practice.The author compared this algorithm to other forecasting algorithm,the results showed that

18、this algorithm is better at forecasts and efficiency than other.This algorithm can forecast income of fund and risk of fund in the future 4 In the design of portfolio investment,the author analyses the characteristics of fund and uses GA algorithm to search portfolio investment.As investor wants to

19、acquire the biggest income and scatter risk from portfolio investment,this new algorithm integrates the punishable function and the part cross function.As a result,this new algorithm has multi-objective optimization ability.The results showed that the new algorithm has high-efficiency and content wi

20、th customer requestsThis investment decision support system is constituted by the mode of B/S browser /server,by which this system can be enlarged applied field easly.This system is realized by C# ASP.NET2.0 as developing tool and MS SQL SERVER2005 as database. The author introduces test results of

21、this system by pictures and text in the paper.It shows that this system content with customer requests and has a better application foreground Key words: Data mining;BP Neutral Network;Genetic algorithms; open-end fund目 录第1 章 绪 论.1 1.1 课题研究的背景.1 1.2 国内外研究情况.2 1.3 论文的创新点2 1.4 论文的结构.3 第2 章 数据挖掘技术概述.4

22、2.1 数据挖掘的定义.4 2.2 数据挖掘基本技术.5 2.2.1 描述型数据挖掘.5 2.2.2 预测型数据挖掘.6 2.3 数据挖掘模型和算法7 2.3.1 人工神经网络7 2.3.2 决策树和决策规则.7 2.3.3其它算法.8 2.4 数据挖掘的流程.8 2.4.1 数据挖掘环境8 2.4.2 数据挖掘过程工作量8 2.4.3 数据挖掘基本步骤.9 2.5 本章小结10 第3 章 开放式基金绩效评价的意义.11 3.1证券投资基金概述.11 3.1.1 证券投资基金特点.11 3.1.2 开放式证券投资基金.12 3.2 开放式基金绩效评价方法.13 3.2.1 开放式基金绩效评价的

23、意义.13 3.2.2 开放式基金风格分类.13 3.2.3 开放式基金绩效评价的几大要素.14 3.2.4 开放式基金收益水平的计算.15 3.2.5 开放式基金风险水平的计算.16 3.2.6 影响开放式基金收益与风险的几大要素.16 3.3 本章小结17第4 章 本文使用的主要数据模型及算法简介.18 4.1 k均值聚类方法18 4.2 神经网络概述.19 4.2.1 神经网络发展概况.19 4.2.2 基本神经网络模型.21 4.2.3 神经网络的学习方法.21 4.2.4 前向神经网络及其误差反向传播(BP)算法23 4.3 遗传算法概述.27 4.3.1 遗传算法的基本概念.27

24、4.3.2 遗传算法的基本运算.28 4.4 本章小结29 第5 章 决策支持系统设计与实现30 5.1 总体设计30 5.1.1 系统开发环境.30 5.1.2 系统主要模块.30 5.2 数据预处理.31 5.2.1 整合数据31 5.2.2 清洗数据32 5.2.3 构建数据33 5.2.4 选择数据33 5.3 基金风格分析模块的设计与实现.34 5.3.1 建立模型34 5.3.2 验证模型38 5.4 基金预测模块的设计与实现.42 5.4.1 建立模型43 5.4.3 验证模型47 5.5 基金投资组合模块的设计与实现.49 5.5.1 建立模型50 5.5.2 验证模型53 5

25、.6 本章小结58 结论与展望.59 参考文献60 攻读学位期间取得的研究成果63基于数据挖掘的开放式基金投资决策支持系统设计与实现 第1章 绪 论 数据挖掘是一个新的计算机应用领域,出现于二十世纪八十年代,并在九十年代有了长足的发展。数据挖掘是一系列信息科技的自然演化结果,用来应对“数据爆炸但知识贫乏”的现象。同时,数据挖掘的实际应用也相当广泛,包括但不限于商业管理、市场分析、产品控制、工业设计及科学研究;研究重点逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。 本文将主要关注数据挖掘在开放式基金投资中的应用研究,用先进的技术解决实际问题,拓展数据挖掘的

26、行业应用。 需要说明的一点是,在本文中提到的基金如果未作特别说明,均指开放式基金。 1.1 课题研究的背景 2000年10月8日,中国证监会发布了开放式证券投资基金试点办法,2001年9月,我国第一只开放式基金?“华安创新”诞生,使我国基金业发展实现了从封闭式基金到开放式基金的历史性跨越。截止2007年,我国的基金管理公司已有58家,管理数量已达307只。其中,开放式基金254只,封闭式基金53只,基金资产规模8565.05亿元人民币,其中,开放式基金的资产净值16941.41亿元,已占到中国基金市场资产净值的81% 。中国人民银行近日公布了2007年全国城镇储户问卷调查结果。调查显示,认为“

27、基金为家庭拥有昀主2要金融资产”的居民占比达到25.4%,刷新了历史纪录 。 证券市场是一个高风险高收益的投资市场,作为基金投资者主要关心两个问题,其一,如何从基金投资中获得更多的收益;其二,如何规避基金投资带1基于数据挖掘的开放式基金投资决策支持系统设计与实现 来的风险。影响基金收益增长和风险变化的因素是多方面的,而基金公司披露给投资者的真实信息较少,并且许多基金公司在资金运作过程中,偏离了初始的投资风格,给广大基民带来了潜在的风险。本课题运用事后实证分析的方法,基于基金的历史净值变化,运用数据挖掘等技术,实现对基金风格的分析评判和短期收益与风险的预测,为投资者理性投资提供了决策支持。 1.

28、2 国内外研究情况 国内的数据挖掘技术在某些行业已经有了相当的发展,比如CRMCustomer Relationship Management,客户关系管理。在金融行业的应用主要体现在银行、证券行业。因为这些行业发展历史较长,有较好的数据基础,同时又是对信息高度敏感的行业。就基金行业而言,数据挖掘没有被充分的应用,这是由于基金行业在中国是一个新兴行业,各种运作体制、投资管理制度还在摸索和探讨之中。同时各个基金公司成立时间较短,基础数据相对较少。主流的金融行业软件厂商所开发的基金管理软件基本停留在基金资讯的分类汇总、检索查询这个层次。而对于通过数据挖掘来获取数据背后真正有价值的信息这一关键领域,

29、还有待进一步发展。 尽管在许多西方国家,尤其是在美国,已有理论和实证方面的大量研究,但也主要集中在基金评级,并为机构提供服务。很少有帮助中小投资者分析选择基金的软件面世。 1.3 论文的创新点 利用数据挖掘技术开发面向中小投资者的决策支持系统在国内尚属创新,具有较高的研究和推广价值。同时,本课题的技术创新点还在于: 1.在对开放式基金特点分析的基础上,利用数据挖掘技术,设计了针对开放式基金的决策辅助模型。并根据开放式基金的历史数据,采用B(浏览器)/S2基于数据挖掘的开放式基金投资决策支持系统设计与实现 (服务器)方式,开发了风格分析、收益与风险预测和组合投资分析三大模块,从而较好的满足了投资

30、者网上咨询和决策的需求。 2.基金的收益与风险预测模块设计中,改进了传统基于遗传算法的神经网络算法,对网络连接权系数采用BP与遗传算法进行交替训练寻优,加快了运算时间,提高了问题需要的精度。 3.基金的组合投资分析模块设计中,在传统的遗传算法基础上,引入惩罚函数、部分交叉匹配等算法,使改进后的遗传算法具备了多目标寻优的能力。 现有的一些方法评价基金绩效时,常常以收益为准绳,给高风险的基金以一个较高评价,而给低风险的基金以一个较低的评价,评估结果偏差较大。而本课题开发的决策系统全面考虑了基金的收益与风险两方面因素,提供给投资者一个全面的参考信息,这在基金绩效评价领域也具有较大的推广价值。 1.4

31、 论文的结构 本文共分五章,具体内容是以如下方式组织的: 第 1 章绪论,对论文内容作了整体性介绍,主要包括课题背景、内容、意义、创新点和论文基本结构等。 第 2 章数据挖掘技术概述,这部分对本课题用到的技术背景、开发手段作了简要的介绍,为本文作了理论铺垫。 第 3 章开放式基金绩效评价的意义,本章主要从简要介绍开放式基金的基本特点入手,重点介绍了开放式基金的评价方法,同时引出了本课题的设计需求。 第 4 章本文使用的主要数据模型及算法简介,本章重点论述了本课题中需要运用的K均值聚类算法、神经网络算法和遗传算法。 第 5 章决策支持系统设计与实现,本章主要论述了基金风格分析模块、基金预测模块和

32、基金投资组合模块的具体算法设计与实现。 昀后,对本课题工作进行了总结,并对本研究的未来发展进行了展望。3基于数据挖掘的开放式基金投资决策支持系统设计与实现 第2章 数据挖掘技术概述 近年来,数据挖掘技术引起了信息产业界的极大关注。主要原因是人们利用信息技术生产和搜集数据的能力大幅度提高,数千万个数据库被用于商业管理、政务处理、科学研究和工程设计等等,并且这一势头仍将持续发展下去。于是,一个新的挑战被提了出来,如何将这些数据转换成有用的信息和知识,提高信息的利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为一种包袱,甚至成为垃

33、圾。因此,数据挖掘技术应运而生,并得以蓬勃发展,在实际的应用中越来越显示出其强大的生命力。美国麻省理工学院的科技评论杂志提出未来5年对人类产生重大影响的10大新兴技术, “数据挖掘”位居第三。据国外专家预测,随着数据量的日益积累和计算机的广泛应用,在今后的5-103年内,数据挖掘将在中国形成一个新型的产业 。 2.1 数据挖掘的定义 如今数据库的容量已经达到了上万亿字节的水平,但在这些大量数据信息的背后隐藏了很多具有决策意义的信息,怎么才能获取这些知识呢。也就是说,怎样才能通过一棵棵的树木来了解整个森林的情况? 计算机科学对这个问题给出的回答就是:数据挖掘,在“数据矿山”中找到埋藏的“知识金块

34、”,帮助企业减少不必要投资的同时提高资金回报。现在,世界范围内具有创新性的公司都开始采用数据挖掘技术来判断哪些是他们的昀有价值客户,重新制定他们的产量推广策略(把产品推广给昀需要他们的人) ,以用昀小的花费得到昀好的销售等等。数 据挖掘定义从技术层面上来说是利用各种分析工具在海量数据中发现模型和数据间关系的一个过程,这些模型和关4基于数据挖掘的开放式基金投资决策支持系统设计与实现 系可以用来做出预测。数据挖掘从商业角度来说它又是一种决策支持过程,主要基于机器学习、统计学等技术,高度自动化地分析企业原有的数据,作出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,

35、减少风险作出正确决策。数据挖掘还有不同的术语如知识发现,4模式发现等 。 2.2 数据挖掘基本技术 总的来说,数据挖掘技术可分为描述型数据挖掘和预测型数据挖掘两种。描述型数据挖掘包括数据总结、聚类及关联分析等。预测型数据挖掘包括分类、回归及时间序列分析等。 2.2.1 描述型数据挖掘 描述型数据挖掘用于了解系统实际数据存在的特性,其目的是为了预测作准备。下面是描述型挖掘技术的一些示例。 1.数据总结:继承于数据分析中的统计分析。数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统统计方法如求和值、方差值、平均值等都是有效方法。此外还可以用直方图、饼状图等图形方式表示这些值。从广义上讲,多维分析

36、也可以归入这一类。 2.聚集(分群或聚类) 聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显,而同一个群之间的数据尽量相似。与分类不同(见后面的预测型数据挖掘),在开始聚集之前你不知道要把数据分成几组,也不知道怎么分(依照哪几个变量)。因而在聚集之后要有一个对业务很熟悉的人来解释这样分群的意义。很多情况下一次聚集得到的分群对你的业务来说可能并不好,还需要您不断删除或增加变量以影响分群的方式。神经网络和K-均值是比较常用的聚集算法。 3.关联分析 关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系5基于数据挖掘的开放式基金投资决策支持系统设计与实现 的有关知识。随

37、着收集和存储在数据库中的数据规模越来越大,人们对从这些数据中挖掘相应的关联知识越来越有兴趣。例如:从大量的商业交易记录中发现有价值的关联知识就可帮助商家进行商品目录的设计、交叉营销或帮助进行其它有关的商业决策活动。 在数据挖掘研究领域,对于关联分析的研究开展得比较深入,人们提出了多种关联规则的挖掘算法,例如 APRIORI、STEM、AIS、DHP 等算法。挖掘关联知识的一个典型应用实例就是市场购物分析。根据被放到一个购物篮的(购物)内容记录数据而发现的不同(被购买)商品之间所存在的关联知识无疑将会帮助商家分析顾客的购买习惯。发现常在一起被购买的商品(关联知识)将帮助商家制定有针对性的市场营销

38、策略。如顾客在购买牛奶时,是否也可能同时购买面包或会购买哪个牌子的面包,显然能够回答这些问题的有关信息肯定会有效地帮助商家进行有针对性的促销,以及进行合适的货架商品摆放。如可以将5牛奶和面包放在相近的地方或许会促进这两个商品的销售 。 2.2.2 预测型数据挖掘 1.分类 分类的目的是构造一个分类函数或分类模型也常常称作分类器,该模型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段又称属性值组成的特征向量,此外,训练样本还应有相应的类别标记。 2.回归 回归模式的函数定义与分类模式相似,他们

39、之间的差别在于分类模式的预测值是离散的,而回归模式的预测值是连续的。回归是通过具有己知值的变量来预测其他变量的值。一般情况下,回归采用的是线性回归、非线性回归这样的标准统计技术。同一个模型既可用于回归也可用于分类。常见的有逻辑回归、决策树、神经网络等算法。 3.时间序列分析 根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以6基于数据挖掘的开放式基金投资决策支持系统设计与实现 认为是一种以时间为关键属性的关联知识。 目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等。1968年 Box 和 Jenkins 提出了一套比较完善的时间序列建模理论和分析方法,这些经典的数学方

40、法通过建立随机模型,如自回归模型、自回归滑动平均模型、求和自回归滑动平均模型和季节调整模型等,进行时间序列的预测。由于大量的时间序列是非平稳的,其特征参数和数据分布随着时间的推移而发生变化。因此,仅仅通过对某段历史数据的训练,建立单一的神经网络预测模型,还无法完成准确的预测任务。为此,人们提出了基于统计学和基于精确性的再训练方法,当发现现存预测模型不再适用于当前数据时,对模型重新训练,获得新的权重参数,建立新的模型。也有许多系统借助并行算法的计算优势进行时间序6列预测 。 2.3 数据挖掘模型和算法 2.3.1 人工神经网络 仿照生物神经网络结构的非线形预测模型,通过学习进行模式识别。神经网络

41、近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对7来说比较有效的简单方法。神经网络常用于两类问题:分类和回归 。其实现方法见本文的第4章。 2.3.2 决策树和决策规则 决策树和决策规则是解决实际应用中分类问题的数据挖掘方法。该规则的目标是构建一个分类模型,通常叫做分类器。它可以根据有效的属性输入值预测一些实体的类,即分类是把某个不连续的标识值分配给一个未知的记录的过程。分类器是一个在样本的其他属性己知的情况下预测另外一个属性的模型,这样就把样本分区到预先定义的类内。从数据中生成分类器的一个特别有效的方法是生成一个决策树。决策树表示法是应用昀广泛的逻辑方法。有许多的决7基于数据

42、挖掘的开放式基金投资决策支持系统设计与实现 策树归纳算法,他们通过一组输入?输出样本构建决策树。一个生成决策树7的著名的算法是Quuilan的ID3算法 。 2.3.3其它算法 1.遗传算法 遗传算法是基于生物学领域中的进化理论,并采用遗传结合、遗传变异、以及自然选择等方法设计的优化技术。其实现方法见本文的第4章。 2.近邻算法 近邻算法是将数据集合中每一个记录进行分类的方法。 3.规则推导 规则推导是从统计意义上对数据中的“如果?那么”规则进行寻找和推8导的方法 。 2.4 数据挖掘的流程 2.4.1 数据挖掘环境 数据挖掘是从大型数据库中挖掘先前未知的,有效的,可实用的信息,并使用这些信息

43、做出决策或丰富知识。数据挖掘过程如图2.1所示:数据挖掘工具 可视化工具 数据库图2.1 数据挖掘过程图 2.4.2 数据挖掘过程工作量 数据挖掘的过程并不是自动的,绝大多数的工作需要人工完成。从大量的事例中都可以看到,大量的时间用在数据准备上,这说明了数据挖掘对数据的8严格要求,而后挖掘工作仅占总工作量的10% 。8基于数据挖掘的开放式基金投资决策支持系统设计与实现 2.4.3 数据挖掘基本步骤 1.确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的昀后结果是不可预测的,但要探索的 问题应是有预见的进行,而为了数据挖掘而进行数据挖掘则带有盲目性,是难以获得成功

44、的。 2.数据准备 (1数据的选择 数据取样要把好数据的质量关,因为数据挖掘的目的是要探索规律性的知识,如果原始数据有误,还从中还挖掘出来了什么“规律性” ,再依此去指导工作,则很可能是在进行误导。若是从正在运行着的系统中进行数据取样,则更需要注意数据的有效性和完整性。 (2)数据的预处理 现实世界中的数据大多数都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果并不令人满意。为了提高数据挖掘的质量产生了数据预处理技术。 数据预处理有多种方法,如数据清理、数据集成、数据变换和数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘的质量,降低实际挖掘所需要的工作时间。 (3)

45、数据的转换 将数据转换成适用于数据挖掘的形式。将数据转换成一个分析模型。这个分析模型是专门针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。 3.数据挖掘 通过前面的几步后,对所得到的经过转换的数据进行挖掘。除了完善和选择合适的挖掘算法外,其余一切工作都能自动地完成。 4.结果分析 用数据挖掘得到的如果是一个直接的结论,则当然很好,但是,事实上这种情况很少,更多的时候得出的可能是对目标问题的多侧面描述,这时就必须很好地总结他们的规律,才能综合提供合理的决策支持信息。9基于数据挖掘的开放式基金投资决策支持系统设计与实现 5.知识的同化 挖掘出的模型建立并经过验证之后,主

46、要有两种使用方法。第一种是提供给业务人员或分析人员做参考,通过查看和分析这个模型之后提出工作方案的建议。另一种是把此模型应用到不同的数据集上。模型可以用来标识一个事例的类别,给一项申请打分等。还可以用模型在数据库中选择符合特定要求的记9录,并用OLAP工具做进一步的分析 。 数据挖掘过程并不是线性的,要取得好的结果就要不断重复上述步骤。比如在“建立模型”时,可能觉得在“数据预处理”时做得不够好,或者是要往11里面添加一些新的数据等 。 2.5 本章小结 本章主要从概念、常用技术、常用算法、挖掘环境、工作量、基本步骤等各个方面介绍了数据挖掘技术,为本文作了理论知识的铺垫。下一章将论述开放式基金的

47、相关知识,并引出本课题的开发需求。10基于数据挖掘的开放式基金投资决策支持系统设计与实现 第3章 开放式基金绩效评价的意义 3.1证券投资基金概述证券投资基金是一种间接的证券投资方式。基金管理公司通过发行基金单位,集中投资者的资金,由基金托管人(即具有资格的银行)托管,由基金管理人管理和运用资金,从事股票、债券等金融工具投资,然后共担投资风险、分享收益。根据不同标准,可以将证券投资基金划分为不同的种类:根据基金单位是否可增加或赎回,可分为开放式基金和封闭式基金。开放式基金不上市交易,一般通过银行申购和赎回,基金规模不固定;封闭式基金有固定的存续期,期间基金规模固定,一般在证券交易场所上市交易,

48、投资者通过二级市场1买卖基金单位 。证券投资基金在美国称为“共同基金”,英国和我国香港特别行政区称为“单位信托基金”,日本和我国台湾地区则称“证券投资信托基金”等。 3.1.1 证券投资基金特点 与股票、债券、定期存款、外汇等投资工具一样,证券投资基金也为投资者提供了一种投资渠道。那么,与其它的投资工具相比,证券投资基金具有哪13些特点呢 ? 1.集合理财,专业管理 基金将众多投资者的资金集中起来,委托基金管理人进行共同投资,表现出一种集合理财的特点。 2.组合投资,分散风险 为降低投资风险,我国证券投资基金法规定,基金必须以组合投资的方式进行基金的投资运作,从而使“组合投资、分散风险”成为基

49、金的一大特11基于数据挖掘的开放式基金投资决策支持系统设计与实现 色,可以充分享受到组合投资、分散风险的好处。 3.利益共享,风险共担 基金投资者是基金的所有者。基金投资人共担风险,共享收益。基金投资收益在扣除由基金承担的费用后的盈余全部归基金投资者所有,并依据各投资者所持有的基金份额比例进行分配。 4.严格监管,信息透明 为切实保护投资者的利益,增强投资者对基金投资的信心,中国证监会对基金业实行比较严格的监管,对各种有损投资者利益的行为进行严厉的打击,并强制基金进行较为充分的信息披露。在这种情况下,严格监管与信息透明也就成为基金的一个显著特点。 5.独立托管,保障安全 基金管理人负责基金的投

50、资操作,本身并不经手基金财产的保管。基金财产的保管由独立于基金管理人的基金托管人负责。这种相互制约、相互监督的制衡机制对投资者的利益提供了重要的保护。 3.1.2 开放式证券投资基金 开放式证券投资基金,以下简称开放式基金(LOF),英文全称是“Listed Open-Ended Fund” 或“Open-end Fund”,在国外又称共同基金。也就是上市型开放式基金发行结束后,投资者既可以在指定网点申购与赎回基金份额,也12可以在交易所买卖该基金 。与封闭式基金相比,开放式基金具有发行数量没有限制、买卖价格以资产净值为准、在柜台上买卖和风险相对较小等特点,特别适合于中小投资者进行投资。世界基

51、金发展史就是从封闭式基金走向开放式基金的历史。以基金市场昀为成熟的美国为例。在1990年9月,美国开放式基金共有3,000家,资产总值1万亿美元;而封闭式基金仅有250家,资产总值600亿美元。到1996年,美国开放式基金的资产为35,392亿美元,封闭式基金资产仅为1,285亿美元,两者之比达到 27.541;而在 1940 年,两者之比仅为 0.731。在日本,1990年以前封闭式基金占绝大多数,开放式基金处于从属地位;但90年代后情况发1生了根本性变化,开放式基金资产达到封闭式基金资产的两倍左右 。目前,开12基于数据挖掘的开放式基金投资决策支持系统设计与实现 放式基金已成为国际基金市场

52、的主流品种,美国、英国、我国香港和台湾地区的基金市场均有90%以上是开放式基金。 3.2 开放式基金绩效评价方法 3.2.1 开放式基金绩效评价的意义 1.帮助投资者科学地选择适合自己风险承受能力的基金品种 到2001年12月31日我国上市的证券投资基金已经达到51家,其中开放式基金从无到有发展到 3 家。在政府大力发展机构投资者的战略部署下,基金12在后来的几年里,一直保持着高速的发展态势 。基金业的蓬勃发展必然使投资者面临一个基金投资的选择过程,比如基金的收益、风险程度、投资风格,如何建立一个多种基金的投资组合等等。投资者迫切地需要通过基金绩效评估科学地选择基金。 2.帮助基金管理公司建立科学的基金经理业绩评估体系,促进基金从业人员间的竞争,提高我国证券投资基金的管理水平。 我国基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论