数据挖掘课程论文_第1页
数据挖掘课程论文_第2页
数据挖掘课程论文_第3页
数据挖掘课程论文_第4页
数据挖掘课程论文_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

海南大学数据挖掘论文题目:股票交易日线数据挖掘学号:20100602310002姓名:专业:10信管指导老师:分数:目录8184目录 2185561.数据挖掘目的 3155282.相关基础知识 3164262.1股票基础知识 3230422.2数据挖掘基础知识 446282.2.2数据挖掘的任务 4166423.数据挖掘方案 6140743.1.数据挖掘软件简介 6297523.2.股票数据选择 7104273.3.待验证的股票规律 7106054.数据挖掘流 8255554.1数据挖掘流图 8311334.2规律验证 9148434.2.2规律2验证 10167994.2.3规律三验证 12166904.3主要节点说明 1472645.小结 15

数据挖掘目的数据挖掘的目的就是得出隐藏在数据中的有价值的信息,发现数据之间的内在联系与规律。对于本次数据挖掘来说,其目的就是学会用clementine对股票的历史数据进行挖掘,通过数据的分析,找出存在股票历史数据中的规律,或者验证已存在的股票规律。同时也加深自己对股票知识的了解和对clementine软件的应用能力。为人们决策提供指导性信息,为公司找出其中的客户为公司带来利润的规律,如二八原则、啤酒与尿布的现象等。2.相关基础知识2.1股票基础知识2.1.1股票是一种有价证券,HYPERLINK"/view/55918.htm"是股份公司在筹集资本时向出资人公开或私下发行的、用以证明出资人的股本身份和权利,并根据持有人所持有的股份数享有权益和承担义务的凭证。股票代表着其持有人(股东)对股份公司的所有权,每一股同类型股票所代表的公司所有权是相等的,即“同股同权”。股票可以公开上市,也可以不上市。在股票市场上,股票也是投资和投机的对象。对股票的某些投机炒作行为,例如无货沽空,可以造成金融市场的动荡。2.1.2开盘价开盘价又称开市价,是指某种证券在证券交易所每个交易日开市后的第一笔买卖成交价格。世界上大多数证券交易所都采用成交额最大原则来确定开盘价。2.1.3收盘价收盘价是指某种证券在证券交易所一天交易活动结束前最后一笔交易的成交价格。如当日没有成交,则采用最近一次的成交价格作为收盘价,因为收盘价是当日行情的标准,又是下一个交易日开盘价的依据,可据以预测未来证券市场行情;所以投资者对行情分析时,一般采用收盘价作为计算依据。2.1.4最高价指某种证券在每个交易日从开始到收市的交易过程中所产生的最高价。最低价指某种证券在每个交易日从开始到收市的交易过程中所产生的最低价。成交量成交量是指一个时间单位内对某项交易成交的数量。一般情况下,成交量大且价格上涨的股票,趋势向好。成交量持续低迷时,一般出现在熊市或股票整理阶段,市场交投不活跃。成交量是判断股票走势的重要依据,对分析主力行为提供了重要的依据。2.1.7K线K线图这种图表源处于日本德川幕府时代(1603~1867年),被当时日本米市的商人用来记录米市的行情与价格波动,后因其细腻独到的标画方式而被引入到股市及期货市场。通过K线图,我们能够把每日或某一周期的市况现完全记录下来,股价经过一段时间的盘档后,在图上即形成一种特殊区域或形态,不同的形态显示出不同意义。插入线、抱线和利好刺激线这三种K线组合是最常见的经典见底形态。2.1.8日线任何一天的开盘价\收盘价\最高价\最低价,划出的一跟中间粗一些,两端细一些的线,就是日线,日线是每天一根的K线.5PMA,10PMA,20PMA。分别代表5日、10日、20日均线。黄色的是5PMA即5日均线;紫色的是10PMA即10日均线;绿色的是20PMA即20日均线。2.2数据挖掘基础知识2.2.1数据挖掘数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。是知识发现(KnowledgeDiscoveryinDatabase)的关键步骤。2.2.2数据挖掘的任务关联分析(associationanalysis)关联规则挖掘是由RakeshApwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。(2)聚类分析(clustering)聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。(3)分类(classification)分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。预测(predication)预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。时序模式(time-seriespattern)时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。(6)偏差分析(deviation)在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。2.2.3数据挖掘方法神经网络方法神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性,非常适合解决数据挖掘的问题。遗传算法遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。决策树方法决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。(4)统计分析方法在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。模糊集方法即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。粗集方法粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。覆盖正例排斥反例方法它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。3.数据挖掘方案3.1.数据挖掘软件简介本次的数据挖掘所运用的软件是Clementine软件。Clementine是SPSS的数据挖掘应用工具。这种工具可把直观的用户图形界面与多种分析技术相结合。这些技术包括神经元网络、关联规则和规则归纳技术,这些分析能力由一个易于使用的可视化编程环境所提供。作为一个数据挖掘平台,Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。Clementinee所使用的图形表现是在屏幕上拖动、按下和连接功能节点。节点的类型分为数据访问节点、数据操纵节点、数据可视化节点、机器学习节点和模型分析节点。模型产生过程由从托盘中选择正确的节点、把它们放到屏幕上和连接节点组成。Clementinee提供了丰富的数据访问能力,其中包括对展开文件和关系数据库(通过ODBC)的访问。Clementine具有通过把建模结果写回一个与ODBC兼容的DBMS而使它们保持一致的能力。Clementine可在WindowsNT的IntelPenhum系统运行。Clementine的数据可视化能力包括分布图、线性图和网络分析。C1emetine是一个强大的产品。以公布的用户基推测试来看,它在可伸缩性、预测准确率和处理的时间方面都表现得很好。总的来说,C1gneBtine对小规模和大规模的分析实现都很合适。3.2.股票数据选择股票的选择是随机选择的。用股票代码/67=02(我学号的后两位)计算可得所要研究的股票(此过程运用Excel表格的取余,然后用筛选即可选出符合条件的股票)。所以根据公式可计算出多支符合条件的股票,从中我选择自己感兴趣的股票深证万科A(000002和上证道博股份(600132)。同时用它们的日线作为参考,对股票的数据进行研究。3.3.待验证的股票规律3.3.1股市的涨跌是呈现周期性变化的且涨幅呈正态分布?这种现象指的是在股市开盘后的一种周期性的现象,具体表现在股票价格上上的周期性涨落,当股市达到高潮后,一段时间后又将返回下跌,返回低潮。3.3.2国家对房地产行业的宏观调控政策对股市中房地产行业是否有影响?房价上涨对地产股有什么影响?指近10年来,国家为了控制房地产的价格在一个合理的范围内,所出台的一系列与房地产行业相关的政策,这条规律就是研究在政策出台之后,股市中的房地产行业是否会受其影响而产生波动。3.3.3不同类型的上市公司由于产业的不同企业发展的经历差异其所表现出的股价涨幅波动也是否是有差异?数据挖掘流4.1数据挖掘流图分别做出万科和道博股份的数据流图如图1、图2所示:图1万科的数据流图图2道博股份的数据流图图3万科道博股份合并后的数据流图4.2规律验证4.2.1规律一验证对于规律一我们可以把两支股票的直方图都做出来进行比较验证分析股票涨幅分布中存在的规律。图4涨幅直方图(万科)图5涨幅直方图(道博股份)由图4图5可以很清楚的看出两支股票的涨幅直方图都是满足正态分布的由此我们可以判断规律一是正确的。4.2.2规律2验证万科是著名的大型房地产企业对于规律2我们可以应用万科的散点图来验证图6万科涨幅日期散点图图7万科时间涨幅散点图通过两个散点图都可以看出05年以前万科的涨幅波动很小,一直很平稳,05年以后万科的涨幅波动开始变的非常大时高时低。可以看出国家房地产政策的调整对地产企业的股票市场是有影响的。图9万科收盘散点图从上图的万科收盘散点图可以看出随着房地产市场化的进行由于商品房价格的不断上涨,万科地产的收盘股价上涨明显,近两年由于国家抑制房价地产股的收盘价又开始稍有下降。4.2.3规律三验证图10万科道博股份合并后的数据流图图11剔出波动大于10后的涨幅时间散点图图12收盘价时间散点图武汉道博股份有限公司是1992年10月30日经武汉市经济体制改革委员会武体改[1992]44号文批准,由海南省高科技开发总公司、三亚市河西城市信用社、海南宏盛实业有限公司等三家单位作为主要发起人,以定向募集方式设立的股份有限公司。万科企业股份有限公司成立于1984年5月,是目前中国最大的专业住宅开发企业,也是股市里的代表性地产蓝筹股。总部设在广东深圳,至2009年,已在20多个城市设立分公司。从两个公司的介绍上我们不难看出两个公司的差异,再看他们的涨幅散点图和收盘价散点图我们能发现05年之前万科股价一直稳定小幅上涨而道

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论