大数据在选股分析中的应用

上传人：活*** IP属地：宁夏上传时间：2021-12-01 格式：DOCX 页数：63 大小：2.02MB 积分：25 举报 版权申诉

已阅读5页，还剩58页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、分类号密级 u d c 编号10486 硕士学位论文大数据在选股分析中的应用研究生姓名：李博洋学号：29 指导教师姓名、职称：蒋晶珏副教授专类别业（领域）：计算机技术二零一七年十月52 / 63 application of big data in stock selection analysisby li boyangoct, 2017 郑重声明本人的学位论文是在导师指导下独立撰写并完成的，学位论文没有剽窃、抄袭、造假等违反学术道德、学术规范和侵权行为，否则，本人情愿承担由此而产生的法律责任和法律后果，特此郑重声明。学位论文作者（签名）：年月

2、日中文摘要在科技不断进展、网络覆盖率持续扩张的今天，大数据时代早已悄然而至，每个行业都会形成海量、繁杂的数据。对于如何有效地采集信息、如何挖掘出数据内部的规律，学者们一直在不遗余力地研究并不断提供各种新型的技术。对于国内的私募基金而言，大数据的价值及其所蕴含的新商机并未充分体现出来，不过可以肯定的是，大数据在私募基金决策的过程中起着越来越重要的作用。基金行业是一个大数据市场，股市每天交易频繁，由此形成了大量的数据，大数据分析技术在这一行业不断走向成熟的过程中，也在不断地更新。笔者在本课题中，以金融市场中存在的主要问题为切入点，以上市企业为对象，探讨如何对基本面数据以及股票交易展开挖掘分析，

3、并且详细阐述了k-means算法的基本原理、神经网络在选股的作用原理；在现有股票预测原理的基础上，提出的多聚类分析股票数据的方法，结合分类算法对股票数据进行训练，形成基于聚类分析的智能选股算法。然后对算法进行验证，对整体方案框架进行设计，通过matlab进行聚类实现，最终得出最优参数下的聚类结果。最终结合聚类分析出来的选股算法，利用hadoop技术设计一个简洁，稳定高性能的智能选股系统。试验结果显示，开发出的模型分析选股系统可以对股票数据进行多维的分析预测，作为投资者的投资决策的辅助工具，是利用数据挖掘技术结合多聚类分析股票数据的方法，分析大量与股票相关数据，并做出未来走势预测，具有一定的有用

4、意义。关键词: 私募基金；数据挖掘；证券分析；互联网大数据；交易数据abstractwith the continuous development of technology and the continuous expansion of network coverage, the era of big data has long been quietly emerging and there is massive and complicated data in every industry. researchers have been sparing no effort in researc

5、hing and constantly providing various new technologies for how to effectively collect information and how to find out the internal laws of data.for domestic private equity funds, the value of big data and the new business opportunities big data contains are not fully demonstrated, but it is certain

6、that big data plays an increasingly important role in the decision-making process of private equity funds. the fund industry is a big data market. daily trades in the stock market result in a large amount of data. analysis technology of big data is constantly updated with the industry being mature.i

7、n this subject, takeing the main problems existing in the financial market as the starting point and the listed companies as the object, the author explores how to excavate and analyze the fundamental data and stock transactions, and elaborates the basic principle of k-means algorithm. based on the

8、existing stock forecasting theory, this paper proposes a multi-clustering method to analyze stock data and a combination of classification algorithms to train stock data to form an intelligent stock selection algorithm based on clustering analysis.then the algorithm is verified, the overall program

9、framework is designed, and the clustering is realized by matlab. finally, the clustering results under the optimal parameters are obtained. at last combining with the stock selection algorithm based on clustering analysis, a simple stable and high-performance intelligent stock selection system is de

10、signed by using hadoop technology. the experimental results show that the model stock picking system can make multi-dimensional analysis and forecasting of stock data. as a supporting tool for investors' investment decision-making, it has certain practical significance, which uses the method of

11、data mining combined with multi-cluster analysis of stock data, stock-related data, and make the future trend forecast.key words：private fund; data mining; securities analysis; internet big data目录中文摘要iabstractii目录iii图表目录v1 绪论11.1 论文选题研究的背景及意义11.2 国内外现状分析21.2.1 国外大数据在金融领域进展现状21.2.2 国内大数据在金融领域进展现状41

12、.3 论文的组织结构52 相关理论技术基础及可行性分析62.1 股票二级市场的状况62.2 数据挖掘工作原理92.2.1 聚类算法概述92.2.2 k-means算法原理102.2.3 分类算法142.2.4 分类算法的类型152.3 神经网络在选股中的作用182.3.1 神经网络进行股票预测的原理182.4 本章小结193 智能数据挖掘选股算法203.1 现状分析203.2 基本概念213.2.1 算法研究213.2.2 多聚类分析股票数据233.2.3 多聚类方法描述243.3 本章小结254 算法模型验证264.1 试验方案264.2 数据准备264.3 matlab中聚类的实现264.

13、4 聚类结果284.4.1 采样/持有周期对聚类结果的影响284.4.2 分类数/滞后期对聚类结果的影响304.4.3 最优参数下的聚类结果304.5 本章小结315 选股系统的设计325.1 系统的详细架构325.2 并行数据挖掘算法实现335.3 数据库设计345.3.1 数据表索引345.3.2 数据表详细设计355.4 详细设计375.4.1 数据结构设计375.4.2 离线交易数据入库385.4.3 主要指标数据计算385.5 系统实施435.5.1 日线数据入库435.5.2 指标计算435.5.3 智能选股435.6 应用455.7 系统测试455.8 本章小结466 总结与不足

14、47参考文献49致谢50图表目录图 21 k均值聚类算法的流程图11图 22 数据挖掘的流程图15图 23 数据文本分类的流程图15图 31 行业收益率序列聚类分析方法21图 32 分类数据产生过程22图 33 分类模型的建立22图 34 多重分类模型建立23图 51 系统架构图32图 52 并决策树算法流程图33图 53 离线交易数据入库流程图38图 54 日线数据入库界面43图 55 指标计算界面43图 56 股票预测数据45表 21 行业分类表8表 31 股票资产定价的技术进展表20表 41 不同采样/持有周期对聚类结果的影响29表 42 不同采样/持有周期对聚类结果的影响（反转效应）

15、29表 43 分类个数/滞后期对聚类结果的影响30表 44 聚类模型下的收益对比30表 51 数据库索引35表 52 日常交易数据表35表 53 股票指标数据36表 54 指标基本信息表361 绪论1.1 论文选题研究的背景及意义在过去短短几十年间，it行业经历了多次历史性的革命，比如云计算、物联网等，而这一行业最新的突破性成果即为大数据。随着计算机和网络的普及，大数据时代已经降临，在这样的背景下，私募基金行业也迎来了新的机遇和挑战。无论是从投资者还是创业者的角度来看，大数据都是非常受关注的融资标签。大数据的首要特点是数据体量非常大，通常至少应该达到10tb，然而在现实中，很多企业将自身的数据

16、集全部集中起来，最终汇聚成达到pb级的数据量。另外，其所包含的数据从类型上来看是多种多样的，数据来源丰富多样，数据格式明显不统一，完全超出了以往人们所说的结构化数据范畴，还包含了半结构化数据以及非结构化数据。大数据的数据处理速率非常快，即便它涉及到庞大的体量，但依旧能够满足数据处理的实时性要求。最终，其数据具有很强的真实性，近些年间，社交数据、企业内容、交易等方面的信息不断涌现，这些数据都来自新的数据源，在这样的背景下，企业需要更加有效的信息，才能确保其真实性和安全性，为企业的决策提供准确、准时的依据。作为一种信息资产，大数据表现出大量、快速增长、多样化的特点，其在决策、洞察、流程优化方面有着

17、明显的优势，但这些优势能够在多大程度上体现出来，主要由处理模式所决定。从数据类型角度而言，“大数据”是指超出以往的流程和方法的处理范围的信息。它对所有突破正常处理范围、一定使用非传统方法进行处理的数据集进行了定义。亚马逊网络服务（aws）、大数据领域的学者john rauser曾经对其概念进行高度归纳的阐述，即通过一台计算机无法处理的庞大数据量。研发小组提到：大数据指的是一种最大、最时髦的宣传技术，一旦发生了这一现象，定义就会杂乱无章。而kelly则认为，大数据或许并不等同于所有的数据，但其所包含的大多数数据都是正确的。时至今日，大数据的概念都存在广泛的分歧，但有一点是取得了共识的，即由于它有

18、着庞大的体量，因此在对其进行分析的过程中，要用到多个工作负载。数据的极限，是由技术的极限所决定的。当然，概念上的分歧并未对大数据的应用造成过大的影响，关键在于如何应用，如何在更大程度上发挥出其作用和价值，因此要在技术方面不断地推陈出新，使大数据的作用充分的释放出来。同时还要探讨和以往的数据库不同的是，具有开源性特点的大数据分析工具比如hadoop的广泛应用，以其为代表的非结构化数据服务的价值体现在哪些方面等。大数据挖掘技术在金融领域的应用，可以追溯到十多年之前。金融行业是竞争十分激烈的行业，私募基金经理每天都需要面对大量的数据，能否高效地从中找到有价值的信息，并据此对行情进行推断，在很大程度上

19、决定了产品收益率的高低。事实证明，大部分投资决策失误的根源在于信息不对称，所以，越来越多的学术界和实践界人士开始投入到行业热点信息的研究中来。与此同时，在网络高速进展的背景下，网络所形成的金融大数据对金融分析师而言，充满了机遇，同时也随处面临危机和挑战。笔者在本课题的研究中，从基金经理的角度出发，探讨大数据挖掘技术对行情分析的作用和价值，从金融数据信息里面挖掘有效的因素，并据此对股市未来的走向进行预测，对基于聚类分析的智能选股算法进行分析和测试。本课题研究旨在充分利用大数据挖掘技术，为私募基金经理在业务操作过程中提供更有力的依据，使其能够更加准确地定位股票和分析、预测市场行情，改变以往实地调研

20、等传统方法过于耗时耗力的现状。1.2 国内外现状分析1.2.1 国外大数据在金融领域进展现状纵览全球，大数据技术的主要潮流和趋势是易用化、简洁化，大多数大数据分析企业，都将数据采集、分析、处理等功能全部集成在一起，通过分析平台的方式提供这些方面的服务。比如fractal analytics不但实现了数据分析的功能，并且能够在无需人工操作的情况下完成数据的清理和验证等操作，从而提供标准化、规范化的数据。voyager labs则在全球范围内铺设了十亿个数据点，有着广泛的数据来源，从而为用户提供更加全面的数据服务。如今，很多企业的产品策略中明确提到，要进一步降低大数据技术的技术难度和成本，从而提高

21、其易用性，比如domino公司推出的产品能够让研究人员将更多的精力和时间放在数据分析上，也就是节省在软硬件环境维护方面的时间。datameer推出的产品直接将复杂的底层技术遮盖起来，通过表格的形式将数据呈现在用户的眼前，充分地考虑到了用户的操作习惯和便利性。rapid miner studio无需任何代码就能够在客户端进行操作，拥有机器学习、数据挖掘、文本挖掘等一系列的功能，能够更好地满足用户的需求。在大数据分析应用范围不断扩张的过程中，此项技术在性能方面的表现也持续优化，数据分析结果的准确性大幅提高。比如sigopt公司通过贝叶斯优化(bayesian optimization)算法对模型参

22、数进行调整，从而对网格搜索方法予以改进，新的方法能够在更短的时间内提供更为准确、易用性更高的结果。更重要的是，sigopt的产品不但能够对多种变量进行测试，同时能够为后续的测试工作提供可行的建议，从而为用户提供更加准确的数据分析结果。值得一提的是，很多大数据分析企业通过不断的研究，突破以往数据分析理论的约束，通过新颖的方法实现数据分析，为传统的分析方法无法解决的问题提供了解决之道，在很多领域中都得到了广泛的应用。三位数学领域的权威专家共同成立的ayasdi公司即为其中之一，这一公司基于拓扑数据分析技术以及大量的机器学习算法开发出性能十分突出的数据处理功产品，从而对各种复杂的数据集进行处理，不但

23、能够采集到更多的高维数据空间里面的拓扑信息，并且能够提供很多以往的方法无法提供的小分类，该产品如今已经被应用到基因和癌症研究方面，在医疗保健领域起着重要的作用，一位医生就是利用该产品发觉14种乳腺癌变种的，另外该产品在金融服务行业中也积存了一定的用户。如今，很多国家已经从战略层面来思考大数据的作用和价值，并进行了全面的部署，从而紧跟大数据技术革命的潮流。尤其是一些it强国，比如美国等，为了促进大数据技术的应用和进展，不但制定了全面的战略和法律，并且拟定了科学的行动打算。而在澳大利亚，一些有着较强综合实力的银行，针对小微企业这一客户，打造了无偿的大数据分析服务，期望通过这种附加的服务，提高客户忠

24、诚度的同时，吸引更多的客户，通过此项服务，银行帮助小企业进行客户和竞争对手的分析，使其对其自身的财富结构、消费者购买倾向、竞争对手客户结构等情况有更加全面的了解。当然，大数据分析是需要大量的原始数据的，而这些数据都是银行通过零售业务积存的，不但数量较大，而且准确性更高，因此银行提供的分析结果比大多数市场分析机构提供的结果更为全面和准确。很多小企业就是看中了这方面的服务，才成为银行的客户的。大数据也为危险控制方面的创新创业注入了有力的活力，比如来自美国的一家创业型企业，为了让银行更准时地了解贷款危险，将电梯运行的数据和黄页数据结合在一起进行分析。我们知道，如今有很多企业都是租借办公楼的某一层或某

25、一区域的，办公楼往往都是高层建筑，电梯是此类建筑的标准配置之一。电梯在运行的过程中，会产生各种数据，比如在其中一层停留了多少次等。黄页信息具有公开性的特点，一般的个人也能便利地查到，比如办公楼的某一层被哪一个企业所租赁等，将这两方面的数据匹配起来，就能够确定每天电梯在特定的企业停留多少次。若这一数据在短时间内出现大幅降低的情况，或许可以证明公司的员工数量或到公司拜望的客户数量降低，该公司经营状况有所下滑，这对银行来说是非常重要且有价值的信息。如果银行能够在贷款后治理的过程中准时地了解这一信息，将能够实现对贷款危险的跟踪治理，相比以往每季度进行的全面检查，能够更加准时地反映出危险状况。当然，这

26、一案例仅仅是大数据技术对金融机构作用的“冰山一角”，其应用前景还需我们去探究、去开发。但现实却是，尽管大数据处理技术的进展十分迅速，但金融机构在应用大数据方面的表现并不理想，导致这一现状的原因是什么？为了寻求这一问题的答案，波士顿咨询公司从全球范围内选择几十家金融机构展开调查研究，以期发觉数据发挥其价值的整个过程，并因此寻觅到限制其价值发挥的节点之所在。该公司通过研究发觉，数据发挥价值的过程由七个环节构成，即数据收集、获得数据拥有者的许可和信任、储存和处理技术、数据科学/算法、协调、洞察、嵌入式变革。同时他们还指出，限制数据价值发挥的节点是数据拥有者的许可和信任以及协调这两个环节，这反映出数据

27、整合不力、金融机构内部不同部门协调不畅的问题。比如，很多银行的问题在于各个部门比如零售、对公等方面的数据并未充分地共享，同时技术和业务部门之间的沟通不够有效，数据很难转变成生产力。1.2.2 国内大数据在金融领域进展现状截止到2021年，国内很多企业开始全面部署大数据处理技术，这种技术也因此成为生产环境中最重要的核心企业级系统。大数据的受关注程度有所降低，但这并未影响到其进展速度，这方面各种产品不断走向成熟，更多的财富百强企业开始将其应用到生产经营活动中去，一些初创企业也通过此项技术的应用找到了新的盈利增长点。毫不夸张地说，大数据技术已经成为国民生活中重要的基础设施之一。大数据处理技术对金融企

28、业内部各个部门都有着一定的用途，比如从销售部门来看，该部门工作人员可以对客户性格、资产、所属行业等方面的数据进行分析和挖掘，以客户购买倾向为依据，对客户进行排序，从而让销售员将更多的时间和精力放在购买倾向更强的客户身上，提高销售成功率。对于企业宣传部门而言，在完成市场情绪分析的基础上，能够编辑出更简洁使客户共鸣的文案，帮助企业塑造更好的形象，提升投资者对企业的信念。对于企业法务部门而言，大数据处理技术能够“阅读”大量的合同，并根据具体的案件对法院的判决进行模拟，给出各种判决结果的概率，为法务部门选择辩护思路提供依据，在不久后的未来，企业的初级法务工作或许可以完全交由大数据处理技术完成。除此之外

29、，从研发、策划部门的角度来看，大数据技术能够揭示出企业数据内部的关系，从而为基金经理进行行情推断、投放广告、向客户推举金融产品等提供更有力的依据。大数据的应用价值和作用早已得到了实践的验证，其在人们生活的不同领域发挥着日益重要的作用。整体来看，大数据金融具有普惠性的特点，它让人们能够享受到高效、平等的金融服务。如果某一家金融机构能够了解大数据的规律，这就意味着掌握了更大的核心竞争力，企业销售业务量因此会大幅增长，企业市场份额因此而提高。当前，大数据分析的理念和方法在国内进展迅猛，但现有的这方面的研究成果基本上都来自计算机科学领域的研究人员，这些学者在进行这方面的研究时，基本上都是从信息科学角度

30、出发的，将主要的关注点放在大数据采集、保存、处理、挖掘等上，针对具体企业进行研究，探讨大数据对企业治理、决策作用的研究成果相对比较少，在学科的融合这一点上做得不太到位，知晓商业语言同时能够独自清理和组织大数据的专家人数略显不足。1.3 论文的组织结构本课题研究主要由以下六部分组成：第1章是绪论，阐述本课题研究背景和意义，从分析金融领域大数据使用史，进而引导出本课题的创新性，并指明本课题研究思路。第2章论述股票二级市场的状况，详细阐述了k-means算法的基本原理、神经网络在选股的作用原理。第3章结合现有股票预测原理的基础上，提出的多聚类分析股票数据的方法，结合分类算法对股票数据进行训练，

31、形成基于聚类分析的智能选股算法。第4章对智能选股算法进行验证，对验证方案进行阐述准备，并通过matlab进行聚类实现，最终得出最优参数下的聚类结果。第五章设计整体选股系统，结合第三章给出的基于聚类分析的选股算法，利用hadoop技术设计一个简洁。稳定高性能的智能选股系统。第六章对本课题研究内容进行归纳，提出针对性和可行性建议，指明未来该领域的研究方向，并客观地指出本课题研究的不足之处。2 相关理论技术基础及可行性分析2.1 股票二级市场的状况股票市场是股票发行和交易的平台，参加这一市场的主要主体包括了：交易所、中介机构、自律性组织、监管机构、投资者等。1990年底，为了推进改革开放，满足国内

32、经济增长的需求，政府经过多年的准备后，在上海、深圳两地成立了证券交易所，我国也因此成为全球第一个拥有资本市场的社会主义国家。当前，在国内a股市场上市的企业超过了2500家，股票总市值排名世界第三。在过去将近三十年的历程里，国内股票市场在帮助企业筹集资金、提高企业融资结构合理性方面作出了无与伦比的奉献，为我国经济的进展制造了更好的环境。如今，该市场中能够交易的证券包括了a股、b股、企业债券、可转换债券、国债等。越来越多的个人和机构迈入投资者队伍中来。中介机构是证券市场的重要参加者，国内这一机构的出现，可以追溯到上世纪八十年代中期，在此后的十年间迅猛进展。统计数据显示，我国一共拥有超过90家的证券

33、公司，开展证券业务的会计师事务所超过100家，律师事务所超过300家，资产评估机构超过100家，证券评级机构一共2家。同时，更多的国民将投资目光转向证券市场，2021年6月，国内在证券公司开户的个人达到2亿人之多。然而就目前的现状来看，国内的股票市场和国外市场的关联性并不强。国内资本市场存在一系列的问题，比如市场结构合理性程度低、在资源配置方面的作用并未完全体现出来、市场约束机制不够有力、市场运行机制不够完善等，要解决这些问题，有赖于资本市场自身的调整和优化。a股市场长时间保持低迷，这是市场调整所一定经历的阶段。整体来看，国内股票市场的特征主要体现在这些方面：1、在企业性质上，包括了国有企业以

34、及民营企业。国有企业：此类企业的治理目标和股东利益存在一定的出入，国企追求的终极目标，并非红利的最大化，而是对国家建设和人民生活奉献的最大化。在过去的一段时间内，银行股的股价不太理想，而在香港的保险公司则长期保持这种低迷的表现，尤其是信托行业，其情况更加令人堪忧。境外的经验告诉我们，从短期的角度来看，信托的利润是非常可观的，但从中长期的角度来看，股东要承受较大的危险，这是欧美地区上市企业对信托行业不太感兴趣的主要原因之所在。民营/私营企业：过度竞争。我国拥有的汽车、水泥、钢铁企业数量居全球首位，一个行业中存在过多的竞争者，很有可能会出现恶性竞争行为，啤酒行业利润低于其他国家就是最好的证明。当然

35、，这种现状并不是有弊无利的，它能够提高行业的竞争性，降低生产和经营成本，提高在全球市场中的竞争地位，但会对股东利益造成影响，导致企业盈利能力降低。私营企业，格外是家族企业在未来的进展充满更多的不确定性。3.企业作假，存在严峻的内幕交易情况，虽然这种情况在各个国家都有，但相比来看，在国内更为严峻。2、股票政策目标的不合理，现行的很多针对股市进行监管的政策，其目标不是以爱护股东为主。2021年到现在，美国证监会总共开出249张罚单，远远多于我国。从治理层面而言，美国证监会的首要爱护对象为股东，企业甚至是经济都没有股东那么重要。3、投资者基础不理想：投资者投资理念不够成熟，没有足够的资金用于长期投资

36、，大部分都追求的是短期利益。首先，在投资目的上的差异，以巴西为例，该国股市上最大的投资者是以长线投资为主的机构，并非个人。一旦股市出现大幅的波动，机构投资者也会陆续投资和交易行为，而在国内90%都为散户，在这种情况下简洁撤离。其次，上市企业忽视了长期投资者的利益。不管是国企还是民营企业，都身处竞争过度的逆境，大部分的企业并未对未来5-10年的进展进行科学的规划。所以从个人层面而言，难以进行长期投资。在国内，企业在五年后跨行的事件屡见不鲜，很多投资者选择短期投资也是无奈之举。在过去的几年间，越来越多的个人将投资的目光转向二级市场，然而上市企业对分红的积极性并不高，大部分投资者都是通过差价抓取收益

37、的，因此将近八成的投资者每天所跟踪的，就是股票价格的波动并对大盘的波动情况进行预测，国内股票市场的驱动力来源在于散户，因此学者们在进行股票市场方面的研究时的，都将关注点放在股价的波动和如何进行更准确的预测上。众所周知，证券市场中的上市企业身处宏观经济这一大环境，因此难免受到影响。所以，在股票市场中投资时，通常都会结合当下的经济形势进行考虑，选择可能会带来收益的上市企业股票。要准确的推断经济形势，通常都需要结合政府相关部门制定的财政和货币政策，以及披露的行业数据进行全面的考虑。财政政策是政府根据当前社会各个方面的进展目标而提出的财政工作总体方针，政府制定和推行此项政策的主要目的，是对国民总需求进

38、行调整。从财政政策的角度能够了解进展空间，通过经济数据对进展取得的成绩进行检验。各种经济数据和货币政策存在紧密的关联，货币政策指的是政府或央行为引导经济活动朝着预期的方向前行而制定的货币方面的政策，主要目的是对货币供应和利率进行控制，通俗来说就是调节货币的流通量，这一参数在很大程度上决定了国民的消费能力。比如，当政府推行收缩性货币政策时，利率就会因此而提高，消费者难以从银行手中猎取贷款资金支持，或者不情愿承担高额的利息而放弃消费，所以此项政策对房地产行业的进展具有打压性的作用，在这种情况下理性的投资者就会远离房产股。通过分析对经济形势有全面的了解后，后续工作主要是找到进展前景比较好的行业了。以

39、行业中竞争者数量、产品性质、企业价格控制能力等为依据来看，市场包括了四种类型，即完全竞争、垄断竞争、寡头垄断、完全垄断。接着对确定的行业的周期性展开推断，行业进展状况和宏观经济状况之间存在一定的关联，不过各个行业这一关联性的强弱程度存在或大或小的差异，根据这一差异可以把各个行业分成三种，具体如下表2-1：表 21 行业分类表增长性行业该行业的变动趋势和宏观经济并非未完全同步，表现出较强的增长性，无论经济处于增长或衰退阶段，行业都有可能表现出增长的趋势。周期性行业该行业的变动趋势和宏观经济是完全同步的，比如钢铁、有色金属、煤炭等行业，都属于这一类。防备型行业无论经济处于周期中的哪一阶段，行业的进

40、展都比较稳定，比如视频业、公用事业等，都属于这一类。无论是哪一种行业，都不可幸免地会经历成长、衰退等阶段，此即为行业生命周期理论的核心之所在。投资者能够按照专业的偏好对特定的行业展开分析。从稚嫩期、成长期、成熟期、衰退期来看，每个阶段行业中应该选择的企业是不同的。针对稚嫩期行业，通常都会投资治理人员整体素养较高的企业；针对成长期行业，通常都会投资技术成熟、市场容量大、产业关联性更强的企业；针对成熟期行业，企业在产品、工艺和技术方面都达到了成熟水平，企业竞争力最强；针对衰退期行业，落后的产能应该去寻觅新的替代品，也就是说企业进展的重点在于业务的转变。目前应用比较广泛的调研方法包括了：问卷调查、电

41、话访问、实地调研、深度访谈。在正式调研之前，需要完成的准备工作包括了：采集基础性的行业数据；了解企业在过去两年或以上时间的相关数据；扫瞄市场中权威媒体公布的的文章，从而了解市场以及对手的观点和最新情况；创建模型，把采集到的关于行业和企业的数据提交给模型，确定模型预测还需要哪些未知的数据，编制调研提纲；对于未知的数据，根据市场观点以及自身的经验，对其进行估量，然后将其提交给模型，基于模型输出的结果对企业进行较为全面的推断。这一过程涉及到大量的数据挖掘工作，需要投入大量的时间和精力，当前行业研究的框架和规律是完全公开的，因此决定基本面推断结果的主要因素，是数据的准时性和准确性，了解各个行业的核心数

42、据之所在，并准时地进行更新，创建数据挖掘系统，跟踪这些数据，是准确推断行业周期的重要前提。整体而言，趋势的形成、演化的规律，在很大程度上由因果循环所决定，市场分析的重点在于趋势的推断、跟踪和迎合。因此，为了提高行情分析的准确性，一定明确和市场进展有关的各项因子。2.2 数据挖掘工作原理2.2.1 聚类算法概述聚类，指的是将大量的数据分割成多个簇，确保不同簇彼此间有着明显的区别，而同一个簇里面的数据的差异非常小。这里的簇指的是样本的集合，聚类分析让同一个簇里面的元素的关联性比其和别的簇里面的元素的关联性更强，也就是说同一个簇包含的两个元素表现出很高的相似度，不同簇里面的元素则表现出很高的相异度。

43、通过对样本的属性值进行计算，就能够确定相异度的大小，通常情况下都会选择不同样本的“距离”予以衡量。聚类分析别名群分析，它是遵循“物以类聚”的思想，将样本或指标分为不同类型的多元统计分析方法，其在数据挖掘领域有着广泛的应用、发挥着重要的价值。有了这种方法后，即便在不存在先验经验，和能够借鉴的模式的情况下，也能够以样本的特性为依据，将大量的样本分为不同的类型。在聚类之前，用户往往不确定需要将数据分成几个簇，并且没有确定划分的依据，在聚类分析的过程中，数据集的特征是不知道的，应用聚类算法的目的就是了解其特征，并因此为依据将其分为若干个簇。从这个角度来看，聚类和分类存在一定的共同点，也就是把数据分成

44、不同的组，不过二者是完全不同的两个概念。在分类之前，组已经定义好，然而在聚类时，组（通常被叫做簇）并未提前定义，是在了解数据的特征后，根据数据的相似性进行定义的。数据挖掘对聚类分析的要求主要体现在：可伸缩性，如果聚类对象达到几百万个，最终的聚类结果应该在准确度方面保持一致；能够对数据的各种属性进行处理；部分聚类算法，只能够用于数值类型数据的处理，然而在实践中，数据的类型并不局限于数值，还有很多不同的数据，比如二元数据、分类数据等。不过，这些数据都能够被转化成数值型数据，不过这样一来，聚类所需的时间会变长，最终聚类结果的准确性也会有所降低；能够找到各种形状的类簇：考虑到相当一部分的聚类算法都是以

45、距离（eg：欧几里得距离或曼哈顿距离）反映出不同对象彼此间的相似度的，在这种情况下，只能够找到尺寸、密度相差较小的球状类簇或凸形类簇。然而，在实践中，类簇的形状有很多种；对聚类算法初始化参数的知识需求是最小的：相当一部分算法的应用，需要用户提供初始参数信息，比如所期望得到的类簇的数量，初始质点等。如果参数出现小幅的改变，最终的聚类结果会出现明显的改变，准确性大打折扣，同时给用户造成更重的负担。整体而言，数据分类是对现有的数据展开分析，确定其在属性上的一致之处，同时利用分类模型将数据分成多个类别，并为每个类标记标号。类别往往都是已经定义好的，类别数量是确定的。而数据聚类，则是把不存在类别参考的数

46、据分为多个组，也就是从数据导出类标号。聚类分析是对数据进行挖掘，从而得到数据对象和它们之间的关系，然后把数据分为不同的组。每组包含的对象具有较高的相似性，不同组里面的对象是不相似的。所以说，推断分类效果的依据，是组内、组间样本的相似性的高地程度。2.2.2 k-means算法原理属于硬聚类方法，它是在原型的目标行数聚类方法基础上提出的，能够用于优化数据点和原型的某种距离，通过函数求极值的方法，从而确定迭代运算的调整规章。这种方法通过欧式距离来衡量相似度，通过计算得到对应某一初始聚类中心向量v最优分类，从而将评价指标j控制在更低范围内。该方法选择的聚类准则函数为误差平方和准则函数。对于数据挖掘而

47、言，属于算法范畴，它能够通过计算提供数据聚集，持续地取离种子点最近均值。我们用c代表聚类分析后样本集的数量，该算法的原理为：（1）恰当地选择c个类的初始中心；（2）在进行第k次迭代时，针对任何的样本，通过计算确定其和c个中心之间的距离，把样本归入到最小距离值对应的类中；（3）通过均值等方法调整这一类的中心值；（4）完成上述两个步骤后，针对c个聚类中心，若其值并未发生任何改变，停止迭代，否则就应该陆续进行迭代。这种算法最显著的优势和特征在于计算工作量小、耗时短，初始中心的选择以及距离公式直接影响到算法结果的准确性。在采纳该算法时，具体的操作步骤是：通过随机的方法，在n个数据里面抽选k个对象，

48、并将其当做初始聚类中心，对于其他的（n-k）个对象，计算其和聚类中心的相似度，也就是距离，并以此为依据，将其归入到和其相似度最高的聚类中；接着再进行计算，确定新聚类的中心，也就是聚类包含的全部对象的均值；持续重复上述过程，直至标准测度函数开始收敛。通常情况下在标准测度函数方面都会选择均方差，k个聚类的特点是：同一聚类实现了最大化的紧凑性，不同聚类实现了最大化的分隔性。算法实现的详细流程是：(1) 通过随机的方法，在n个数据里面抽选k个对象，并将其当做初始聚类中心。(2) 对于其他的（n-k）个对象，计算其和聚类中心的相似度，也就是距离，并以此为依据，将其归入到和其相似度最高的聚类中。(3)结束

49、全部对象的归类后，再次计算并更新k个聚类的中心。(4)和之前计算确定的k个聚类中心进行对比，若二者是不同的，回到步骤(2)，否则陆续。(5)输出聚类结果。通过流程图2-1方式可以描述为：图 21 k均值聚类算法的流程图首先，按照随机的方法，抽取k个对象，将这些对象当做一个簇的初始均值或中心，然后计算出未被抽取的所有对象和所有簇中心的距离，以此为依据将其归入到某一簇中，计算确定所有簇的均值，并将其当做本簇的新中心；持续重复上述步骤，直至准则函数收敛。一般情况下都会选择平方误差准则，也就是是针对簇包含的各个对象，计算出其和中心距离的平方和，基于该准则得到的簇具有良好的紧凑性和独立性。k均值聚类算法

50、的优势和劣势分析：算法的主要优势在于操作复杂性低，耗时短，尤其适用于中小型数据集，当然，它也有一定的劣势，主要体现在如下三个方面：(1) 聚类结果不确定算法是按照随机的方法确定初始中心的，而基于不同的初始中心得到的聚类结构是不同的。因此这种方法的重复性和稳定性并不好。另外，该算法往往选择的目标函数都是准则函数，而这种函数包含的全局最小值和极小值的数量分别是1和n，所以，经过一系列的运算后，有较高的概率陷入局部极小值，进而导致最终无法实现全局最优解。(2) 聚类个数不确定算法里面的k代表的是聚簇的数量，其值的大小直接影响到聚类结果的准确性。在确定k值时，通常都要结合具体需求考虑，但在大多数情况下

51、，这一需求本身是不明确的，所以这也导致了该算法的聚类结果具有较强的不确定性。(3) 数据量大、算法时间复杂度较高在使用算法时，需要持续进行迭代，为了确定最准确的聚类中心，在计算的过程中，还需要持续进行调整，只有这样才可以得到准确的聚类结果，计算的主要目的是得到不同对象彼此间的距离，因此，这种方法需要投入很多的时间，算法在效率方面的表现并不太突出。适用于分类问题的方法多种多样，其中单一的方法有：决策树、贝叶斯、人工神经网络、k-近邻、支持向量机和基于关联规章的分类等，当然也可以将这些方法组合起来使用，以更好地解决分类问题。（1）决策树决策树在分类和预测方面有着广泛的应用，决策树学习是基于实例的方

52、法，从本质上来看，它属于归纳学习算法范畴，它根据大量的没有次序和规章的实例进行推理，然后通过决策树的形式揭示出分类规章。采纳这种方法，旨在确定属性和类型彼此间的关联，从而对不确定类别的样本的类别进行推断和分析，这种方法按照从上到下的顺序进行递归，在决策树的节点上展开属性的对比，按照各种属性值推断这一节点下方的分支，最终通过叶节点猎取结论。目前应用比较广泛的决策树算法包括了和算法等。它们在选择测试属性采纳的技术、生成的决策树的结构、剪枝的方法以准时刻，能否处理大数据集等方面表现出不同点。（2）贝叶斯这种算法的理论基础在于概率统计知识，通过bayes定理，对不确定类别的样本来自各个类别的概率进行推

53、断，然后以概率为依据排序，将样本归入到概率最高的那一个样本类别中去。这一方法是建立在一个假设性前提条件下的，然而这一前提通常在现实中是不成立的，所以这种方法的分类效果并不好，准确性并不高。针对这一点，学者们不断对其进行改进和完善，由此提出了不同的改进型贝叶斯分类算法，比如tan算法等，这种算法充分考虑了属性彼此间的关联，因此相比传统贝叶斯算法，其在分类准确性方面的表现大幅提高。（3）人工神经网络人工神经网络是具有信息处理功能的数学模型，它是对大脑神经系统进行模拟后创建的，它由一系列的节点所构成，这些节点彼此间存在一定的关联，由此共同形成一张网络，此即为“神经网络”，从而对信息进行有效的处理。这

54、种方法的第一个环节是训练，通过训练让网络进行“学习”，完成学习后，节点的连接权值会因此而改变，因此能够起到分类的作用，通过训练的网络能够有效地识别对象。经过多年的进展，研究人员提出了大量的人工网络模型，其中应用最广泛的包括了bp网络、径向基rbf网络、网络、随机神经网络（机）、竞争神经网络（网络，自组织映射网络）等。神经网络的缺陷和不足主要体现在收敛耗时长、计算工作量大、无法解释等，因此还需要在未来的研究中进一步改进和完善。（4）k-近邻k-近邻(knn，k-nearest neighbors)算法是一种基于实例的分类方法。该方法就是找出与未知样本x距离最近的k个训练样本，看这k个样本中多数属

55、于哪一种类别，就将x归入到这一类中。这种方法的本质是懒惰学习方法，它把样本保存起来，如果不需要的话不会分类，针对非常复杂的样本集，如果采纳这种方法进行分类，需要完成很大的计算工作量，所以这种方法并不适用于对实时性具有很高要求的场景。（5）支持向量机支持向量机，这种方法是在统计学习理论的基础上提出的，它的主要特征在于基于结构危险最小化员原则，通过尽量大的分类间隔制造最优分类超平面，使学习机具备更强的泛化能力，因此在面对非线性、高维数、局部极小点等问题时具有不错的分类效果。针对分类问题，svm基于区域里面的样本进行计算，进而得到这一区域的决策曲面，最终确定区域里面所有样本应该属于哪一类。（6）基于

56、关联规章的分类关联规章挖掘受到了更多数据挖掘学者的关注。在过去的几年间，学者们在这方面的研究中投入了大量的精力和时间。这种方法的挖掘过程类似于的规章，这里面是项(或属性-值对)的集合，而c是类标号，这种形式的规章称为类关联规章。关联分类方法的操作过程包括两个环节：其一，通过算法在样本集里面进行挖掘，从而确定全部满足指定支持度和置信度的类关联规章；其二，通过启发式方法，在上一环节中得到的关联规章里面选择质量最高的规章，并以此为依据完成分类。（7）集成学习在实践中，需要分类的数据往往都表现出复杂性和多样性的特点，如果采纳一种分类方法进行分类，效果通常都不够理想，为此，学者们开始研究如何针对同一问

57、题采纳多种分类方法，也就是集成学习，这也是全球机器学习界最热门的议题之一，集成学习属于机器学习范式，它会持续地使用不同的学习算法，得到多个基学习器，接着按照既定的规章，将其组合在一起，以得到问题最终的解，这种思路能够使学习系统具备更强的泛化能力。2.2.3 分类算法数据挖掘的内容十分广泛，分类即为其中之一，它指的是将数据项目映射到已知类别中的某一类别，比如当学者们发表文章后，分类技术能够在无需人工操作的情况下，将文章划分到具体的类型中去，比如是属于科技类、艺术类，还是人文类等，通常情况下需要利用特定的分类算法确定分类规章，然后以此为依据完成新数据的划分。从数据挖掘的角度来看，分类这一环节的工作起着重要的作用，其用途十分广泛，比如预测等，也就是根据现有的样本数据进行推算，从而确定数据在未来的进展演化趋势，其中最经典的预测案例即为大豆学习，这种方法也

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据在选股分析中的应用

文档简介

温馨提示

最新文档

评论

大数据在选股分析中的应用

文档简介

温馨提示

最新文档

评论

相关文档