




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于BP神经网络的上证股票指数预测
ShanghaiStockIndexPrediction
withNeuralNetworks
内容提要
证券市场作为高风险高收益的投资领域一直倍受投资者的关注,如何能够准确分析和预测股票价格以便获取丰厚的收益一直受到人们的关注。于是各种股票价格分析预测和方法应运而生,如何建立一个成功率比较高的预测理论和模型是多年来许多学者一直研究的内容。
随着证券市场混沌和分形理论的逐步确立,人们开始利用神经网络对证券市场的变动加以预测。神经网络是一种重要的人工智能技术,它的研究开始于20世纪40年代,近年来,神经网络任意连续映射的逼近能力学习理论以及动态网络的稳定性分析都已取得了丰硕的成果;在应用上也迅速扩展到许多重要的领域涉及模式识别与图象处理、控制与优化、ATM网络中呼叫接纳的识别与控制、导航多媒体处理系统等等。神经网络的自适应学习非线性映射强的特点非常适合应用于经济领域的信息处理以及分析时间序列。
BP(BackPropagation)网络是一种被广泛运用的神经网络。它的核心是BP算法,一种对于多基本子系统构成的大系统进行微商计算的严格而有效的方法,结构简单,算法成熟。与传统统计回归方法相比,神经网络不仅能够学习训练集的例子,且能从训练集中提炼出某种一般性原理、规律,具有很强的非线性函数拟合特性,这对于预测短周期内股指波动有较强的适用性。
本文尝试利用基于BP算法的三层向前神经网络对上海交易所上证指数进行了预测,并针对BP网络原形的一些缺点和不足,对原有的预测方法作出了一些改进。在实际预测中取得了良好的效果。
关键词:指数预测;神经网络;BP算法
Abstract
Tobeaninvestmentregionofhighriskandhighprofit,Stockmarketattractsmanyinvestors’attentionsallalong.Howtoobtainprofitthroughanalyzingandforecastingthesharepriceaccuratelyisattractingthepeople’sattentions.
WiththedevelopingofFractalMarketHypothesis(FMH)theory,peoplehavetriedtoforecastthechangeoftheStockmarket.TheneuralnetworkisanimportanttechnologyinthefiledofAI,whichwasdevelopedin1940’s.Inrecentyears,thetheoryabouttheapproximationofrandomcontinuousmapsbyneuralnetworkandtheanalyzingofthestabilityofadynamicnetworkhavebeenusedinmanyfieldsandgainedgreatachievement.
BP(BackPropagation)isaneuralnetworkwhichisadoptedwidely.ThecoreistheBParithmetic,astrictandeffectivemethodtoderivativeproblemforsystembasedonmulti-subsystem,whichhassimpleconfigurationandmaturearithmetic.Tocomparewiththetraditionalstatisticalregressmethod,BPnetworkcannotonlystudytheexampleoftrainingset,butalsoabstractsomegeneraltheoryandrule.Ithasstrongcharacteristicofapproximationofnon-linearfunctions,whichismuchfitforstockindexanalyzedandpredictedinashort-term.
ThisarticletriestouseaneuralnetworkonthebaseofBParithmetictoforecasttheshareindexofShanghaistockexchange.MeanwhileitmakessomeimprovementtotheoriginalforecastmethodaccordingtothelimitationanddisadvantageoftheBPnetworkoriginalshape.
Keywords:StockIndexForecasting;NeuralNetworks;BParithmetic
目录
前言1
第一章股票市场的分形特征及其指数的预测方法2
第一节:股票市场的分形特征2
1.传统的有效市场假说2
2.分形市场的假说(FMH)3
第二节分形市场的判断5
1.分形市场的常用判断方法5
2.使用R/S法计算Hurst指数5
3.R/S计算的结果分析10
第二章利用神经网络对具有分形特征的时间数列进行预测.10
第一节常用的混沌时间序列分析预测方法10
第二节神经网络的基本原理10
1.人工神经网络的历史11
2.神经网络的特点12
3.神经网络的基本原理13
第三节基于BP算法的三层向前的神经网络15
1.多层次的神经网络15
2.BP网络的基本原理16
第三章对BP神经网络的改进17
第一节BP网络的缺陷17
第二节与BP算法相结合的遗传算法18
1.遗传算法简介18
2.遗传算法的基本原理19
3.遗传算法与传统BP神经网络的结合20
第三节在样本输入中添加随机噪声21
第四节多个神经网络集成预测22
第四章实证结果及其分析24
第一节神经网络结构设计24
第二节利用BP神经网络预测上证指数的流程26
第三节实际预测结果28
第四节对预测结果的分析和思考34
第五节总结35
前言
从股市诞生一百多年以来,不断有人用各种方式研究股市运行的规律,人们希望能从复杂多变的股市中找到一个规律来预测股市未来的发展,从而通过证券交易获得最大的投资净效用。另一方面,随着证券市场的飞速发展,证券市场与经济发展的关系越来越密切,证券市场在成为世界公认的经济晴雨表的同时,也对经济的发展产生着发作用。因此预测股票市场的变化趋势更对经济发展的管理和调控有着重要的参考作用。
如何能够准确分析和预测股票价格?各种股票价格分析预测和方法应运而生,如何建立一个成功率比较高的预测理论和模型是多年来许多学者一直研究的内容。国外的研究者先后提出了一系列的定价理论和投资组合模型如马柯威茨的投资组合理论夏普等人的CAPM以及罗斯的APT然而投资者们发现虽然这些理论极大地开阔和提高了投资者的思想理念及其对风险和收益的辨证理解但对实际操作却缺乏明确的指导作用。
随着近年来人工智能方法研究的发展以及证券市场一些特性逐渐被人所揭示,一些新的预测方式开始浮出水面。神经网络由于其在分析和预测时间序列方面的独到优势,逐渐成为构建证券预测模型的有力工具。
我国证券市场自90年代初期成立以来,虽然经历的时间只有短短15年。经过15年的努力,中国证券市场取得了巨大的成就,当前深圳、上海两家证券交易所总市值达到4万多亿元,已经有1300多家的上市公司,7000多万名投资者。对我国证券市场走势的预测同样有着重要的意思。
上海证券交易所编制的上证综合指数,该指数以1990年12月19日为基日,以该日所有股票的市价总值为基期,基期指数定为100点,自1991年7月15日起正式发布。上证指数将上海交易所流通股票的总市值的变动以指数的形式表示出来,易于计算。上证指数的变化情况准确的反映着证券市场的波动情况。对于上证指数的预测工作不但能够帮助资本市场的投资者对后市发展进行分析获取收益,对分析和微调我国经济发展方向也有着重要的参考价值。
本文在意在研究股票市场的一些基本的特点,通过尝试利用神经网络对上证指数的变化趋势进行了预测,探索为预测我国证券市场指数的变动提供了一种具有一定准确性与可操作性的实用方法。
第一章股票市场的分形特征及其指数的预测方法
第一节:股票市场的分形特征
传统的有效市场假说
美国经济学家Fama1965年在其经典文献中提出了有效市场假说(EfficientMarketHypothesis,EMH),他认为投资者对市场信息会作出合理的反应,应该将市场信息与股票价格相结合。在EMH假说里,市场是一个鞅,或“公平博弈”,即信息不能被用来在市场上获利。即“如果在一个证券市场中,价格完全反映了所有可获得的信息,那么就称这样的市场为有效市场”。
经济学家Roberts根据信息集的不同内涵,区别了三个层次的市场效率,即弱型效率、半强型效率、强型效率。这种分类法被Fama确定而成为经典。
这三种信息集分别为:(1)历史价格信息,通常指证券过去的价格和成交量;(2)所有可公开得到的信息,包括盈利报告、年度财务报告、财务分析人员公布的盈利预测和公司发布的新闻、公告等;(3)所有可知的信息,包括不为投资大众所了解的内幕信息。与这三类信息相对应,有效率的市场可分为弱型效率、半强型效率、强型效率。
弱型效率(Weak-FormEfficiency)认为价格反映了包含在历史价格序列中的所有信息,投资者不能通过分析历史价格获得超常收益,这意味着技术分析无效。弱型效率是证券市场效率的最低程度。
半强型效率(Semistrong-FormEfficiency)认为如果市场达到半强型有效,则分析资产负债表、损益表、宣布股利的变化或股票拆细和其它任何有关公司的公开信息不能获得超常收益,这意味着基础分析无效。半强型效率是证券市场效率的中间状态,证券价格已充分、及时地反映了公开信息。
强型效率(Strong-FormEfficiency)认为市场参与者知道的有关公司所有的信息都已充分反映在股价当中,即使那些拥有优越信息的人也无法获得超常收益。强型效率是市场效率的最高程度,它包含了弱型效率和半强型效率。
如果市场是有效的,意味着即使是专业投资人也无法败市场,那么实际上就否定了积极管理的投资理念。相反,如果市场无效,那么投资者和投资机构就可以通过构造组合,创造超过市场的收益。
市场有效性假说是理性预期学派理论的重要基础,它是数量话资本市场理论的基础,现代经典的资本市场理论以及证券技术分析方法很多都是从EMH假说上发展起来的。
进入上世纪80年代,在探寻一般均衡定价模型进展不大的情况下,人们开始将定价理论的研究方向转向注重市场信息的考察。经过实证检验,邦德特和塞勒(BondtandTheler,1985)发现股市存在投资者有时对某些消息反应过度(overreact),而杰格蒂什(Jegadeesh,1990)、莱曼(Lehmann,1990)等则发现了股价短期滞后反应现象,由此,杰格蒂什和迪特曼(Titman,1993)认为投资者对有关公司长远发展的消息往往有过度的反应,而对只影响短期收益的消息则反应不足,关于这一点仍然存在着争论,尽管如此,信息与股价之间应存在着某种关系得到了经济学家们的认同,并且,弗伦奇和罗尔(Roll)的实证研究证明了股价波动幅度与可获得信息量之间存在着良好的正相关关系。
然而,EMH假说同样存在着明显的缺陷:一是对信息的反应,并非以因果关系的形式呈现,由于信息的分布是狭峰态的,因而价格变化的分布也应该是狭峰态的,从而人们对信息的作出的反应是非线形的,一旦信息水平达到了某个临界值,人们才会对所忽略的信息作出反应,并直接达到临界值。二是EMH假说没有涉及到市场的流动性问题。一个稳定的市场有EMH描述的有效市场并不相同,一个稳定的市场是一个富有流动性的市场。如果市场富有流动性,那么可以认为价格是接近公平的,然而市场不是一直富有流动性的。三是市场的有效性并不一定意味着随即游走,但随即游走的确意味着是市场是有效的。四是市场的有效性检验,对市场的有效性检验仍然停留在最初的随即游走模型上,然而满足随机游走模型只能看作是市场有效性的充分条件而不是必要条件。不满足随机游走模型的市场不一定就是无效的。五是有关效应的问题,股票收益的季节性,大小效应等都不利于EMH假说。①
上世纪80年代以来的许多相关的统计检验也出现了与有效市场理论假设相冲突的股价异常现象,即证券市场异象。出现了任何一种股票或其组合的平均超常收益率不为零的证券市场异象,并且诸如价值异象、时间效应、规模效应、公告效应、处置效应等异常现象在金融市场上频繁出现,运用EMH理论却很难解释。
以Manddlborot为代表的一些学者对EMH理论提出了质疑,他们认为资本市场的收益率并不服从正态分布,其分布具有尖峰、厚尾等特征,实际上服从稳定帕累托分布。在这类分布中,方差是无定义或者无限的,在一定的条件下它对应与分数布郎运动,具有自相似、长期相关、统计相关等特性。因此传统的的资本市场方法无法准确的反映市场的。①
1.1.2分形市场的假说(FMH)
面对EMH理论的种种不足,金融学家们开始尝试利用非线性方法与混沌思想来理解股票市场行为,并开始探索的描述市场特性的假说。20世纪80年代初,美国经济学家Stutzer最先将新兴的混沌理论和方法用于分析宏观经济中非规则增长和经济增长中显现的混沌等问题。之后不久,国外经济学家们便开始运用混沌理论,研究和探讨包报财政、金融在内的经济和管理方面的问题,特别是有关证券市场股价指数、汇率变化方面的研究格外引入注目,金融证券市场越来越多的混沌特征被逐步揭示了出来。
分形原理作为混沌研究的重要组成,近年来取得了很大进展。1996年EdgarE.Peters在《ChaosandOrderintheCapitalMarkets》一书里提出了分形市场的假说(FractalMarketHypothesis,FMH),将分形理论用于资本市场,并且成功的建立了标准普而500家公司股票日周月年之间的收益曲线的自相似性。
分形是20世纪70年代后发展起来的一门新兴的复杂科学,它研究的是一种特
__________________________________
①伍恒煜,林详“金融市场非线形:混沌与分形”,«商业研究»,2003年第7期
殊的复杂系统——“自相似”系统,即在不同标度下存在相同或相似特征的系统。分形的一个奇怪性质是,它们不具有通常情况下用于测量的特征标度,并且具有特殊的特征量:介于整数维之间的分数维。著名的海岸线测量就是分形的一个例子。人们发现在测量海岸线长度时,所测长度取决于用来测量的尺子长度,尺子越短,所测的实际长度就越长。其原因是所用的尺子越短,系统内部相似的细微结构就越多地被揭示出来。
在金融市场上,我们也观察到类似的分形结构。价格序列在日、周、月的轨迹具有相似性,我们无法确切地将它们分辨开来。基于这一观察,以及金融市场分形性质的不断发现,Peters提出的分形市场假说,即金融市场本质上是一个复杂系统,而分形是刻划这一系统的有力工具。依据最近的研究进展,我们对这一假说提出部分修正:即金融市场事实上是有界的分形系统。有界分形指的是市场的分形性质是有界的,金融市场上并不存在无限尺度上的自相似特征。
分形市场是指市场是内在波动的,不存在一个静态的均衡。同时向投资者提供了一个稳定性和流动性的环境。这里的稳定不是均衡,而是相对市场的崩溃而言的。不同于有效市场假说,分形市场理论认为,信息依照投资者的投资偏好而被评读。因为具有不同的投资偏好的投资人对信息的评估是不同的,所以信息的传播也是不均衡的。市场价格不可能每一次都反映出所有相关的信息,而只是反映出投资人偏好的那部分信息。这样的结果就是市场的强烈波动被吸收而呈现出稳定发展的形态。FHM理论认为市场价格是保持流动和稳定性的结果,而不是EMH认为的博奕结果,价格不能线形的反映出所有的信息,价格的变化不是相互独立的。在分形市场上是不存在理性人的假设,投资人的决策依赖于历史的经验,证券价格具有一定周期的长期记忆性。只有在市场面临突发的重大事件,大部分投资者对信息的观点相同的时候,才会破坏这样的稳定性,造成突然的暴涨和暴跌行情。
分形市场假说主要考察金融市场上存在的长程相关(Long-rangedependence或Longmemory)和标度行为(Scalingbehavior)。通过全新的观念和工具,它为揭示金融市场可能存在的内在结构提供了新的洞察力。
分形市场假说强调了流动性的影响已经基于投资者行为之上的投资偏好。分形市场假说的目的是给研究者一个符合实际观测到的投资人行为和市场价格运动的模型。
FMH的主要内容包含了以下5个方面:
(1).市场由众多投资者组成,他们具有不同的投资时间尺度,如长线的或者短线的,这使他们有着不同的投资行为。
(2).信息对于投资时间尺度不同的投资人的影响是不同的,短线的投资者主要是投资行为主要是频繁的加交易,因此他们比较关注技术分析信息,而基本面的信息经常被忽略。长线的投资者则认为技术面的分析的信息不能用于长期的的投资决策,只有对证券的内在价值进行评估才能获得长期的投资收益。
(3).市场的稳定在于市场的流动性的保持,而要作到这点需要大量的具有不同的时间投资尺度的投资人的存在。在证券市场上,正是因为具有大量不同投资时间尺度的投资者的存在,才使得市场稳定而具有活力。当所有投资人的尺度如果趋向一致的时候,市场的稳定必然被破坏。
(4).基于以上特点,证券市场的价格是长线基本面分析和短线技术分析共同作用的结果。一般来说短期的价格比长期的价格变化更具有易变性。市场发展的内在趋势反映了投资者期望收益的变化,并受到整个经济大环境的影响。短期交易行为更多的是从众行为的结果,因此,市场的短期倾向与市场的长期趋势并无内在的一致性。
(5).如果证券与经济循环没有关系,那么就不存在长期的趋势。交易、流动性和短期信息将在市场里起到决定性的作用。①
FMH和EMH理论的不同在于,分形市场假说认为资产的价格并非纯粹的随机运动,而是服从一定的规律分布,是由价格决定系统的混沌性质所引起的。FMH理论强调信息对不同投资时间尺度的投资者所产生的影响是不同的,信息传播是不均衡的,价格变化不是独立的。
第二节分形市场的判断
1.2.1分形市场的常用判断方法
那么怎么判断一个市场是不是存在分型特征呢,要描述一个系统的分形特征,经常被采用的方法包括:
(1).相关维。相关维指标的作用在于用来判断对象系统的行为是否混沌的,说明了为描述该系统所需要的最多独立变量数,独立变量的个数某种程度上反映了系统方程的复杂程度,但不能完全反映系统结果的复杂程度。
(2)、李雅普诺夫指数。利用李雅普诺夫指数可以判断对象系统的行为是否混沌的;该指数还说明了该系统的动力行为在某个方向上是指数发散或收敛的。李雅普诺夫定量地给出了系统在某个方向上发散的速度,因此从最大李雅普诺夫指数我们可以知道系统包含的信息损失的最大速度,最大李雅普诺夫指数的倒数就给出了对象系统的最大可预报时间。
(3).Kolmogrov嫡。到目前为止,Kolmogrov墒仅用于判断数据结构中的混沌性质。
(4).Hurst指数。Hurst指数说明了时间序列的持续性行为。大于0.5的Hurst指数表明序列是持续性的;小于0.5则序列是反持续性的。Hurst指数还反映出时间序列的分形特征,从时间尺度上看,Hurst指数越是靠近0.5,序列的结构越复杂,其时间曲线越是曲折。②
1.2.2使用R/S法计算Hurst指数
用R/S分析法计算Hurst指数的方法是一种常用的,用来检验系统是否具有分形特征的办法,具有简单易行的特点。
__________________________________
陈永忠“分形市场假说下的风险度量“,《经济师》2004年第8期
PetersE.E"FractalMarketAnalysis:ApplyingChaosTheorytoInvestmentandEconomics"
[M].JohnWiley&Sons.IncNewyork1994
这种方法是Hurst长期研究尼罗河的流量变化后提出的。在多年的水文数据中,他发现数据不服从布朗运动及正态分布的特性。为了合理控制水库的泄水量使其保持不枯不溢的理想状态,Hurst测算了水库蓄水量随时间在平均水平附近波动的范围。Hurst用这个变动范围除以观察值的标准差得到一个无量纲的量,使不同的序列具有可比性。这种分析称为重标极差法(rescaledrange),也称R/S法。是一个时间序列中n个数据偏离其均值的累加值的极差,称为n个数据的极差,表示时间序列最大的变化范围;是时间序列的标准差,表示偏离均值的程度,是分散程度的测度。表示极差的大小重新用来衡量,这就是重标极差法的名字的由来。
R/S法可以用于统计分析可用来研究一大类问题,对于方差发散或有长期记作用的随机过程都适用。下面是R/S分析的具体过程。
考虑一个收益率序列,,…,。偏离均值的累积和为:
(1)
其中,是n期的累积偏差,是n期的平均值。
n个数据的极差就是式(1)最大和最小值之差:
={}-{}(2)
其中,是X的极差。
为了比较不同类型的时间序列,用极差除以标准差(即重标极差)得到:
=(3)
其中,
重标极差应该随时间而增加。
Hurst建立了以下关系:
R/S=a*(4)
其中,a为常数。
如果序列是一个随机序列,H应该等于0.5,即累积离差的极差应该随时间的平方根增加。一般地,H不等于0.5,可这样求出:
对式(4)两边先取对数得:
ln(R/S)=Hlnn+lna(5)
因此可画出ln(R/S)和lnn的双对数图,做二元回归拟合。
直线的斜率就给出了Hurst指数的一个估计,截距就是ln(a)的一个估计
其中H即是Hurst指数,a为相关系数。
当H=0.5时,过去和未来增量间的相关系数为0,表明现在不影响未来,这说明增量过程是一个独立的随机过程,布朗运动是其特殊情况。
当H≠0.5时,为分数布朗运动。此时,增量之间不再相互独立。但是这个过程与马尔科夫过程所具有的短期记忆行为不同,分数布朗运动的记忆作用是长期的。(而且长期记忆只与Hurst指数的大小有关,没有标度性,因此它具有分形的特征)H值指示了这种长期记忆作用的特性。
①0.5<H<1,有持久性效应。表明过去一直增长意味着未来这种趋势将继续下去,而且对任意大的时间t都是如此。反之,过去的减少趋势就平均而言,意味着未来的连续减少。H越接近1,趋势越明显;H越接近0.5,逐渐趋于随机性。这种长期记忆作用使得随机过程呈现一定的趋势,增量间有一定的正相关性,。绝大多数资本市场都符合持久性时间序列特征。
②0<H<0.5,增量间是负相关的,称为反持久性效应(antipersistent)。如果过去是增长的,则下一时刻下降的可能性更大;反之,过去是下降的,则下一时刻上升的可能性更大。反持久性效应的强度取决于H接近0的程度。H越接近0,则C越接近-0.5,负相关性越强。
我们知道,证券的指数、价格等都是一个时间序列,可以用以上办法计算出Hurst值,如果Hurst值大于0.5,说明系统存在分形的特征。
1.2.3上证指数序列的Hurst值的计算
我们使用R/S法对我国上海交易所1997年5月以来的上证指数的分形特征。选取的时间区间1997.5.14到2005.8.23日作为研究的时间段,在这段时间内共有正好2000个交易日数据。
R/S分析步骤
首先对2000个收盘数据序列进行处理,设t日的收盘数据为,计算的对数收益率
=ln()-ln()(5)
为了去掉对数收益率的线性相关性,我们对进行AR(1)的自回归得到其残差序列:
=-(a+b)(6)
其中,a和b是回归模型AR(1)的系数,{}为残差序列,经过回归计算,有:
a=-0.0147,b=0.0001
选取时间增量n。对于确定的n和1999个值的{}序列,我们可以得到[1999/n]个时间段,在每个时间段我们都可以计算出对应的R与R/S,为此可以得到[1999/n]个的R/S,求这些R/S值求平均值作为在时间增量为n时的R/S估计值。我们这里将n的起始取值定为5,即1个交易周;
对所得到的结果,既n=5,6…1000的取值区域分别做ln对ln(n)的回归,取ln(n)的参数估计作为H的估计;
结果如下图1:
图1
计Vn=/,VN统计量同样也可以用来很好地估计非线性系统长期记忆过程的长度。观察序列如图2所示,在n=308时出现明显从上升转为下降,的现象,可以知道n=308是一序列长期记忆的消失点。对5<n<308的这个区域做一次回归,计算Hurst指数,得到H=0.608
图2
1.2.3R/S计算的结果分析
通过上面的计算,我们得到H=0.608,由于计算所跨越的时间长度比较长,所以这个H值稍微小于国外的一些证券市场利用R/S法计算出的Hurst指数值,并不说明我国的市场成熟度比国外市场来的更佳。一般的,系统的分形维数为2H,可见上海指数从1997年5月14日以来的指数序列是具有分形特征和持续性的,上证指数的时间序列的确存在着混沌现象。因此,我们知道上证指数不是随机变化的,而是一个有偏的随机游走,不完全属于EMH理论分析的有效市场,而是在一定时期内相关的。
既然上证指数具有分形市场的特点,那么我们是否能够在此基础上对其走势进行分析和预测呢。
第二章利用神经网络对具有分形特征的时间数列进行预测
第一节常用的混沌时间序列分析预测方法
由于混沌时间序列不是完全的随机游走,而是有偏的,所以我们可以利用
这个特点对混沌时间序列进行预测。
通常的做法是根据实际问题正确地建立描述系统的动态数学模型,然后求解
这个数学模型,最后反过来根据计算结果进行预测,传统的预测方法主要有动力学方法和数理统计方法,这些方法的共同特点是先建立数据序列的主观模型,然后根据主观模型进行计算和预测。常用的建立模型的方法主要有两种:一是时间序列关系模型,在这类的模型中被预测的对象的演变过程为一时间的函数;另一种是结构关系模型这类模型的特点是被预测的事物与其影响因素之间在一定的时间内保持着某种固定的函数结构关系。
混沌时间序列预测的常用方法:全域法、局域法、加权零阶局域法、加权一阶局域法、基本李雅普诺夫指数的时间序列预测方法等。
时间序列关系模型与结构关系模型一般对被预测对象都有具体而且严格的要求这就要求我们在做预测之前必须对被预测对象做深入系统的分析只有在确认某类预测模型的前提条件得到满足的情况下才可以使用该模型进行预测否则预测结果是不可靠的股票市场作为现实经济运行状况的直接体现其影响因素如GDP增长率汇率及国内外政治形势等时常发生较大的变动所以要确定和修改模型的结构确非易事。另一方面一般计量统计的时间序列模型很难处理高度非线性的问题而实际上股票市场与其影响因素之间存在着复杂的非线性关系已有大量的实际数据表明股票市场是一个具有混沌现象的非线性动力系统
随着混沌科学的发展,使得可以不必事先建立主观模型,而直接根据数据序列本身所计算出来的客观规律(如李雅普诺夫指数等)进行预测,这样可以避免预测的人为主观性,提高顶测的精度和可信度。
近年来,由于计算机与人工智能技术的飞速发展,为股票市场建模预测中新技术新方法的应用提供了有利的条件。人工神经网络(ArtificialNeuralNetworks,简称ANN)是由大量简单的处理单元——神经元按照某种方式联结而成的自适应的非线性系统。它的每一个神经元的结构和功能都很简单,其工作是“集体”进行的,它没有运算器、存储器、控制器,其信息是存储在神经元之间的联结上的,它是一种模仿人脑的神经系统结构和功能的物理可实现系统。
因为人工神经网络广泛的适应能力、学习能力和映射能力,在多变量非线性系统的建模方面取得了惊人的成就,成为新兴的预测时间序列的方法。人工神经网络模型具有巨量并行性,存储分布性,结构可变性,高度非线性,自学习性和自组织等特点,而且可以逼近任何连续函数,目前广泛应用神经网络作为非线性函数逼近模型。ANN的最大优点是不需依赖于模型,所以非常适合用于股票市场的预测,因为股票股市的建模与预测所处理的信息量往往十分庞大,对算法有很高的要求.它的非线性动力学特性非常复杂,所以一般传统的方法对于股市的预测往往难如人意。
因此,我们选取了人工神经网络作为预测上证指数的工具。
第二节神经网络的基本原理
2.2.1人工神经网络的历史
20世纪50年代末F.Rosenblatt提出了著名的感知机Perceptron模型这是第一个完整的神经网络这个模型由阈值单元构成初步具备了诸如并行处理分布存储和学习等神经网络的一些基本特征从而确立了从系统的角度研究神经网络的基础。1960年B.Windrow和M.E.Hoff提出了自适应线性单元Adaline网络它可用于自适应滤波预测和模式识别从20世纪50年代末到60年代初神经网络的研究受到人们的重视研究工作进入了一个高潮。芬兰学者T.Kohonen提出的自组织影射理论、美国S.A.Grossberg提出的自适应共振理论、日本学者福岛邦彦K.Fukushima提出了认知机Neocognitron模型等研究成果对以后神经网络的研究和发展都产生了重要影响。
进入20世纪90年代神经网络的研究又引起了众多学科领域学者的关注并很快形成了热潮其主要原因是以逻辑推理为基础的人工智能理论和Von.Neumann计算机在处理诸如视觉听觉形象思维联想记忆和运动控制等智能信息处理问题上受到了挫折具有并行和分布机制的神经网络本身的研究成果以及脑科学和神经科学研究成果的推动作用以及VLSI技术和光电技术的发展为神经网络的实现提供了物质基础由于以上原因使人们产生了一个共识即神经网络可能成为未来智能机良好的模式。
1982年美国加州理工学院生物物理学家J.J.Hopfield提出了一个新的神经网络模型Hopfield网络模型首次引入了网络能量函数的概念并给出了网络稳定的判据1984年他又提出了实现网络模型的电子电路为神经网络的工程实现指明了方向Hopfield的研究成果开拓了神经网络用于联想记忆和优化计算的新途径引发了神经网络研究的又一次热潮并为神经计算机的研究奠定了基础1984年Hinton等人将模拟退火算法引入到神经网络中提出了Boltzmann机(BM)模型网络BM网络算法为神经网络优化计算跳出局部极小提供了一个有效的方法。①
迄今为止的神经网络研究大体上可分为三个大的方向
(1)探求人脑神经系统的生物结构和机制这实际上是神经网络理论的初衷
(2)用微电子学或光学器件形成特殊功能网络这主要是新一代计算机制造领域所关注的问题
(3)将神经网络理论作为一种解决传统方法无法或难以解决的某些问题的手段和方法
人工神经网络是由大量简单的处理单元——神经元按照某种方式联结而成的自适应的非线性系统。它的每一个神经元的结构和功能都很简单,其工作是“集体”进行的,它没有运算器、存储器、控制器,其信息是存储在神经元之间的联结上的,它是一种模仿人脑的神经系统结构和功能的物理可实现系统。
鉴于神经网络的并行处理及强大的非线性映射能力,即它可以把许多非线性信号的处理方法及工具集成起来,对于未知的动力系统,可以通过它来学习很池时间序列,然后进行预测和控制。由于混纯时间序列在内部有着确定的规律性,这种规律性产生于非线性,它表现出时间序列在时间延迟状态空间中的相关性,这种特性使得系统似乎有着某种记忆能力,同时又难于用通常的解析方法把这种规律表达出__________________________________
①1焦李成,《神经网络系统理论》西安电子科技大学出版社1990年
来。而这种信息处理方式正好是神经网络所具备的。
2.2.2神经网络的特点
神经网络在信息处理的很多方面具有比传统的方法更明确的优势主要表现在以下几个方面
(1).可避免数据的分析工作和建模工作
通过观测样本神经网络完全能够发现其隐含的信息,经过学习神经网络建立一个规则。该规则最小程度地受到人为的支配这样就避免了或大大减少了常用的数据分析工作和建模工作,而且在没有关于信号结构先验知识的前提下取得优良的性能,例如神经网络在语音图象处理编码压缩声纳手写识别等领域的应用已取得了甚至超过了传统方法经过几十年研究所取得的成果。
(2)信息的并行结构和并行处理
神经网络与人的大脑类似不但结构上是并行的,它的处理顺序也是并行的。在同一层内的处理单元都是同时操作的,即神经网络的计算功能分布在多个处理单元上。而一般计算机通常只有一个处理单元其处理顺序是串行的。目前的神经网络功能常常用一般的串行工作方式来模拟它的并行处理方式。所以显得很慢而真正的神经网络将会大大提高处理速度并能实现实时处理方。.
(3)自适应的信息处理方式
人类具有很强的适应外部环境的能力,神经网络也可以通过学习具备这种能力。这种自适应一般包括四个方面学习性、自组织性、推理能力和可训练性。
(4)完成复杂的输入/输出的非线性映射
信息处理的大部分问题可归结为数学影射,给定一个输入矢量X经过信息处理系统可得到一个所要求的输出矢量Y,Y=f(X)。函数可以解析表达也可以是非解析的。Kolmogrov定理保证了任一连续函数或映射可由一个三层神经网络实现此神经网络的输入层包含N个神经元隐含层具有2N+1个神经元,输出层M个神经元即可实现该函数。根据Kolmogrov神经网络映射存在定理,通过选择一定的非线性和连接强度调节规律,我们就可解决任何一个信息处理问题。
5.信息存储与处理合而为一
与传统的信息处理方式不同,神经信息处理系统运行时,存储与处理是兼而有之的,而不是绝对分离的。经过处理信息的隐含特征和规则分布与神经元之间的连接强度上通常有冗余性,这样当不完全信息或含噪声信息输入时神经网络就可以根据这些分布式的记忆对输入信息进行处理,恢复全部信息。同时这种合二为一的方式从本质上消除了软件和算法的瓶颈效应提供了实现高速信号处理的手段。
由于神经网络具有以上描述的几个特点,并且已经被开始运用于各个行业的时间序列预测之中,所以本文试图利用遗传神经网络预测方法,以混沌动力学的相空间重构技术为思想基础,以上证指数收盘价序列为主体,通过使用此时间序列重构股票指数的相空间保存股票指数混沌吸引子的性质,并且利用遗传神经网络的非线性函数逼近特性来求出股票指数的非线性方程,利用神经网络模型对股票未来指数趋势进行预测。混沌时间序列分析的基础是重构相空间,混沌时间序列的预测问题可以理解成动力系统研究的“逆问题”。通过股票价格时间序列重构股票市场非线性动力系统,给定相空间中的一串迭代序列,构造一个非线性映射来表示这一动力系统,此非线性映射就可作为预测模型。
逼近此非线性映射可采用局部线性模型,全局多项式模型,前馈神经网络模型(BP),径向基函数模型(RBF),小波神经网络等。
2.2.3神经网络的基本原理
1.人工神经元模型
图3
图3所表示的是一个基本的人工神经元的结构模型,它有下列几个基本要素
(1)组连接对应于生物神经元的突触连接强度由连接线上的权值给出权值为正的表示激活为负的表示抑制
(2)一个求和单元用于求取n个输入信号的加权和线性组合
(3)一个非线性变换函数起非线形映射作用并将神经元输出幅度限制在一定范围之内一般限制在[0,1]或[-1,1]之间
(4)一个阈值
以上可分别用数学公式表示出来
式中为输入信号;为神经元i的权值;为线性组合结果;为阈值;为变换函数;为神经元i的输出
变换函数可以有几种形式,如阈值函数、分段线性函数、sigmoid函数等。最常见的sigmoid函数形式是:
其中参数a控制其斜率.
2.神经网络的结构
从连接方式来看NN主要分为下列两种:
(1)前馈型网络
各神经元接受前一层的输入并输出给下一层没有反馈,连接点分为两类即输入单元和计算单元。每一计算单元可有任意个输入但只有一个输出,它可耦合到任意多个其它结点作为输入。通常前馈网络分为不同的层,第i层的输入只与第i-1层的输出相连,输入和输出结点与外界相连,而其它中间层则称为隐层。
(2)反馈网络
所有结点都是计算单元同时也可接受输入,并向外界输出。这种网络可以画成一个无向图,其中每条连接线都是双向的。
其中前馈网络最典型,前馈网络方法NN的工作过程主要分为两个阶段:第一个阶段是学习期,此时每个计算单元的状态不变而各条连接线上的权值可通过学习来修改。第二阶段是工作期,此时n个连接权固定而计算单元的状态发生变化以达到某种稳定状态。
从作用效果来看,前馈网络主要是函数映射,可用于模式识别和函数逼近;反馈网络则主要用于求解最优化问题。
3.神经网络的学习
通过向环境学习以获取知识并改进自身性能是NN的一个重要特点。
在一般情况下性能的改善是在某种预定的度量标准下,通过逐步调节自身参数如权值而达到的。神经网络的学习主要含括两部分内容,即学习方式与学习算法。
神经网络的学习方式有下列三种
监督学习有教师学习
非监督学习无教师学习
在励学习或强化学习
其中监督学习的方式需要外界存在一位教师,他对一组给定的输入提供应有的输出结果正确答案。这组已知的输入输出数据就是训练样本集。学习系统NN可以根据已知输出与实际输出之间的差值误差信号来调节系统参数。
神经网络最常用的学习算法是误差纠正算法,下面是其算法过程。
令表示输入x(n)时神经元在i时刻n的实际输出;表示相应的应有输出(由训练样本给出)则误差信号可写成:
=-
误差纠正学习的目的是使某一基于的目标函数达到最小,使得网络中每一输出单元的实际输出在某种统计意义上最佳逼近于应有输出。一旦选定了目标函数的形式误差纠正学习就成为一个典型的最优化问题最常用的目标函数是均方误差判据可定义为:
其中E是求期望算子。将上式直接作为目标函数时,需要知道整个过程的统计特性。为克服这一困难,通常用J在时刻n的瞬时值代替J,即:
=1/2
这样问题就变为函数对权值向量(为自变量) 求最小值。具体计算可用梯度下降法。若在第n步迭代中当前的权值向量为w(n),函数的梯度∇是在w(n)处的一阶导数矩阵,则沿负梯度方向即−∇方向,是减少最快的方向因此第n+1步的权值迭代公式为:
其中为学习步长。
第三节基于BP算法的三层向前的神经网络
由于在我们选取了基于BP算法的神经网络作为预测指数的模型,在这里必须对该模型做一个了解。
2.3.1多层次的神经网络
多层前馈网络结构含一个输入层一个输出层以及若干个隐含层隐含层的变换函数一般为非线性函数输出层的变换函数可以是非线性的也可以是线性的在这里隐含层和输出层的变换函数都采用函数形式sigmoid将影响股指的各因素输入至输入层并传至后面的隐含层最后通过连接权输出到输出层。
多层前馈网络的典型结构如下图所示
图4多层神经网络模型图
2.3.2BP网络的基本原理
图5BP网络模型结构图
基于BP算法的三层向前神经网络结构,一般是一3层或者3层以上的的神经网络,包括输入层,中间层(隐层)和输出层。上下层之间实现全连接,而每层单元之间无连接,。当一学习样本提供给网络之后,神经元的激活值从输入层经中间层想输出层传播,在输出层的各个神经原获得网络的饿输入响应。节下来,按照减小目标输出与实际误差的方向,从输出层经过中间层逐层修正各连接权值,最后回到输入层。这个算法就是所谓“逆无偿传播算法”,也就是BP算法。随着这种逆误差的传播修正不断进行,网络输入模式响应的正确率也不断上升。
BP网络的传递函数要求是可微的,所以不能使用二值函数,常用的有sigmoid型对数,正切函数或者线形函数。由于传递函数是处处可微的,所以对于一个BP网络来说,一方面,所划分的区域不再是一个线形划分,而是一个非线形的超平面组成的区域。它是比较平滑的曲面,所以它的分类比线形划分更加精确,容错性也比线形划分更好,另一方面,网络可以严格采取剃度下降的学习方法,权值修正的解析式十分明确。
Funahashi证明,当隐层节点函数为单调递增连续函数时,三层前向网络具有以任意精度逼近定义在紧致子集上的任意非线性函数的能力,Hornik进一步证明隐层节点函数有界是必要的,单调递增的条件是非必要。这说明采用三层BP网络,隐节点函数为Sigmoid函数,输出节点函数采用线性函数,完全可以达到网络逼近的要求。也就是说,单隐层的的BP网络可以逼近任意的非线形映射,只要隐层神经单元的个数是可以随意调节的。①
因此,我们试验用单隐层的BP网络来逼近上证指数走势曲线的方式来预测上证指数未来的变化,同时对原始的神经网络模型做一些改进。
第三章对BP神经网络的改进
第一节BP网络的缺陷
在神经网络的应用过程中,由于被逼近样本的性质不能精确知道,因此即使在网络误差为零的条件下,也未必能保证达到要求。往往会出现非常小,而却无法满足要求。这就是所谓的“过拟合”现象,“过拟合”现象直接影响网络的泛化能力,使得网络最终失去实用价值。
网络的泛化能力由以下几个因素影响:
1.取决样本的特性,只有当训练样本足以表征所研究问题的一些主要的或基本性时,网络通过合理的学习机制可以使其具有泛化能力,合理的采样结构是网具有泛化能力的必要条件。
2.网络自身的因素影响,如网络结构、网络初始权值的设定和网络的学习算法等。网络的结构主要包括:网络的隐层数、各隐层节点的个数和隐节点激活函数的特性,以下从这几个方面说明原因:
①.采用三层BP网络,隐节点函数为Sigmoid函数,输出节点函数采用线性函数,完全可以达到网络逼近的要求。“过拟合”现象是网络隐节点过多的必然结果,它的出现影响了网络的泛化能力,在满足精度的要求下,逼近函数的阶数__________________________________
①魏海坤,《神经网络机构设计的理论和方法》国防工业出版社2005年
越少越好,低阶逼近可以有效防止“过拟合”现象,从而提高网络的预测能力,反映到多层前向神经网络中,就是在精度满足的要求下,网络的隐节点数越少越好。但是在实际应用中,还没有一套成熟的理论方法来确定网络的隐节点,隐节点的确定基本上依赖经验,主要式采用递增或递减的试探方法来确定的网络隐节点。
②.网络的初始权值的选择缺乏依据,具有很大的随机性,这也在很大程度上影响网络的泛化能力。神经网络连接权值的整体分布包含着神经网络系统的全部知识,传统的权值获取方法都是随机给定一组初始的权值,然后是采用某个确定的变化规则,在训练中逐步调整,最终得到一个较好权值分布。由于BP算法是基于梯度下降方法,不同的初始权值可能会导致完全不同的结果。一旦取值不当,就会引起网络振荡或不收敛,即使收敛也会导致训练时间增长,再加之实际问题往往是极其复杂的多维曲面,存在多个局部极值点,使得BP算法极易陷入局部极值点。这些导致BP神经网络训练时间过长而最终得不到适当的权值分布,从而影响网络的泛化能力,极大的限制了神经网络在实际预报中的应用。
③.BP神经网络算法收敛慢,即使一个相当简单的问题求解,其训练次数也要几百或几千次迭代。而且网络对各种参数(包括初始权值、学习速率、动量参数)极为敏感,稍小的变动就会引起拟合和泛化能力的振荡,在反复实验中确定各种参数,这样的过度训练会提高网络的拟合能力,同时也拟合了训练数据中的噪声和训练样本中没有代表行的特征,最终导致过拟合现象,从而影响网络的拟合能力。
进一步的研究很快发现误差反传算法BP算法存在着缺陷由于该算法采用误差导数指导学习过程从本质上来说是属于局部寻优法在存在较多局部极小点的情况下容易陷入局部极小点且不可避免地存在着学习速度与精度之间的矛盾当学习速度较快时学习过程容易产生振荡难以得到精确的结果而当学习速度较慢时虽然结果可以得到较高的精度但学习周期太长也不实用。
为了改进BP算法的这些缺陷,本人试用了一些辅助方法,希望通过这些办法提高单纯BP神经网络的泛化能力,提高预测的长度和精度。具体方法如下文。
第二节与BP算法相结合的遗传算法
3.2.1遗传算法简介
1975,Michigan大学Holland教授根据自然界“适者生存,优胜劣汰”的规律年首次提出了遗传算法(GA),其基本思想是力求充分模仿这一自然寻优过程的随机性、鲁棒性和全局性,以然选择和遗传理论为基础,将生物进化过程中适者生存规则与群体内部染色体的随机信息交换机制相结合的搜索算法。这是一种新型的全局优化搜索算法,因为其直接对结构对象进行操作,不存在求导和函数连续性的限定,鲁棒性强、随机性、全局性以及适于并行处理,已广泛应用于神经网络、计算机科学、优化调度、运输问题、组合优化、机器学习、信号处理、自适应控制和人工生命等领域,并且遗传算法在实际应用中也取得了巨大成功。
从搜索角度来看,遗传算法具有许多独特的优点:
1.遗传算法从问题解的中集开始嫂索,而不是从单个解开始。这是遗传算法与传统优化算法的极大区别。传统优化算法是从单个初始值迭代求最优解的;容易误入局部最优解。遗传算法从串集开始搜索,复盖面大,利于全局择优。
2.遗传算法求解时使用特定问题的信息极少,容易形成通用算法程序。由于遗传算法使用适应值这一信息进行搜索,并不需要问题导数等与问题直接相关的信息。遗传算法只需适应值和串编码等通用信息,故几乎可处理任何问题。
3.遗传算法有极强的容错能力遗传算法的初始串集本身就带有大量与最优解甚远的信息;通过选择、交叉、变异操作能迅速排除与最优解相差极大的串;这是一个强烈的滤波过程;并且是一个并行滤波机制。故而,遗传算法有很高的容错能力。
4.遗传算法中的选择、交叉和变异都是随机操作,而不是确定的精确规则。这说明遗传算法是采用随机方法进行最优解搜索,选择体现了向最优解迫近,交叉体现了最优解的产生,变异体现了全局最优解的复盖。
5.遗传算法具有隐含的并行性
3.2.2遗传算法的基本原理
GA以生物进化过程为背景,模拟生物进化的步骤,将繁殖、杂交、变异、竞争和选择等概念引入到算法中,通过维持一组可行解,并通过对可行解的重新组合,改进可行解在多维空间内的移动轨迹或趋向,最终走向最优解。它克服了传统优化方法容易陷入局部极值的缺点,是一种全局优化算法。遗传算法的步骤如下:
(1)定义一个目标函数
(2)将可行解群体在一定的约束条件下初始化,每一个可行解用一个向量x来编码,称为一条染色体,向量的分量代表基因,它对应可行解的某一决策变量;
(3)计算群体中每条染色体(i=1,2,…,n)所对应的目标函数值,并以此计算适应值,按的大小来评价该可行解的好坏;
(4)以优胜劣汰的机制,将适应值差的染色体淘汰掉,对幸存的染色体根据其适应值的好坏,按概率随机选择,进行繁殖,形成新的群体;
(5)通过杂交和变异的操作,产生子代。杂交是随机选择两条染色体(双亲),将某一点或多点的基因互换而产生两个新个体,变异是基因中的某一点或多点发生突变;
(6)对子代群体重复步骤(3)~(5)的操作,进行新一轮遗传进化过程,直到迭代收敛(适应值趋稳定)即找到了最优解或准最优解。
GA中最常用的算子有如下几种:
(1)选择算子(selection/reproduction):选择算子从群体中按某一概率成对选择个体,某个体xi被选择的概率Pi与其适应度值成正比。最通常的实现方法是轮盘赌(roulettewheel)模型。
(2)交叉算子(Crossover):交叉算子将被选中的两个个体的基因链按概率pc进行交叉,生成两个新的个体,交叉位置是随机的。其中Pc是一个系统参数。
(3)变异算子(Mutation):变异算子将新个体的基因链的各位按概率pm进行变异,对二值基因链(0,1编码)来说即是取反。
上述各种算子的实现是多种多样的,而且许多新的算子正在不断地提出,以改进GA的某些性能。系统参数(个体数n,基因链长度l,交叉概率Pc,变异概率Pm等)对算法的收敛速度及结果有很大的影响,应视具体问题选取不同的值。①
3.2.3遗传算法与传统BP神经网络的结合
遗传算法在神经网络中的应用主要反映在3个方面:网络的学习,网络的结构设计,网络的分析。
其中,遗传算法可以用于神经网络的网络的学习里。这时,它在两个方面起作用:
(1)学习规则的优化
用遗传算法对神经网络学习规则实现自动优化,从而提高学习速率。
(2)网络权系数的优化
用遗传算法的全局优化及隐含并行性的特点提高权系数优化速度。
我们知道GA算法优异于BP算法的地方在于,它不容易陷于局部极小值,尤其在误差函数不可微或完全没有梯度信息的条件下。但是遗传算法也存在着不足,当遗传搜索迅速找到最优解附近时,无法精确地确定最优解的位置.也就是说.它在局部搜索空间不具备微调能力。而且,如何选取遗传算法的参数,才能带到最优的效果并不容易确定。而BP算法具有简单和可塑的优点,但是BP算法是基于梯度的方法,这种方法的收敛速度慢,且常受局部极小点的困扰。
因此,我们可以充分发挥遗传算法和BP算法的处.将两者相结合,用于来训练
神经网络的的权值的权重和学习神经网络的拓朴结构,而最主要的是学习神经网络的权重。在计算机技术高速发展的今天,这个方法已经成为可行。
本文设计的利用GA算法优化BP算法权值的GA-BP算法如下:
设有三层BP网络。
随机产生N组在不同实数区间内取值的初试网络权值。
(2)用BP算法对这N组初试权值分别进行预训练,若经过训练后这N组权值中至少已有一组满足精度要求,则算法结束;否则转入步骤(3)。
(3)分别依据经过上述N组权值所对应的上下限确定取值区间,在区间内__________________________________
①魏海坤,《神经网络机构设计的理论和方法》国防工业出版社2005年
随机生成r×N组新的权值,连同经过训练的N组权值一起,构成完整的基因群体,共(r+1)×N组权值。
(4)对于这(r+1)×N组权值进行选择、交叉、变异等遗传操作。
(5)如果经过步骤(4)的操作已至少得到一组满足精度要求的权值,则算法结束;否则从经过遗传操作的这(r+1)×N组权值中选出N组较好的,回复到步骤(2)。
第三节在样本输入中添加随机噪声
在样本输入里添加随机噪声的目的是为了防止神经网络训练造成的过拟合现象,改善神经网络的泛化能力。当噪声的标准差比较小的时候,样本输入噪声的方法类似神经网络的正则化设计,正则化系数与噪声的标准差相关。样本输入里添加随机噪声的方法可以用于BP,RBF等神经网络里。
在BP学习算法里中样本输入插入噪声的方法如下:
从N个训练样本里随机选择一个样本=(,)
根据密度函数ρ(ξμ)得到样本输入的噪声矢量
令Z=(Xμ+ξμ,Yμ)
对于批处理的学习方式,每一轮次的训练时,所有样本输入均应按上述方式加入随机噪声。输入噪声的密度函数ρ(ξμ)通常可以选择均值为零的高斯分布或者均匀分布。
在输入样本中添加噪声后,在输入噪声的作用下,训练误差不会象不输入噪声那样单调下降,事实上,当驯良的数据被循环作为网络的输入时,由于每次添加的噪声值不同,迫使神经网络无法精确的拟合训练数据,防止了过拟合,从而使噪声起到平滑作用。
由于每次加入的噪声不同,训练的结果可能与目标函数存在比较大的误差,可以采用多次训练,对其结果取平均值的方法来得到最小的测试标准差,多次训练的方法在一定程度也减小了神经网络预测的不确定性。
我们以用神经网络训练目标函数为y(x)=sin(3(x+0.8))为例说明添加噪声的效果,训练样本和测试样本的产生方式如下:训练样本数15个,输入区间为{-1,1}内的等间隔点。添加噪声,噪声服从均值为0,标准差为0.1的正态分布,测试样本数为201个,其输入的也为[-1,1]内的等间隔点,泛化误差定义为训练后的神经网络对所有测试样本的误差平方和。
为了全面比较和说明添加噪声和不添加噪声驯良的性能差别,我们将良种方法均进行100次测试,测试中除了添加噪声与否外,其他所有条件完全相同(包括网络结构,数据中心,权参数初始值等。记录两种方法得到的神经网络的训练误差和测试误差的均值和标准差,如下表所列:
无输入噪声
添加输入噪声
平均训练误差
0.2412
3.1552
训练误差标准差
0.3857
1.3569
平均测试误差
25.4992
17.9888
测试误差标准差
9.6339
8.4818
表1
从训练结果上观察,添加噪声后得到的神经网络的泛化误差比不添加噪声
所训练出的神经网络泛化误差小的多,可见添加噪声的训练方法对改善神经网络的泛化能力的效果还是很明显的。而且经过实验证明,一定次数的训练后,神经网络输出的平均值将收敛。
第四节多个神经网络集成预测
一般常见的神经网络预测中,都是只采用一个单个神经网络进行训练和学习,训练样本一般也选取在距离测试样本比较接近的区间。本文作者在初步研究了利用神经网络对证券指数进行分析的基本原理后有了不同的想法。从分形市场的的基本理论里我们看到,分形市场理论认为投资人的决策是有以来历史经验的,价格具有一定记忆性;信息的传播是非均衡的,市场价格反映出的是投资人偏好的信息。市场由众多投资者组成,他们具有不同的投资时间尺度,如长线的或者短线的,这使他们有着不同的投资行为。
因此,对于某一时期证券指数的变化以及其他市场信息的评估,不同的投资人将有各不相同的的结果,对于各个投资人多依赖的历史经验也是不同。比如说一个在90年代初入市的投资人,可能会因为对上证指数94年下探到325点的行情具有深刻的印象而容易对市场的未来走势做出相对谨慎的判断;而一个刚刚入市就经历了“5.19”行情的投资人却可能对未来的市场保持乐观的看法。而只使用一个神经网络来拟合指数变动的曲线,就隐含的认为所有投资人都是按照训练样本所在时间段的经验进行判断的,所有的投资人用同一个投资时间尺度来进行各自的投资行为,这是并不是一个符合分形市场的行为。
因此,如果我们使用多个神经网络同时进行预测,每一个预测模型都可能提供某些别的模型不能提供的信息,几种模型结合起来所得的预测结果所包含的信息将比某一个模型预测结果包含的信息更多,所以预测结果也会相对更准确。
为了改进这个缺陷,本文作者尝试采用了训练多个不同训练样本的神经网络进行同一测试样本的预测。我们可以在长期的时间序列里,选取n个等长的时间序列,将每个序列(i=1..n)作为训练样本进行训练,得到n个不同的神经网络。将测试的样本同时输入这n个神经网络进行模拟,我们可以得到n个结果(i=1..n).
1993年,Perrone和Cooper证明,在将神经网络集成用于回归估计时,如果采用简单平均,且各网络的误差是期望为0且互相独立的随机变量,则集成的泛化误差为各网络泛化误差平均值的1/N,其中N为集成中网络的数目;如果采用加权平均,通过适当选取各网络的权值,能够得到比采用简单平均法更好的泛化能力①
所以,本文也采用了对按一定的权值进行加权平均的办法,得到最后的预测结果。这样我们就能将测试样本拟合到不同时期的时间序列曲线上,模拟不同人群对不同历史时期经验的倚重。
1995年,Krogh和Vedelsby给出了神经网络集成泛化误差计算公式。②假设学习任务是利用N个神经网络组成的集成对f:RnR进行近似,集成采用加权平均,各网络分别被赋以权值w,并满足式11和式12:
(11) (12)
再假设训练集按分布p(x)随机抽取,网络对输入X的输出为V(X),则神经网络集成的输出为:
(13)
神经网络的泛化误差E和神经网络集成的泛化误差E分别为:
(14)
(15)
各网络泛化误差的加权平均为:
(16)
神经网络的差异度A和神经网络集成的差异度分别为:
_________________________________
PerroneMP,CooplerLN.“WhenNetworksDisagree:EnsembleMethodforNeuralNetworks.”MammoneRJed.ArtificialNeuralNetworksforSpeechandVision,London:Chapman-Hall,1993,126~142.
②KroghA,VedelsbyJ.NeuralNetworkEnsembles,CrossValidation,AndActiveLearning.In:TesauroG,TouretzkyD,LeenTeds.AdvancesinNeuralInformationProcessingSystems(Volume7),1995,231~238.
(17)
(18)
则神经网络集成的泛化误差为:
E= - (19)
式19中的度量了神经网络集成中各网络的相关程度。若集成是高度偏向(biased)的,即对于相同的输入,集成中所有网络都给出相同或相近的输出,此时集成的差异度接近于0,其泛化误差接近于各网络泛化误差的加权平均。反之,若集成中各网络是相互独立的,则集成的差异度较大,其泛化误差将远小于各网络泛化误差的加权平均。因此,要增强神经网络集成的泛化能力,就应该尽可能地使集成中各网络的误差互不相关。
但是从我们计算上证指数的分形特征所得到的序列上看到,在n=308的时候发生显著的下降,说明上证指数的一个长期记忆过程大约是308个交易日,所以想得到多个互相误差互不相关的神经网络需要大量的交易数据。
多个神经网络进行加权预测的具体效果将在下文中得到体现。
第四章实证结果及其分析
第一节神经网络结构设计
(1)信息的表达方式
实际应用中需要将领域问题及其相应的领域知识转化为网络所能表达并能处理的形式即将领域问题提炼成适合网络求解所能接受的某种数据形式。我们将连续N日的上证收盘指数直接作为训练数据。某些研究认为神经网络的训练数据需要进行归一化处理,但是通过本人的实际比较,归一化处理的数据不能提供更好的泛化能力,反而增加了计算量,因此,输入样本直接为上证收盘指数。
(2)网络模型选择
主要包括确定激活函数联接方式各神经元的相互作用等。这里我们采用了BP多层前馈网络。在BP网络上,各个神经元之间的传递函数有S型对数函数、双曲正切S型传递函数,线性传递函数等。本人选取了线性传递函数作为神经元之间的传递函数,虽然线形函数的泛化能力比非线形函数相比较弱,但是却具有相对比较快的训练速度。
(3)网络学习训练算法
BP神经网络的学习算法有梯度下降学习算法、梯度下降动量学习算法等。本文采用了Levenberg-Marguardt的BP训练函数。该方法与传统方法比较,需要占用较大的内存空间,但是训练次数一般只为梯度下降算法的1%,训练速度较快。
(4)网络参数选择
确定神经网络的结构,包括多层网的层数、隐层神经元数目和输入输出单元的数目等。
①多层网络的层数
由Kosmogorov定理可知一个具有三层的前向网络能实现任意给定的映射,因此在大多数的涉及函数逼近的研究与应用中一般都选用结构比较简单的三层前向网络,本文也同样选择了3层的向前网络。
②输出层单元数目
输出单元的数目一般依需要预测的结果而定。比如需要预测连续N天的上证指数,我们就可以取输出单元数为N.这里,由于我们要预测的是某段n个连续上证指数序列后一天的上证指数,所以输出单元数为1,即第n+1个上证指数。
③输入层单元数目
输入层单元的数目就是每次输入的训练矢量的秩。在神经网络应用中,模型的选取尤其是输入变量个数的选取,对预测结果的影响具有关键意义。大量的研究表明,经济时问序列是混沌的。我们可以用混沌时间序列的知识来确定模型的变量个数。
通常的做法是,对给定的经济时间序列,求出该序列的饱和嵌入维数,即重构相交间的最佳嵌入维数,那么这个维数就可作为构经网络输入变量个数的数目。这里有一定的道理,神经网络的每个输入就是经济时间序列的重构相空间向量的一个分量。大量的数值实验证实了这种方法的有效性和可靠性。
系统的饱和嵌入维数可以由C-C法进行估测。上海交通大学的叶中行,杨利平曾经’采用相空间重构法计测算过上证指数的饱和嵌入维数为10。①但是实际测试训练中输入单元数为10的效果并不是很好。经过多次测试比较,发现输入单元数字在15~20之间效果较好。可以估计目前上证指数的饱和嵌入维数可以在10到20之间。最后,本人选择了输入单元数目为20。①
④隐层单元数目
网络的隐层单元个数的多寡关系到网络的泛化性,目前围绕隐层单元个数的选取方法有很多种。比较常见的有:
_________________________________
①吕金虎陆君安,《混沌时间序列分析及其应用》2002年第一版
1)
2)=()/2
其中表示隐层单元个数,表示输入单元个数,表示输出单元个数,表示一常数,一般取值范围为[1,10]。
在实际应用中,由于逼近的股票指数函数变化剧烈波动很大,所以要求调整的联接权数很多因此隐层单元应该多一些,而且更多的隐层单元能够提供更高的逼近精度。当然隐层单位数目并不是越多越好的。经过对测试数据的多次测试,我们选择了第2种隐层单元数的确定方式,最终的隐层单元数为12。当隐层单元数大于12后,神经网络的逼近精度并没有进一步的提高,所以不需要继续增加隐蔽层单元数目。
⑤算法工具以及样本来源
在本文的预测和计算过程中,本人采用了Matlab6.0数学计算工具软件。
Matlab是美国MathWorks公司自20世纪80年代中期推出的数学软件,优秀的数值计算能力和卓越的数据可视化能力使其很快在数学软件中脱颖而出。Matlab已经成为线性代数、自动控制理论、概率论及数理统计、数字信号处理、时间序列分析、动态系统仿真等方面重要的数学计算工具。该软件在6.0及以上版本里提供了众多实用的数学计算工具,尤其是包含有功能丰富的神经网络函数集合以及GAOT工具箱,提供了灵活、开放、高效的计算环境,设计者可以根据自己的需要去调用工具箱中相关函数,使自己能够从繁琐的编程中解脱出来从而提高效率和工作质量。
本文所有样本以及测试数据均来自钱龙软件网络版V.4.53的日K线资料,未对指数做任何处理。
第二节利用BP神经网络预测上证指数的流程
数据的预训练和测试
该步骤是为了确定下合适的训练样本个数,输入单
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国集成建筑行业运营状况与发展潜力分析报告
- 2025-2030年中国螺旋藻行业发展现状及前景趋势分析报告
- 2025-2030年中国葡萄籽提取物opc行业运营状况与发展潜力分析报告
- 2025天津市建筑安全员知识题库
- 2025-2030年中国航空客运行业市场发展现状及前景趋势分析报告
- 2025-2030年中国电解锰废渣处理行业竞争状况及发展趋势分析报告
- 长江大学《设计软件基础》2023-2024学年第二学期期末试卷
- 中国石油大学(华东)《强化学习(双语)》2023-2024学年第二学期期末试卷
- 西安体育学院《食品分析技术》2023-2024学年第二学期期末试卷
- 广西卫生职业技术学院《食品研究开发》2023-2024学年第二学期期末试卷
- 电气控制线路的设计和元器件选择
- 剖宫产术后子宫瘢痕妊娠诊治专家共识
- 注塑一线工资考核方案
- 工程质量回访记录
- GB/T 18268.1-2010测量、控制和实验室用的电设备电磁兼容性要求第1部分:通用要求
- 第三节对化学武器的防护
- 人教版高一物理必修二第六章《圆周运动》课后练习(有答案解析)
- 施工进度计划-报审表本
- 基于单片机的老人跌倒报警装置获奖科研报告
- 呼吸机及管路的管理课件
- 维修质量检验制度
评论
0/150
提交评论