(计算数学专业论文)基于支持向量回归机模型的股市预测研究.pdf_第1页
(计算数学专业论文)基于支持向量回归机模型的股市预测研究.pdf_第2页
(计算数学专业论文)基于支持向量回归机模型的股市预测研究.pdf_第3页
(计算数学专业论文)基于支持向量回归机模型的股市预测研究.pdf_第4页
(计算数学专业论文)基于支持向量回归机模型的股市预测研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算数学专业论文)基于支持向量回归机模型的股市预测研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。 同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:回静 签字日期:2 口j 9 年易月;oe t 导师签名: ,1 敬亿轧 签字日期:印i 口年6 月弓田日 一l r 中图分类号:f 8 3 0 9 1 ,0 2 9 u d c : 学校代码:1 0 0 0 4 密级:公开 北京交通大 硕士学位论文 e 艺 于 基于支持向量回归机模型的股市预测研究 am o d e lb a s e do ns u p p o r tv e c t o rr e g r e s s i o nf o rs t o c km a r k e t p r e d i c t i o n s 作者姓名:田静 导师姓名:张作泉 学位类别:理学 学号:0 8 1 2 2 1 2 4 职称:副教授 学位级别:硕士 学科专业:计算数学研究方向:金融工程 北京交通大学 2 0 1 0 年6 月 致谢 本论文的工作是在我的导师张作泉副教授的亲切关怀和悉心指导下完成的, 从课题方向的选择、实现方案的制定以及毕业论文的撰写每一过程都倾注着张老 师的心血。在整个课题研究过程中张老师都给予了我无尽的关心、帮助和教诲, 使得本论文的研究工作得以顺利完成,在此衷心感谢张老师对我的关心和指导。 两年的时间里,张老师渊博的知识、严谨的治学态度以及科学的工作方法使 我在科学研究及工作作风等方面受益匪浅。在以后的工作和学习中,我将牢记张 老师的教诲,再次向张老师表示衷心的感谢和崇高的敬意! 还要感谢理学院所有的老师对我的无私的教导,感谢师兄张玉川在我课题的 完成中所给予的帮助,感谢孙笋、王茗茗等同学对我论文中的研究工作给予了热 情帮助,感谢研究生期间所有的同学们,是大家和我一起度过了令人难忘的两年 时光,在此向他们表达我的感激之情。 另外也感谢家人,尤其感谢我的父母,他们的理解和支持使我能够在学校专 心完成我的学业。在这里,我要衷心的谢谢他们的养育之恩和教育之情。 最后,真诚地祝愿所有在我求学生涯中关心过我、鼓励过我、帮助过我的人 们身体健康,心想事成! 一 l 中文摘要 摘要:股票作为金融市场最主要的金融工具之一,其价格波动能否预测、以 及用何种方法进行预测,一直以来都是金融领域研究的焦点问题之一。国内外对 股票价格波动进行预测的模型种类很多,依据其建模理论不同,可将这些预测模 型分为两大类:一类是以统计原理为基础的结构计量模型;另一类是以神经网络、 遗传算法、支持向量机等为基础的智能预测模型。本文主要将基于一支持向量回 归机模型运用于股市预测当中,以期能给投资者科学的投资信息。 首先,本文介绍了支持向量机理论,并重点阐述了支持向量回归机的原理, 然后通过引入s 一不敏感损失函数,建立基于g 一支持向量回归机的股市预测模型。 在实证分析部分,通过选取上证综合指数和四川长虹、民生银行在一段时间内的 真实数据,并运用l i b s v m 软件,对其进行了实例研究,并对预测误差分别进行 分析比较。最后,通过与传统的b p 神经网络方法进行对比,验证了s 一支持向量 回归机模型的可行性和有效性。 如何有效、准确地对股市进行预测,提高投资收益是当前无论投资者还是专 家学者都迫切关注的问题。本文研究的基于s 一支持向量回归机的股市预测模型, 不仅在理论上通俗易懂,在实证检验中预测效果也较好。可以说,本文所做工作, 对我国股票市场的预测有一定成效,对投资者进行正确投资也有一定的作用。 关键词:股市预测;支持向量机;s 一支持向量回归机;b p 神经网络 分类号:f 8 3 0 9 1 ,0 2 9 j 塞童塑态堂亟堂僮途塞旦曼至b g ! a b s t r a c t a b s t r a c t :s t o c ki sc o n s i d e r e da so n eo ft h em o s ti m p o r t a n tf i n a n c i a lt o o l so ft h e f i n a n c i a lm a n e t ,w h e t h e rt h ep r i c eo fi tc o u l db ep r e d i c t e da n dh o wt op r e d i c ti ti s a l w a y sac o n t r o v e r s i a lp r o b l e mi nt h e f i n a n c i a lf i e l d t h e r ea r ed i f f e r e n tk i n d so f m o d e l st op r e d i c tt h es t o c kp r i c ef l u c t u a t i o nd o m e s t i c a l l ya n d a b r o a d a c c o r d i n gt ot h e d i f f e r e n t m o d e l i n gt h e o r y , t h e yc o u l db ed i v i d e di n t o t w o c a t e g o r i e s :o n ei st h e s t r u c t u r a le c o n o m e t r i cm o d e lb a s e do ns t a t i s t i c a lt h e o r i e s a n o t h e ro n ei st h ei n t e l l i g e n t f o r e c a s t i n gm o d e lb a s e do nn e u r a ln e t w o r k , g e n e t i ca l g o r i t h m , a n ds u p p o r tv e c t o r m a c h i n e i nt h i sp a p e r , w ew i l la p p l yt h e s s u p p o r tv e c t o rr e g r e s s i o nm o d e li nt h e s t o c km a r k e tp r e d i c t i o nt og i v ei n v e s t o r sr e a s o n a b l ei n v e s t m e n ti n f o r m a t i o n a tf i r s t ,w ew i l li n t r o d u c et h es u p p o r tv e c t o rm a c h i n et h e o r ya n dd e s c r i b et h e t h e o r yo fs u p p o r tv e c t o rr e g r e s s i o n , t h e nb yi n t r o d u c i n gt h e g i n s e n s i t i v el o s s f u n c t i o n , w ew i l lc o n t r i b u t eas t o c km a r k e tp r e d i c t i o nm o d e lb a s e do nt h es s u p p o r t v e c t o rr e g r e s s i o n i nt h ep a r to ft h e a n a l y s i s ,b yi n t r o d u c i n gt h ed a t ao fs h a n g h a i c o m p o s i t ei n d e x , s i c h u a nc h a n g h o n ga n dc m s bi n ac e r t a i np e r i o da n du s i n g l i b s v ms o f t - w a r e ,w ew i l lm a k ei n v e s t i g a t i o n sa n dm a k ee r r o rc o m p a r i s o nb e t w e e n t h ep r e d i c t i o n sa n da c t u a lv a l u e s a tl a s t ,b yc o m p a r i n ge s u p p o r tv e c t o rr e g r e s s i o n m o d e la n dt h et r a d i t i o n a ln e u r a ln e t w o r km e t h o d , w ew i l ls h o wt h ef e a s i b i l i t ya n d e f f i c i e n c yo f t h ef o r m e ro n e h o wt op r e d i c tt h es t o c km a r k e te f f e c t i v e l ya n da c c u r a t e l ya n de n h a n c et h ep r o f i t i st h ep r o b l e mw h i c hi sc o n c e r n e db ye x p e r t sa n di n v e s t o r s t h es t o c km a r k e tp r e d i c t i o n m o d e lw ei n v e s t i g a t e di n t h i sp a p e ri sn o td i f f i c u l tt ou n d e r s t a n d ,b u ta l s oh a sg o o d p e r f o r m a n c ei np r e d i c t i o n s s o ,w h a tw eh a v ed o n ei nt h i sp a p e rh a sg o o de f f e c to nt h e p r e d i c t i o no ft h es t o c km a r k e to fo u rc o u n t r y , i ta l s oh a sg o o de f f e c to nt h er i g h t i n v e s t m e n tb e h a v i o r so ft h ei n v e s t o r s k e y w o r d s s t o c km a r k e tp r e d i c t i o n s ;s u p p o r tv e c t o rm a c h i n e ;s s u p p o r tv e c t o r r e g r e s s i o n ;b pn e u r a ln e t w o r k c l a s s n o :f 8 3 0 9 1 ,0 2 9 -厂-, h l 、 序 伴随着经济的快速发展和人们生活方式的转变,股票已经成为人们愈来愈关 注的焦点之一,股票投资也是现代人们生活中的一个重要组成部分。 但是,由于股票市场具有高收益和高风险并存的特性,投资越大,伴随的风 险也愈大,因此历来关于股票收益率的分析和预测研究也一直被人们所重视。但 是由于股票市场系统的复杂性及外部因素影响的多变性,对股票市场进行研究十 分艰巨,现有的众多股票收益率分析方法的应用效果都难如人意。因此,对股票 市场进行预测研究成为众多学者研究的内容。 目前,关于股市预测的方法主要有两类:第一类是基本分析;第二类是技术 分析。前者主要是根据金融学、投资学的基本原理推导出来的分析方法;后者则 是根据证券市场本身的变化规律得出的分析方法【5 1 。 本文选用技术分析的方法来预测股价的短期变化,利用支持向量机( s u p p o r t v e c t o rm a c h i n e ,s v m ) 这一新的机器学习技术。支持向量机是由v a p n i k 与其领导 的贝尔实验室的研究小组于2 0 世纪9 0 年代一起开发出来的,是数据挖掘中的一 门新技术。其中,支持向量回归机以其广泛的适应性和学习能力,在非线性系统 预测方面得到了广泛的应用。由于其出色的学习性能,目前该技术已经成为当前 国际机器学习界的研究热点,并且为股票市场的建模和预测提供了新的思路和方 法。 目录 中文摘要i i i a b s t r a c t i v 序、, 1引言1 1 1课题的研究背景及意义1 1 2国内外研究概况1 1 3本文主要内容及创新点3 1 4论文的主要结构3 2支持向量机理论综述5 2 1序言5 2 2理论背景5 2 2 1 统计学习理论6 2 2 2 支持向量机方法的一些基本概念7 2 2 3 支持向量回归机9 2 3本章小结1 1 3 基于支持向量回归机的股市预测模型一1 2 3 1系统工具的介绍1 2 3 2 模型数据的预处理一1 2 3 3基于s 一支持向量回归机的股市预测模型1 3 3 3 1s 一不敏感损失函数1 3 3 3 2s 一支持向量回归机模型的建立1 4 3 4 模型的评价指标1 4 3 5本章小结1 5 4 支持向量回归机模型在股市预测中的实证分析1 6 4 1样本的选取1 6 4 2 对上证指数实验过程1 6 4 2 1 实验过程l6 4 2 2 结果分析17 4 3对上市公司股价的预测研究2 3 4 3 1 实验过程2 3 附录a 3 8 附录b 3 9 独创性声明4 2 学位论文数据集4 3 子 1 1 课题的研究背景及意义 1 引言 2 0 世纪7 0 年代末的中国经济体制改革在推动中国经济快速发展的同时,也引 发了社会对资金的巨大需求。随着经济社会的不断发展,人们的收入越来越高, 也越来越关注理财,而股票投资是人们投资的一个重要方向,已经成为影响中国 社会经济生活的重要因素。中国的股票市场形成于2 0 世纪9 0 年代初期,经过将 近2 0 年的发展,已经初具规模,股票投资者的积极性也不断提高。截止到2 0 0 9 年7 月底,我国上市公司的数量己达1 1 8 7 家,是1 9 9 0 年的1 1 8 7 倍,其中,沪 深两市仅发行a 股的上市公司就达1 0 5 0 家。 股票市场在整个国家的经济体系中占有举足轻重的作用,它在很大程度上反 映了一个国家的经济实力,是市场经济的重要组成部分,是经济发展趋势的晴雨 表【3 3 1 。因此,股票市场的价格运行规律是- f l 需要深入研究的学科,对其进行了 解、分析以及预测是必不可少的,在人们的投资过程中占有重要地位。 然而,由于股票市场系统的复杂性及外部因素影响的多变性,与其它相对稳 定且安全的金融投资活动相比,我国的股票市场具有高收益和高风险并存的特性。 长期以来,人们对股市的预测从来就没有停止过,关于股票市场的分析和预测研 究一直被人们所重视【5 】。选择一种适当的、合理的预测方法对股票市场的价格运行 规律进行研究是能否降低风险、增大收益的关键所在。随着粗糙集理论和支持向 量机方法研究的深入,为股票市场的建模和预测提供了新的技术和方法。 本课题根据v a p n i k 提出的支持向量机理论,建立基于支持向量回归机的股市 预测模型。从经济意义上来讲,对大盘股和个股分别进行预测,具有一定的实用 性。对大盘股预测可以从整体上估测股市的变化;对个股而言,上市公司能及时 地对股票风险进行早期预警,同时能引导投资者进行正确投资。从学术意义上来 讲,能够从实证检验的角度更好的研究支持向量回归理论,对完善支持向量机的 算法也起到一定的推动作用。 1 2 国内外研究概况 目前,随着人们对股市的认识不断加深,以及高级的计算机算法和技术的不 断完善,人们对股市研究的热情不断高涨,各种预测方法应运而生,而投资者们 也开始越来越依赖这些预测方法。股市预测方法按时间顺序大致可以将其分为三 种:结构计量模型、时间序列分析和智能预测。结构计量模型属于经济理论导向 型,而时间序列分析和智能预测则属于数据挖掘导向型【6 】。 结构计量模型是先要找到关于某个问题的经济理论,并先验假定这个理论是 真实的,然后根据该理论来设定具体的回归模型以用于估计和预测,它一般又称 为古典线性回归模型,而这个要求对于股票市场这个高度非线性的动态系统来说 是非常难于实现的。随后,自从m e e s e 和r o g o f f 提出最简单的随机游走模型 ( r a n d o mw a l km o d e l ) 在预测时都要优于复杂的结构模型之后,各种时间序列模 型被开发和运用于实证分析,然而,这些时间序列模型通常采取线性参数化形式, 估计方法大多利用最大似然法( m l e ) ,这就要求时间序列变量服从正态分布的假 定,或者样本观察值必须足够长。但是在实际中,股票市场总体上不是线性可预 测的,而且其波动性具有聚类效应,不能满足正态分布的假定。这样,非线性、 非参数的智能预测方法就应运而生了【们。 智能预测理论揭示了金融市场价格波动的不稳定性和混沌性的本质,因其本 身具有自适应、自组织学习机制,因此能够对涨跌交替和良性恶性相继循环的大 量历史数据进行发掘和分析,发现其中蕴含的规律并找到正确的预测模型来预测 市场价格趋势。目前,国外许多金融机构已经投入大量人力、物力和财力进行相 应的应用开发。现在,主要的应用的较为广泛的智能预测方法包括小波变换 ( w a v e l e t ) 、遗传算法( g e n e t i ca l g o r i t h m , g 舢、人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k , a n n ) 以及本文所讨论的支持向量机算法( s u p p o r t v e c t o rm a c h i n e s ,s v m ) 。 人工神经网络( a n n ) 方法是2 0 世纪9 0 年代以来流行起来的,是非线性、 非参数预测技术的主要代表。神经网络不需要建立所研究的经济问题本身的精确 逻辑和数学模型,而是模仿人脑思维方式构建训练神经网络的算法,即黑盒子。 1 9 9 1 年,m a t s u b a 率先将神经网络引入股票市场的价格预测上。之后,h i l l 等将神 经网络与六种传统的统计预测方法进行对比,结果表明神经网络方法明显优于传 统统计模型。但是一些研究表明,a n n 方法在对像股票市场这样有强噪声和高维 的数据进行学习的时候往往受到限制。主要是因为虽然a n n 方法无须正态分布假 定及大样本要求,且在刻画非线性特征方面具有优势,但其缺点就是存在过估计 ( o v e r f i t t i n g ) 问题,可能产生局部而非全局最优解,而且同m l e 一样,也是最小 化经验风险,即只侧重于拟合,外推预测不佳【6 】。 因此,如何在此基础上,进一步寻找一种能够既能改进目前这种缺陷,又能 准确预测的方法便成为关键。随着粗糙集理论和支持向量机方法的深入,为股票 市场的建模和预测提供了新的技术和方法。2 0 0 3 年,h n a k a y a m a 等介绍了s v m 2 中的递增学习和遗弃数据方法,并将其应用于股票价格预测;2 0 0 5 年,w h u a n g 等用支持向量机预测股票市场运动方向。从国内来看,2 0 0 5 年杨一文等利用s v m 对上海证券综合指数序列趋势做较准确的多步预测;2 0 0 6 年张晨希、周万隆利用 支持向量机对股票进行短期预测2 7 1 。这些预测实验结果都表明,支持向量机方法 比神经网络方法优越。 1 3 本文主要内容及创新点 本文主要通过介绍支持向量机理论中的s 一支持向量回归机,来对大盘股及个 股的股价变动情况进行预测,并通过与b p 神经网络方法的比较来说明s 一支持向 量回归机方法的有效性和实用性。 本文主要的创新点有:在大盘股及个股的股价预测中,针对股票价格瞬息万 变的特点,本文采用今日开盘价、今日最高价、今日收盘价、今日最低价和今日 交易量作为输入向量,选取下一天股票的开盘价作为输出变量,在实验之前先对 输入和输出向量进行相关性分析,指标的选取科学、合理、有效:选取l i b s v m 软件进行数据分析和处理,省去了人工交叉验证的过程,通过利用 g r i d r e g r e s s i o n p y 函数进行参数寻优,避免了参数c ,s 选取的不适当对模型造成的 影响,从而保证了模型的有效性;利用l i b s v m 软件选用不同的核函数分别进行 预测,并与真实值进行比较研究,得出最适合模型的核函数;而且通过与b p 神经 网络方法对股价进行预测对比,进一步说明g 一支持向量回归机模型输出结果的真 实性和准确性。 1 4 论文的主要结构 论文第一章阐述了论文的主要研究背景及意义,同时说明了国内外在股市预 测方面的研究概况,并对论文的主要内容和创新点进行了介绍,最后指明了本论 文的主要结构。 论文第二章对支持向量机的基本原理和理论进行了阐述,包括机器学习理论、 统计学习理论,以及支持向量分类机,并重点介绍了支持向量回归机的基本原理。 论文第三章主要是建立s 一支持向量回归机模型对股市进行预测研究。其中, 对系统工具l i b s v m 、模型数据的预处理进行了简单的介绍,随后通过引入e 一不 敏感损失函数,建立基于s s 豫的股市预测模型,并在最后对模型的评价指标进 3 、 行了介绍。 论文第四章是根据第三章建立的基于s s v r 的股市预测研究模型,分别选取 上证指数和i 四) i l 长虹、民生银行为预测对象,对短期内的股票变化趋势进行实证 分析。 论文第五章主要是用b p 神经网络方法对上证指数和四川长虹进行股价预测, 并与s s v r 方法进行比较,从而说明s s v r 方法的优越性和实用性。 论文第六章是总结与展望,通过对本文的利用支持向量机方法对股价进行预 测进行总结,指出模型中存在的问题,并对支持向量机未来的发展指明了方向。 4 2 1 序言 2 支持向量机理论综述 近十年来,基于统计学习理论的支持向量机方法逐渐成为机器学习的重要研 究方向。支持向量机( s u p p o r tv e c t o rm a c h i n e s ,s v m ) 是由v a p n i k 领导的实验室 研究小组在1 9 6 3 年提出的一种新的非常有潜力的分类技术,但是由于当时理论研 究并不完善,因此这项研究一直没有得到充分的重视。后来直到9 0 年代,随着统 计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y , s l t ) 的实现,使得s v m 迅速发展和完善 起来【3 2 1 。在解决小样本分类、非线性及高维模式识别中表现出许多特有的优势, 后来由于其强大的泛化推广能力,并能够推广应用到函数拟合等其他机器学习问 题中。 支持向量机主要是把识别和回归问题作为一个二次规划( q u a d r a t i c p r o g r a m m i n g ,q p ) 问题来处理。根据有限的样本信息在模型的复杂性( 即对特定 训练样本的学习精度,a c c u r a c y ) 和学习能力( 即无错误地识别任意样本的能力) 之间寻求最佳折中,以期获得最好的推广能力( g e n e r a l i z a t i o n a b i l i t y ) 。s v m 通过 把线性不可分的输入空间非线性映射到高维的特征空间后,就可以在特征空间上 进行线性可分的识别或者线性回归了【3 2 1 。 目前,支持向量机己经成为机器学习界的研究热点,在模式识别( 如文本自 动分类、人脸检测等) 、密度估计、三维物体识别、遥感图像分析和非线性系统控 制、函数逼近、函数拟合和回归估计中均有很好的应用,并以强大的泛化推广能 力在其它很多应用领域取得了很好的发展,如医学、气象、地质、水利、电力、 环保等【_ 7 1 。这几年,支持向量机在金融领域的发展也逐渐展开。k y o u n g - j a ek i m 把 s v m 用于金融领域,并以金融市场为例对股票价格指数进行了预测,预测结果与 三层b p 神经算法和反向传播算法的预测值进行了比较分析,结果表明s v m 有着 明显的优势;利用s v m 分类方法,对企业进行财务困境识别,既能降低投资风险, 又能防范金融危机。对股票市场进行预测,能够引导人们理性投资,保持股票市 场的相对稳定性。本文就利用支持向量机在股票市场预测上的应用,展开一系列 的工作和讨论。 2 2 理论背景 5 、 2 2 1 统计学习理论 统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y , s l t ) ,是研究小样本统计估计和预测 的理论,是传统统计学的重要发展和补充,该理论避免了人工神经网络等方法的 网络结构难于确定、过学习和欠学习以及局部最小等问题,被认为是目前针对小 样本的分类、回归等问题的最佳理论。其核心内容包括:基于经验风险最小化准 则的统计学习一致性条件;统计学习方法推广性的界;在推广界的基础上建立的 小样本归纳推理准则;实现新的准则的实际方法【5 】。其中,最有指导性的理论结果 是推广界,与此相关的一个核心概念是v c 维( v a p n i k c h e r v o n e n k i sd i m e n s i o n ) ,它 是描述函数集或学习机器的复杂性或者说是学习能力( c a p a c i t yo f t h em a c h i n e ) 的 一个重要指标。 ( 1 ) v c 维 v c 维的直观定义是:对一个指示函数集,如果存在h 个样本能够被函数集 中的函数按所有可能的2 办种形式分开,则称函数集能够把h 个样本打散;函数集 的v c 维就是它能打散的最大样本数目h 。若对任意数目的样本都有函数能将它们 打散,则函数集的v c 维是无穷大。有界实函数的v c 维可以通过用一定的阀值将 它转化成指示函数来定义。v c 维反映了函数集的学习能力,v c 维越大,学习机 器就越复杂。目前尚没有通用的关于任意函数集v c 维计算的理论,只知道一些特 殊函数集的v c 维。如在刀维实数空间中线性分类器和线性实函数的v c 维是n + 1 , 而函数f ( x ,口) = s i n ( a x l 的v c 维为无穷大【5 】。 ( 2 ) 推广性的界 统计学习理论系统地研究了各种类型函数集的经验风险和实际风险之间的 关系,即推广性的界。对两类问题,经验风险和实际风险之间以至少l 一玎的概率 满足如下关系: r ( c o ) 尺。,( ) + ih ( 1 n ( 2 l h ) + 1 ) 一1 i l ( 叩4 ) l i ( 2 1 ) 其中,h 是函数集的v c 维,是样本数,7 是满足0 ,7 h k ( x ,x ) = ( ( x ) ( x ) ) 其中( ) 表示h 的内积。常用的核函数类型有: ( 1 ) 线性核函数,表达式为:r ( x ,) = ( x 焉) ; ( 2 4 ) 8 、- ,o i e ihx 得使 ( 2 ) 多项式核函数,表达式为:k ( x ,t ) = ( 工薯) + 1 d ; ( 2 5 ) ( 3 ) 高斯径向基核函数,表达式为:k ( 五五) = e x p 一忙一x , 1 1 2 o 2 ; ( 2 6 ) ( 4 ) 多层感知器核函数,表达式为:k ( x ,毛) = 伽:1 1 1 ( x 五) + 口 ( 2 7 ) 事实上,具体核函数的选取、惩罚参数的设定以及核函数中参数的设定需要 使用者基于训练集进行模拟选择,根据实际情况而定。 2 2 3 支持向量回归机 目前,支持向量机主要用来解决回归问题( 时间序列分析) 和模式识别( 分 类问题、判别分析) 等诸多问题。相对于支持向量分类,支持向量回归在理论和 应用上的研究还比较少,在经济和金融预测领域的研究就更加少。为此,本文将 重点介绍支持向量回归机。 本节将从回归问题的数学提法入手,然后介绍线性支持向量回归和非线性支 持向量回归。 ( 1 ) 回归问题的数学提法 设给定训练集 t = ( 五,m ) ,( 恐,奶) ,( 而,乃) ( x y ) 。 其中,而x = r ”,乃】,= - 1 ,l ,i = l ,2 ,假定训练集是按x x y 上的某个概率 分布p ( x ,y ) 选取的独立同分布的样本点,又设给定损失函数c ( 五y ,f ) 。试寻求一 个函数f ( x 1 ,使得期望风险 尺( ) _ 1c ( x ,y ,f ) d p ( x ,y ) ( 2 8 ) 达到最小。这里概率分布p ( z ,y ) 是未知的,已知的仅仅是训练集t 【7 1 。 ( 2 ) 支持向量回归机 1 ) 线性支持向量回归机 对于线性回归,考虑用线性回归函数: y = f ( x ) = 国x + b ( 2 9 ) 来拟合数据 ( t ,”) ,江l ,2 ,五r ”,咒r 的问题。为保证上式的平坦,必须寻 找一个最小的c o ,为此,采用最小化欧几里德空间的范数。其中,国和b 分别为线 性回归函数的法向量和偏移量,并假设所有的训练数据在g 下无误差的用线性函数 拟合。我们可以求解下面的优化问题,即: m ,i n( 国) = 剖旷 一 二 s j ( 国薯+ 6 ) 一乃s ,f = l ,2 , ( 2 1 0 ) 乃一( 国五+ 6 ) s ,f = l ,2 , 9 通过引入l a g r a n g e 函数,求得对偶问题如下: 警喜 口,( 乃一s ) 一( 咒+ s ) 一丢圭i = l 圭j = l ( q q ) ( 口,一口,) ( t ,_ ) 豇 ( 一口,) - - o ( 2 1 2 ) 0 口f ,a ? c i ,i = 1 , 求解问题( 2 1 2 ) ,即可得到回归函数的法向量和回归函数: 国= ( a ,。一) 五 厂( 石) = ( 口;一q ) ( 而x ) + 6 这里,( 薯x ) 为向量与向量石的内积。 2 ) 非线性支持向量回归机 对于非线性支持向量回归,可以把样本x 通过非线性映射妒( x ) 映射到高维特 征空间h ,并在h 中求解最优回归函数。具体来说,就是引进从输入空间足”到一 个高维h i l b e r t 空间h 的变换: :xc r “一xc h x i - - - ) ( 石) 通过利用这个变换,我们由原来的对应于输入空间尺”的训练集 丁= ( 五,m ) ,( 而,y :) ,( 一,乃) ) 就可以得到对应于h i l b e r t 空间h 的新的训练集 于= ( ( 五) ,y ,) ,( ( 恐) ,咒) ,( ( 西) ,m ) ( 2 1 3 ) 这样,在高维空间中的线性回归,就对应于低维空间中的非线性回归。因此, 在最优回归函数中采用适当的核函数k ( x i ,x ) 代替高维空间中的向量内积 9 ( ) 9 ( z ) ,就可以实现某一线性变换后的线性拟合,而计算的复杂度却并没有 增加【7 1 。此时,最优化问题可转化为: 警窨 ( 乃一s ) 一q ( 咒+ s ) 一圭喜喜( 一口r ) ( 口,一口,) k ( 五,_ ) 1 0 回归函数的法向量和回归函数变为: 国= ( 口,一口,) 9 ( 薯) ( x ) = ( 口,一口,) k ( 毛,x ) + 6 将上述转化为最小问题,即为: m 嘶i 巧n 三i 圭, j = l ( 口,一) ( 口,一a ,) k ( 而,_ ) + s 喜( 口,+ a ,) 一荟1 m ( 口;一) c 2 1 4 ) 在支持向量回归机中,由于核函数的引入,实现了把非线性回归转化为高维 空间线性回归的功能,因此核函数在非线性回归中起着重要作用。 2 3 本章小结 机器学习中的统计学习理论为小样本研究的规范化开辟了一个新的途径,基 于此理论的支持向量机具有优越的学习性能以及泛化推广能力,近年来对它的研 究也越来越多。 本章首先介绍了支持向量机的理论背景,包括统计学习理论里的v c 维、推广 性的界和结构风险最小化原理;然后阐述了一些基本概念,如超平面与规范超平 面、支持向量和核函数;最后重点介绍了支持向量回归机,从它的数学问题入手, 进而介绍了线性支持向量回归和非线性支持向量回归,为下一章建立基于s 一支持 向量回归机的股市预测模型研究奠定了理论基础,提供了强有力的工具。 3 基于支持向量回归机的股市预测模型 3 1 系统工具的介绍 本章旨在建立基于s s v r 的股市预测模型,在支持向量机中,核函数的形式 和参数非常难以确定,这样我们在实验的过程中,无法马上对最优参数进行定位, 求得最优结果。传统的利用支持向量机方法进行分类或回归的是m a t l a b 软件,但 是对于非计算机专业的人来说,编程具有一定的难度。而本文将选用的l i b s v m 软件包它不但提供了编译好的可在w i n d o w s 系列系统的执行文件,还提供了源代 码,方便改进、修改以及在其它操作系统上使用,使用起来方面快捷,易于掌握, 而且运行速度也非常之快。因此本文就采用l i b s v m 软件进行数据处理和数值计 算。 l i b s v m ,即al i b r a r yf o rs u p p o r tv e c t o rm a c h i n e s ,它是台湾林智仁教授于 2 0 0 1 年开发设计的一个简单、易于使用和快速有效的s v m 模式识别与回归的软件 包。该软件还有一个特点,就是对s v m 所涉及的参数调节相对比较少,提供了很 多的默认参数,我们利用这些默认参数就可以解决很多问题;并且提供了交互检 验( c r o s sv a l i d a t i o n ) 的功能 3 8 1 。目前最新的版本是2 0 1 0 年4 月推出的v e r s i o n2 9 1 。 l i b s v m 软件可以解决分类问题( 包括c 一8 v c ,z ,一s v c ) 和回归问题( 包括 一s v r , 一s v r ) ,以及分布估计( o n e c l a s s 一8 v m ) 等,提供了线性、多项式、 径向基和s 形函数等四种常用的核函数供选择,可以有效地解决多类问题、交叉 验证选择参数、对不平衡样本加权、多类问题的概率估计等【3 8 】。 3 2 模型数据的预处理 针对l i b s v m 要求的数据集的格式,我们需要对原始数据集进行预处理,即 归一化处理,将其转化为可以在l i b s v m 软件包下运行的数据。通常,将数据集 缩放到 一1 ,1 】或是 0 ,1 之间,这主要是为了: ( 1 ) 避免一些特征值范围过大而另一些特征值范围过小,从而在训练中起的作 用不平衡; ( 2 ) 另外是为了计算速度,避免在训练时为计算核函数而计算内积的时候引起 数值计算的问题。 1 2 3 3 基于s 一支持向量回归机的股市预测模型 支持向量回归的一般表述是:假定根据某种概率分布尸( x ,y ) ( x r ”,y r ) 生 成的样本是 ( x i ,乃) ,( 屯,儿) ,( 而,乃) ( x xy ) 支持向量回归( s u p p o r t v e c t o rr e g r e s s i o n , s v r ) 问题就是希望找到适当的实值函数 f ( x ) = 国9 ( 薯) + 6 ,来拟合这些训练点,使得 r ( f ) = ic ( z ,y ,) a p ( x ,y ) ( 3 1 ) 最小,其中c ( x ,y ,f ) 为损失函数。下面介绍损失函数的定义。 3 3 1s 一不敏感损失函数 为了得到样本回归函数i ( x 1 ,必须用训练集估计出参数国和b 。支持向量分 类中通过利用训练集中被称为支持向量的那些数据点,来构造分类方程;在支持 向量回归中,也应该找到类似的构建回归决策函数的支持向量。在支持向量回归 中,这种算法的稀疏性特征是通过支持向量回归所独有的线性s 一不敏感损失函数 ( s i n s e n s i t i v el o s sf u n c t i o n ) 来实现的,公式如下: c ( x , y ,厂( x ) ) = l y 一厂( z ) l ( 3 2 ) 其中,i y - f ( x ) l 。= m a x0 ,l y - f ( 工) l - s ,这里的s 是事先取定的一个正数。 g 一不敏感损失函数的含义是:当x 点的观察值y 与预测值f ( x 1 之差不超过事 先给定的小正数s 时,则认为在该点的预测值厂( x ) 是无损失的,尽管预测值厂( 工) 和观察值y 可能并不完全相等。即s 一不敏感损失函数表示的是观察值y 与预测值 f ( x ) 之间的误差。如图1 ,是s 一不敏感损失函数的大致图像: j 口0 + 图ls 一不敏感损失函数 f i g l s i n s e n s i t i v el o s sf u n c t i o n 1 3 y - f ( x ) 容易看出,s 一不敏感损失函数有一个特点:对样本点来说,存在着一个不为 目标函数提供任何损失值的区域,我们称之为s 一带。这些位于s 一带内的数据点 不会给决策函数提供任何信息,因此也不会出现在决策函数中;只有当样本点位 于之外时,才有损失出现。这样,保留下来的用于构建回归方程的数据点就是我 们所说的支持向量。显然,s 一不敏感损失函数的这个特点极大地简化了f ( x 1 的 表达式和相应的计算,这个特点是s 一不敏感损失函数所特有的【7 】。 3 3 2s 一支持向量回归机模型的建立 在上一章中我们已经讨论过,通过引进核函数,可以把线性回归方法推广到 处理非线性回归问题。再加上s 一不敏感损失函数的引入,这样就导致s 一支持向 量回归机模型的建立。 s 一支持向量回归机模型的最优化问题是: m 吩i 岛n 去磊1 ( 口;一口,) ( 口1 - - a j ) k ( t ,x j ) + s 善l ( 口;+ 口;) 一善y ; i * - - a i ) 豇 ( 一口,) = o ( 3 3 ) 0 口j ,哆,i = 1 ,l 这样根据计算出来的最优解即可求得决策函数( x ) 。其中,偏置项b 按如下方式 计算:选择位于开区间( o ,孚) 中的云,或玩,若选到的是云,则 若= 乃一窆( 云,一云) k ( 葺,_ ) + s ( 3 4 ) 若选到的是口t ,则 云= 坛一窆( 云。一夏,) k ( 薯,黾) 一s ( 3 5 ) 这就是一支持向量回归机的算法,后面的实证检验就是以此为依据的。 3 4 模型的评价指标 对预测模型而言,关键就是要以较好的效果和较高的效率来求得预测值,并 且要使预测值尽可能地反映真实情况。f r i e d m a n 曾经说过,模型是否正确和有效 的唯一检验标准就是比较模型的预测是否与经验或者现实相一致【6 1 。可见,正是对 预测准确性的精益求精的要求才催生了各种预测新模型、新技术和新方法的产生, 1 4 这也意味着对预测分析人员的素质和技能的要求变得越来越高。 评价指标就是用来评价一个预测模型的优劣的。本文选用的评价指标主要有: 均方误差、最大相对预测误差、最小相对预测误差和平均相对误差以及平方相关 系数r 。 3 5 本章小结 本章采用的l i b s v m ,是解决分类问题和回归问题以及分布估计的一个软件 包。它提供了线性核函数、多项式核函数、径向基核函数和s 形核函数供选择, 同时提供交叉检验的功能【3 8 】。它简单智能、程序简单、方便快捷的特点,不仅能 为s v m 学习者提供程序编译的方便,更能为希望进一步学习者提供广阔的空间。 首先,本章首先简单的介绍了本文做实证分析采取的系统工具一一l i b s 订 软件,对它的适用范围进行简单的说明;然后介绍了模型数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论