![股票权证基于分类模型的升跌趋势预测_第1页](http://file4.renrendoc.com/view/6db1238ba8079628994a244bbedc0bc8/6db1238ba8079628994a244bbedc0bc81.gif)
![股票权证基于分类模型的升跌趋势预测_第2页](http://file4.renrendoc.com/view/6db1238ba8079628994a244bbedc0bc8/6db1238ba8079628994a244bbedc0bc82.gif)
![股票权证基于分类模型的升跌趋势预测_第3页](http://file4.renrendoc.com/view/6db1238ba8079628994a244bbedc0bc8/6db1238ba8079628994a244bbedc0bc83.gif)
![股票权证基于分类模型的升跌趋势预测_第4页](http://file4.renrendoc.com/view/6db1238ba8079628994a244bbedc0bc8/6db1238ba8079628994a244bbedc0bc84.gif)
![股票权证基于分类模型的升跌趋势预测_第5页](http://file4.renrendoc.com/view/6db1238ba8079628994a244bbedc0bc8/6db1238ba8079628994a244bbedc0bc85.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中山大学
硕士学位论文
股票权证基于分类模型的升跌趋势预测
姓名:苏醒侨
申请学位级别:硕士
专业:应用数学
指导教师:张磊;姚正安
20060428
股票权证基于分类模型的升跌趋势预测
专业:应用数学
硕士生:苏醒侨
指导教师:张磊副教授,姚正安教授
摘要
股票权证(以股票为标的物的权证)作为金融衍生物的一种,传统的分析预
测方式是基于数量经济学上的布莱克.斯科尔斯(Black—Scholes)(1973)期权定
价公式构造预测模型.但该定价公式不符合我国资本市场的实际情况:我国的证
券市场没有卖空机制,该公式的前提假设条件不能满足,故强制性的将
B1ack-Scho1eS期权定价公式应用于我国的权证预测,效果往往差强人意.本
而屡据挖掘的方法,在对股票权证的真实历史交易信息进行聚类处理的基础上,
应用相关的分类学习算法,最终建立权证波动趋势(升,跌)的预测模型.用真
实的股票权证交易历史数据对该模型进行检测,预测效果令人满意.
本文的主要工作主要包括两个部分:首先是针对原权证交易历史数据各列属
性为连续值的情况,本文利用聚类算法SOM(自组织映射算法),对各属性列分
别聚类,很好将连续值转换为状态值,而且这样的聚类处理减少了连续值离散化
过程中的信息损失.
权证波动趋势(升,跌)的预测作为一个分类问题,本文选用了NaiveBaye
sian
Model+AdaBoostAlgorithm方法构造分类器.其中NaiveBayesianMode
1(朴素
贝叶斯模型)作为弱分类器,应用AdaB。ost算法来训练加强,以构造强分类器.最
终构造的强分类器对股票权证的波动趋势(升,跌)预测效果令人满意.
关键词:权证,自组织映射算法,朴素贝叶斯分类器,AdaBoost学习算法
Forecastingstockwarrantprice^risi
ngorfa11ing
withclassification
model
Major:App1iedMathem
atics
Name:SuXingqiao
Supervisor:ZhangLei.YaoZheng'
an
Abstract
Asafinancia1derivative,stockwarrantisawrittencertifica
tethatgivesthe
holdertherighttopurchasesharesofastockforaspecifiedpr
icewithina
specifiedperiodoftime.MostofClassicaIModelsandtechniques
forwarrant
price'Sanalysisandpredictionarerootedintheoptionpricingm
odeldeveioped
byFischerBlackandMyronScholesinl973.Unfortunately,suchm
ode1isnot
satisfiedwiththeactualfactofthecapital
marketinourcountry:inthe
conditionoflackingshortsdfingmechanisminoursecuritiesmar
ket,the
preconditionoftheBlack&ScholesModelcouldn^besatisfi
ed.Forthisreason,,
suchso1utioncouldn,treachapreciseresu1tinourwarrantprice'S
prediction.
Thispaperappfiedsomealgorithmsindataminingtobui1dthemod
alforstock
warrantprice'SrisingorMiringprediction.Wefirstemployedac1ustering
a1gorithinforthepre•processingoftherea1stockwarran
ts'historicalexchange
data.Andthen,weusedsomec1assificationmode1sindatamining
thefinalpredictionmod
e1.
Themode1promotedinthispaperwastes
ea
h二¥nged?WiW居屋"上tg「df。…as
tingabifitythroughthe
testingprocess.
Keywords:Stockwarrant,S0Ma1gorithm,NaiveBayesianMod乩Ad
aBoost
ii
第一章引言
本章首先介绍本文的研究背景,然后进一步阐述本文的研究范围及研究意
义,最后介绍本文的主要内容及其体系架构.
1.1背景介绍
权证是国际证券市场上的一种最初级的金融衍生物,它是由发行人发行的,
能够按照特定价格在特定时间内购买或卖出一定数量的标的证券的选择权凭
证.标的证券可以是股票,基金,债券,一篮子股票,货币等投资品种.以股票
为标的证券的权证简称为股票权证.
股票权证本质上是i种股票期权,它反映了权证发行人与持有人之间的i种
契约关系,持有人以一定代价(交付权利金)从发行人那里获取一个权利,即持
有人可以在未来某一日期或特定期间内,以约定好的价格向权证发行人购买或出
售一定数量的资产.在权证的存续期间,权证持有人可以在证券交易市场转售权
证.而根据权证具体的供求关系和投资价值,权证的价格不断波动.
权证持有人获得的是一种权利,而不是责任,当履约行权对持有人不利时,
持有人可以取消行权(放弃权利).是否行权完全取决于权证的持有人,权证持
有人决定是否使用权证赋予的权利的主要根据是“未来某个时刻“交易标的物的
市场价格.
按照履约行权的期限可以把权证分为美式权证,欧式权证及百慕大权证.美
式权证的持有人在权证到期日前的任何交易时间均可行使其权利,而欧式权证持
有人只可以在权证到期FI当天行使其权利.美式权证虽然较为灵活和方便,但相
应的权利金是十分高昂的,而欧式期权的权利金较低.百慕大权证是行权方式介
于欧式权证和美式权证之间的权证,权证可以在事先指定的存续期内的若干个
交易H行权.目前国际上大部分的权证交易都是欧式权证.我国现行的股票权证
交易也以欧式权证为主.
根据权利的行使方向,权证又可以分为认股权证(认购权证)和认沽权证,认
购权证持有人有权按照约定价格在特定期限内或到期日向发行人买入标的证券,
认沽权证持有人则有权按约定价格在特定期限或到期日向发行人卖出标的证券.
我国股票权证市场的发展比较曲折:1992年6月,大飞乐配股权证作为我国
第一个权证产品在沪市推出,此后相继有十儿种权证在沪深证券交易所上市交
易.但是到了1996年年底,管理层出于“抑制过度投机”的原因,取消了所有的
权证交易.直至2005年6月14日,上海交易所制定《上海证券交易所权证业务管
理暂行办法》,在被叫停九年之后,权证交易在国内证券市场重新启动.2005年8
月22日,宝钢权证作为证券市场恢复权证交易的第一个权证产品终于面世.其后
多个权证产品陆续推出:武钢权证,鞍钢权证,万科权证,白云机场权证……
本文主要讨论的对象是欧式股票权证.其中相关实验所用的权证交易数据是
来自宝钢权证,万科权证和武钢权证,这三个权证产品简介如下:
宝钢JTB1580000
基本概况:
发行人:宝钢集团有限公司上市地点:上海证券交易所
标的证券:G宝钢600019权证类型;认购权证
行权代码:582000行权简称:ES060830
发行数量:38770万份权证余额:38770万份(截止2005.12.8)
行权方式:欧式行权价格:4.50
行权比例:1结算方式:实物
上市日期:2005年8月22日
存续期间:2005年8月18H——2006年8月30H
行权期问:2006年8月30日
到期日期:2006年8月30日
万科HRP1038001
基本概况:
发行人:华润股份有限公司上市地点:深圳证券交易所
标的证券:G万科A000002权证类型:认沽权证
发行数量:214028.6008万份权证余额:214028.6008万份
(截止2005.12.8)
行权方式:百幕大式行权价格:3.73
行权比例:1结算方式:实物
上市H期:2005年12月5H
存续期问:2005年12月5日——2006年9月4H
行权期间:2006年8月29日一一2006年9月4日
到期日期:2006年9月4日
武钢】TB1580001
基本概况:
发行人:武汉钢铁(集团)公司上市地点:上海证券交易所
标的证券:G武钢600005权证类型:认购权证
行权代码:582001行权简称:ES061122
发行数量:47400万份权证余额:116460.3762万份
(截止2005.12.8)
行权方式:欧式行权价格:2.90
行权比例:1结算方式:实物
上市日期:2005年11月23日
存续期问:2005年11月23日——2006年11月22日
行权期间:2006年11月16日“一2006年11月22口
到期H期:2006年】1月22EI
股票权证作为证券市场上的投资品种,其价值主要受以卜几方面因素的影
响,下面以认股权证为例具体说明:
认股权证事实上可以看成是一份看涨期权,当权证执行价格不变时,认股权
证的价值随股票价格的上涨而上涨.其价值上限就是标的股票价格,价值下限是
执行认股权证时的实际股价减去执行价格.认股权证的价值包括两个方面:当股
票的实际价格高于执行价格时.,投资者只要认购股票并在市场出售,即可获得之
间的价差,此称为“执行价值”;另一方面,只要认股权证尚未到期,则标的股
票价格有进一步上涨的空间.即为“时间价值
影响认股权证价值的因素主要有以F五个:
-是标的股价的波动率.它是认股权证价值最重要的决定因素.股价的波动
性可以是根据标的股票过去一段时间内的价格信息所计算出来的报酬率变异
性.波动性越大,代表股价的涨幅越高,同时认股权证的获利机会也就越高.因
此,标的股价的波动率与认股权证呈正向关系.
二是标的股价.认股权证与其标的股价同步涨跌,因为执行价格的收益来自
标的股价与执行价格的差距,因此标的股价越高,认股权证的价值也越高.
三是执行价格.与标的股价相反,执行价格与认股权证的价值呈反向关系.
四是到期期限.由于认股权证存在时间价值,愈接近到期日,认股权证的获
利机会愈少,因此认股权证的价值也愈少.
五是无风险利率.无风险利率通常用来衡量某项投资所用资金的机会成本,
也即是资金不用于这项投资而用于其他投资所能获得的最高收益.若投资者直接
购买标的股票,必须支付全部的股价,当无风险利率越高时,资金的机会成本越
高.若购买认股权证,则只需支付少量的保证金,这优于直接购买股票.因此,
无风险利率越高,认股权证的价值越高.
本论文应用数据挖掘的相关算法,首先对股票权证的真实历史交易数据各属
性列分别进行聚类处理,将各属性列的值离散化成状态值.进••步应用数据挖掘
的分类算法,最终建立权证波动趋势(升,跌)的分类预测模型.
1.2本文工作及其意义
作为证券市场上一种活跃的金融衍生物投资产品,权证的价格预测问题一直
颇受关注.相关的研究学者,都试图通过分析权证市场的历史数据,价格趋势和
各种指标,从中发现最能刻画在未来某个阶段权证产品价格走势的规律.针对此
问题,经济学家和数学家提出过很多不同的模型,其中RobertC.Merton,
Fischer
B1ack和MyronScho1es在1973年提出了Black.Scholes欧式看涨期权定
价公其
[111,是目前世界上最流行的期权定价公式.而权证作为特殊的期权产品,也适
用于该定价模型.作为第一个成功的期权定价公式,该公式考虑了期权价格与上
述五个因素的关系.其具体形式如下:
c(E)=S'W(吐)一鲁。s(d:)(1—
1)
di=矿一竽S—E—(1—2)
+r
iff号(13)
式中,s为标的证券目前价格,E为协定价格,c陋)为期权价格,e为自
然对数的底2.71828;t为到期日以前的剩余时间,以年为单位表示;r为无风险
的市场年利率,用小数表示;In为自然对数;盯为即期价格的波动幅度;N“)为
对于给定自变量d,服从标准正态分布S(0,1)的概率,其数值可从正态分布表中
查得.
对于欧式看跌期权的价格,可利用看涨期权与看跌期权之间的平价关系近似
地求得.其计算公式为:
P(e)=E。e1…IV(―d2)-S,lV(一面)(1一一4)
目前国外很多的期权预测模型都是基于B1ack-Scho1es定价公式而建立
他
但B1acks
一oles模型只给出期权价格的表达式,却没有回答怎样求解该
置
对
于B1ack
-:ho1es模型的求解问题,常用的是数值解法,包括:构建微
分
求
数
值
程
优21
方
,31;MonteCarlo模拟法求解[4—7];最小二乘法
I[8191
聆4L,
cKc
有aes模型是基于一定的假设条件才成立的,与目前我国证券市场的
於
定
的
差
女
距
正
一•)05年8月22日宝钢权证在上海交易所上市,知名券商
国泰君安通过B1ack—Scho1es模型将宝钢权证上市价格定为0.688元,
坐满黄东当天早市以1.263元涨停开盘,打开交易后不到两分钟又涨停,当日以
1.263元收盘,和国泰君安预测的理论价格相差甚远.这是因为B1ack—Scho
自4济典式不符合我国证券市场的实际情况:我国没有卖空机制,
B1ack—Scho1es模型的前提假设条件不满足.实际上,我国目前的权证产品的
能介值远高于其理论价值.
数据挖掘领域中的许多学者对权证价格预测问题也十分关注,结合一定的
金融背景知识,众多数据挖掘算法在该问题的应用上,取得不错的效果.现阶段
应用于权证价格预测的数据挖掘方法主要有:神经网络算法(Artificia1neura1
networks)[10—121,遗传算法(GeneticA1gorithms)
[13],支持向量机(Supportvector
Machines)Cl4,15],於些算法的应用取得了一定的效果.
本文主要的工作是应用数据挖掘的相关算法,构建分类模型,对欧式股票
权证的升跌趋势进行预测.具体的处理方法如下:
通过对权证市场的历史数据,价格趋势和各种指标属性的离散化处理,分析,
应用分类器技术预测权证产品的升跌趋势.在数据预处理的基础上,本文利用聚
类算法SOM(自组织映射网络)对权证产品的各个属性分别独立聚类,很好的
解决了连续值转换为离散值的问题,而且该聚类方法很好的减少了离散化过程中
的信息损失.权证波动趋势(升,跌)的预测作为一个分类问题,本文选用了
NaiveBayesianMode1+AdaBoostA1gorithm构建最终的分类器.其中Naive
BayesianMode1(朴素贝叶斯模型)作为弱分类器,用机器学习方面的AdaBoost
算法来训练加强,以构造强分类器.本文应用此实验方案对我国证券市场上的三
个权证产品的真实交易数据进行分类预测,实验结果表明,该方案能很好的处理
股票权证的波动趋势预测问题.
1.3本文结构
本文接下来的部分安排如下:第二章介绍数据挖掘的相关技术,其中重点介
绍应用于本文的聚类,分类算法.第三章重点介绍机器学习方面的AdaB。。st算
法,主要介绍该算法将弱分类器训练转化为强分类器的相关思想.第四章将具体
介绍本文构建的股票权证升跌趋势分类预测模型:以S0M算法将各属性列的连
续值离散化,在此基础上,应用NaiveBayesianMode1+AdaBoo
知媲野箍奥脍证的升跌趋势进行预测.本文的第五章介绍上述模型对我国证
券市场上的三个权证产品的真实交易数据进行分类预测的相关结果,通过具体的
实验结果检验模型的可靠性.第六章,总结全文的工作,提出进一步工作的想法.
第二章数据挖掘概述
在具体介绍股票权证分类预测模型之前,我们先介绍相关的数据挖掘知识及
本文用到的相关算法.
2.1概述
数据挖掘(DataMining)是近年来随着人工智能、机器学习和数据库技术的
发展而出现的一门新兴的技术,它主要利用各种分析工具在海量数据中发现模型
和数据间关系,提取隐含的但有用的信息和知识的过程【16】.
数据挖掘起源于二十世纪六十年代开始的统计分析和神经网络研究.在不断
的发展过程中,数据挖掘充分融合了数据库、人工智能、机器学习、统计学等多
个领域的理论和技术.20世纪80年代末出现了一个新的术语,即数据库中的知
识发现,简称KDD(KnowledgeDiscoveryinDatabase).KDD是从数据
中发现
模大或描述数据间的联系的过程,其主要步骤包括数据选择、数据预处理、数据
转换、数据挖掘、结果解释及评估1171,如图2—1所示.
图2—1KDD过程
其中数据挖掘只是KDDH」的一个阶段,却是最重要的一个阶段,因为它发
现隐藏的知识.人们往往不加区别地使用这两个概念,一般在工程应用领域多称
为数据挖掘,而在研究领域则多称为数据库中的知识发现.因此,在本文以下部
分将不再区分数据挖掘与数据库中的知识发现这两个概念.
目前数据挖掘已经广泛地应用于各种领域:市场分析方面的数据挖掘应用
[18],生物科学界针对蛋白质和DNA序列分析的数据挖掘应用【19】,金融领域的
数据挖掘应用[20——22],财务领域的数据挖掘应用【2
31
作为一个知识体系,数据挖掘比较典型的方法有关联分析、序列模式分析、
分类分析、聚类分析等.各种方法简单介绍如下:
①关联分析(AssociationAn
a&sis)
关联分析,即利用关联规则进行数据挖掘.关联分析的目的是挖掘发现存在
于大量数据项集之间有趣的关联或相关关系,它能发现数据库中诸如“同一次的
超市购物过程中,如果顾客购买牛奶,他同时也购买面包(具体是什么类型的面
包)的概率有多大”这类的问题,常用的算法包括Apri。ri算法【24】,频繁模式
增
长[751,多层关联规则[26,271,多维关联规则
【28】.
⑦序列模式分析(SequencePattern
Analysis)
序列模式分析主要应用于挖掘时间变化过程中,研究对象的变化规律或趋
势,主要的一些应用包括:金融市场的分析预测,动态产品的加工过程,科学实
验等.其研究内容主要包括:趋势分析,时序分析中的相似度搜索【29】,序列模
式和循环模式挖掘[301.
③分类分析(Classification
Analysis)
设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记
录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集.分类分析就
是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或
挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类.常用的
分类算法包括:决策树算法【31】,贝叶斯分类算法[321,神经网络【32】,K一
嗷察类算法【33】,遗传算法【33】等.
④聚类分析(ClusteringAna
lysis)
聚类分析输入的是一组未分类记录,并且这些记录应分成几类事先也不知
道,通过分析数据库中的记录数据,根据一定的分类规则,合理地划分记录集合,
确定每个记录所属类别.它所采用的分类规则是由聚类分析工具决定的.采用不
同的聚类方法,对于相同的记录集合可能有不同的划分结果.常用的聚类算法包
括:k一均值【34],k—中心点[351,DBSCAN[36],STING[37],
SOM^音施基/知网络)[39]等.
针对本文实验的具体应用,下面将具体介绍聚类算法SOM(自组织映射网
络)及分类算法贝叶斯分类模型.
2.2聚类算法SOM
自组织映射网络SOM(Seif—0rganizingMapsl是由芬兰赫尔
辛基大学神经
网络专家Kohonen教授在1981年提出的【40],这种网络模拟大脑神经系统自
线特征映射的功能,是一种竞争式的学习网络,在学习中能无监督地进行自组织
学习.
SOM的网络拓扑结构包含输入层和输出层,输出层也称为映射层.输入层
由IV个神经元组成,竞争层由膳个输出神经元组成,且形成一个二维阵列.输
入层与竞争层各神经元之间实现全互连接,竞争层之间实行侧向连接.SOM网
络的主要特性为:1)自组织排序性质,即拓扑保序能力;2)自组织概率分布性
质.其网络拓扑结构如图2-2所示:
输出层
输入层
图2—2SOM的网络拓扑结构
SOM网络首先把所有的映射结点(输出结点)向量用小的随机值进行初始
化,然后计算每一个实际输入向量同输出二维阵列中所有的映射结点的欧氏距
离,距离最小的那一个映射结点作为获胜结点(WinningNode),把该输入向量
映射到获胜结点,并调整该获胜结点向量的权值,同时按比例调整获胜结点邻域
内结点的权值,把所有的输入向量提交给网络进行训练(通常每个输入向量要提
交若干次),相类似的输入向量被映射到输出层中临近的区域,最后得到输入向
量的聚类,同时把高维的输入向量空间非线性地投射到二维的映射网络上,该网
络的拓扑结构反映了输入向量的分布情况.算法的具体步骤如下:
设网络的输入层有W个输入向量,维数为厅,记为:X(f)
k,屯t,…,%t,ER”,
t;1,2....IV.输出层有M个神经元为A.,,=1,2,M.输入层向量与输
出层
神经元月,之间的连接权值向量记为:%=(%。,%:,…,%),
其电,0加做各训曲过程如下%•
(1)初始化.
将权值向量%;(叶。,叶:,…,%)(,=1,2,M)
化,耳携孵区(晒蝌P谶台.,哝).设置初始学习速率叩
初翦焉由余必扇艮正0。)),
区域函数N90)具体指以获胜
神经
元g为中心,且包含若干其它神经元的区域范围.一般的,NO)的值为受影响
邻域_所_包__含_的神经呼,啊询设置网络总的训练次数为
最后对^izzt
P“2,.口初始极值向量帼■归一化,
有:确
日日CZ1,
科尸禹王扇镌篇高小
(2)
从输虻
N.Z,
(3)寻求获胜元
上算训窜羊本附与权值向量之间的距
离城.•・,IV
d,=oic七,一矿川—
以距离最小的输月c弊,蛭元面满足:]“2
tg=盯gm如瞄j】,,=l,4,M(24)
=1,z,...,Nf
从而实现神经元的竞争过程.
(4)网络更新
对获胜神经元的拓扑邻域以(f)内的所有兴奋神经元更新其权值向量:
哗川=形哪)即氓一一
HO\7(f)<l{r]Otj表陋拉网营训绚®汽:习号率,这一调整实现了神经
合作和更新过程.
(5)更新学习速率和邻域函数,归一化权值向量.
叩o,2叩c。,(,一*事)
其中,7(0)是初始学习速(,2为甘前网络训&},T为开始设定的网络训练总
次数.
NAt)2叫以c南(,一钊
其中刀订卜]表示对(X吻整一以,■©1v,0)
的初始值.,1.r、,匕匕,
矽=^=矗核等%%?口
(6)令训练次数t=t+1,返回步骤(2),直至t;T为止.
构建S0M网络的目的是用低维目标空间的点表示高维原始空间的点,同时
在高维到低维的映射过程中尽可能保持原始样本空间的拓扑结构.S0M网络不
需要存储大量样本的空间,所以具有比一般的多维尺度变化算法低得多的空间复
杂性,很好的提高了算法的性能.S0M网络还具备将高维到低维的映射可视化
特征,这也是其得到广泛应用的一个原因.目前,S0M网络不仅仅应用于聚类,
在分类,机械控制,语音识别,向量量化等领域都有广泛的应用[401.
2.3朴素贝叶斯分类模型
贝叶斯分类模型是一种基于统计学理论的分类方法.主要应用于预测样本属
于一个特定类别的概率等问题.对于样本分类预测问题,我们一般是基于样本各
属性的信息做分类决策.要是我们把分类模型简化,假设每个属性对样本分类结
果的影响独立于其它属性,这可以大大的减轻计算的复杂度.基于对样本属性相
互独立的假设,是朴素贝叶斯分类模型(NaiveBayesianC1assifie
r)的主要特征.
朴素贝叶斯分类器fNaiveBayesianclassifier)是贝叶斯分
公认成那简徵而相M概率分类方法,其性能可与决策树、神经网络等算法相
媲美.即使应用于大型数据库,朴素贝叶斯分类器也表现出高准确率和高速度
[41][42].
贝叶斯分类模型的理论主要源于贝叶斯定理,下面先对贝叶斯定理作简单的
介绍.
2.3.1贝叶斯定理
设u={x,c}是随机变量的有限集,其中x={墨,X:,
间的氤2变馨鳌我谯森穆据样本有n维的属性,具体可以用一个n维特征向
量表示:协,工:,…,9.下文为了表述方便,仍以记号X表示一个数据样本,即
z-怯,而,…,*).C={C1,C:,Co)是类标的集合,标志样本空间可能
的类别,
类别数目是1C1狂|母r类问卑T我们哂俞定F(君钛尸1S
s七,即给定
数据样本x=",屯,Irjr%丁样本土属于。上甘归由凯旺腕包里可知:
其中P(c,Ix)称为后验riorprobabi1ity),即工
x2,...»矗)可能属
于c,类的概率.相应的,PJ的先验概率(priorprobab
ility),P(XIcJ)
称为类条件概率.上述贝叶斯概率公式给出了一种由P暧),P(XIc』),P(c,)
这
1工、方法.
三个概率值表示后验概率
y)
2.3.2朴素贝叶斯分类模型
朴素贝叶斯分类模型的具体思想如F:
(1)最大后验概率原则
给定一个数据样本x=能,X2,...»9,该样本所属类别未知,根据朴素贝叶
斯分类模型的规则,该样本丑=怯,而,…,”将被判为属于具有最大后验概率的
类.具体用符号表示该思想即为:朴素贝叶斯分类模型将样本工=",而,…,’)判
为属于c类,当且仅当:
(2)根据贝叶
于所有七类都有相同的值,所以可以看作常数.为求得m哆{Psi工)),我们只
需求得,)过对训
练集(“c
se分析求得,具体可以表示为:P
桂赤6个亚,詈木训练集袁琳平|练集中属于Z/i
(3止条件独立%的应用)<------五匕
对于具有众多属性的数据集合5,1维数京样本,n值比较大)'直套寸
P(XIc,),1s,s七的计算费销可能非常大.应用每华性对样本分类结果评——।
响独立于q属性的假igu属性「J相独立,孑|大|
P晖1c』)=P(协而
其中p“耀至u,
具体
P“Ic,):翌。S.(2—12)
其中3』表示训练集中属于。』类样本的个数,S./i表示第c,类样本中第f个属性取
值
为Xi的样本数目.
(4)连续值属性的处理
由上述的介绍可知,如果属性Xi(1弓fs订)的值域是有限的离散点,我们
可以计算出所有的P@Ic,)(1sfs以,Is,sk)的值.若属性置是连续值属
性,
我们需要对该属性的值进行处理.最简单的处理方法当然是将属性值离散化.
(5)样本*=",X2....%)的分类结果
对于给定的所属类别未知的数据样本X=",工:,…,9,分别计算
P(XIcj)*P(cj),1s,s七.根据最大后验概率原则,样本x={墨,x2,…,
')被判
定属于c;类,当且仅当:
P(zlci)oP(q))—e(xlc,)'P(c,),1s,s七且,
#i(2---13)
以上即为朴素贝叶斯分类模型的工作步骤.从理论上讲,朴素贝叶斯分类模
型较之其它分类算法有最小的分错率[41][421.除了具体的分类应用,朴素贝叶
斯分类模型还可以用来为其它分类算法提供理论上的判定,例如许多神经网络和
曲线拟合算法也以最大后验概率为分类判定指标.
2.4本章小结
本章重点介绍了数据挖掘技术的两个算法,分别是SOM(自组织映射网络)
聚类算法及朴素贝叶斯分类模型.这两种算法在各自的应用领域独具优点:S0M
网络在高维到低维的映射过程中尽可能保持原始样本空间的拓扑结构,并且有很
好的计算性能:朴素贝叶斯分类器(NaiveBayesianc1assifier)
弟林罩翁玲檄的概率分类方法.正是基于两者的优点,本文在构建权证升跌趋势
分类预测模型中对两者加以结合应用.
第三章AdaBoost算法
本章将重点介绍AdaBoost算法,它是机器学习q0Boosting系列学
表算也方楚联彳%。ost算法用于提高学习算法的精确度,它以弱分类器为基础,通过
多轮针对训练集的循环学习训练,构造一个预测函数系列,然后以一定的方式将
它们组合成一个预测函数,从而得到分类性能更优的强分类器.下面将首先介绍
Boosting学习方法的主要思想,在此基础上再详细介绍AdaBoos
t算法.
3.1Boosting学习方法
Boosting算法的主要思想是通过连接一些简单分类器构建一个性能较之所
有这些简单分类器更优的组合分类器.设啊,也,…,八都是一些简单分类器,我们
通过结合所有这些简单分类器得到一个组合分类器:
,o)2Zq~。)(3—1)
上式中,q表示对应的简单分类器-f在组合分类器中的权重系数.上式中的
q,鬼0)0宣fsf)都是通过Boosting算法的训练过程得到.Boosti
ng算法的组合
分类器构造过程如图3—1所示:
玩忽;忽
S3—1Boosting算法的训练过程
Boosting算法思想来源于PAC(Probab1yApproxima
telycolled)学习理论4L
十年代,Va1iant在PAC学习模型中提出了强学习算法与弱学习算法的概念【43
1:
强学习算法:样本集合s包含n个数据点“,y1),(b,丫2),…,阮,儿),
其中
而(f=1,2,…弹)是按照某种固定但未知的分布D@)随机独立抽取的,
儿=,甑).其中,属于某个已知的布尔函数集,,即
弘d{—1,+q,f=1'2,...»1.若对任意的xED,任意的,EF,任意的
i
OSS,6s专,根据学习算法生成的估计函数丘满足肿or(h,,)空盛(-。)w,0))
的概率大于1一6,并且学习算法的运
“硒J晦关凝成多项式关系,则我们
称该F0
弱学习算法:其定义与强学习算法定义相似,只需把上面s,6的任意性改为
存在性即可.
随后,Kearns和Va1iant提出了弱学习算法与强学习算法的等价性问题,
能否用PAC模型中的一个弱学习算法提升为一个具有任意精度的强学习算法.若
两者的确等价,那么只要找到一个比随机猜测略好的弱学习算法就可以直接将其
提升为强学习算法,而不必直接去找很难获得的强学习算法.1990年,Schapire
通过构造一个多项式级的算法对上述等价性问题给出了肯定的证明,其证明中的
构造算法就是最初的Boosting算法.该算法可以将弱分类器转化为强分类器.其
后Freund提出了一种效率更高的通过重取样或过滤运作的Boost.By-Maj
ority算
法.但早期的Boosting算法在解决实际问题时存在较多的不足:组合分类器厂0)
的进一步改善需要Boosting过程更多的迭代:需要事先知道弱学习算法学习正
确率的下限,这在实际中往往很难实现.
1995年,Freund和Schapire提出了通过调整权重而运作的Boo
sting算法:
AdaBoost(AdaptiveBoosting)算法[44].该算法的效率与原来的Boosting算
法
相同,但不需要任何关于弱学习算法性能的先验知识,因此可以很好的应用到实
际问题中.
Boosting是提高预测学习系统预测能力的有效工具,是组合学习中最具代表
性的方法.实际应用中,Boost—By—Majority和AdaBoost是Bo
蜃济和由防麻f科舞米雯的应用需要,下面具体介绍AdaBoost算法.
3.2AdaBoost算法
3.2.1AdaBoost算法的基本原理
AdaBoost算法的主要思想是给定一个弱学习算法与一个训练集合(_,y
1),
(x2,y2),阮,n),其中而(f;1,2,…n)属于某个域或实例空
问x,而
MG{—L+q,(i=l'2,n)可以理解为分类问题的类别标志.算法开始时
先给
每个训练样本赋以相同的权值!,
然后调用弱分类器对训练集进行训
缘后哪两解的储果更新各样本的权值,对训练失败的样本赋以更大的权值,实
质是让学习算法在后续的学习中更偏重对较难分类的训练样本的学习.更新样本
分布后继续进行训练.反复迭代丁轮,最终得到一个分类器序列睡,恕,…,岛,
其中每个分类函数也具有一定的权值:检测效果较好的分类函数的权值较大,检
测效果不好的分类函数的权值较小.最终的分类函数日采用有权重的投票方式
获得.
AdaBoost,算法的伪代码表示如下:
1、输入:
(1)训练集s={(墨,_),1),(X2,Y2),阮,心)),
其中量£z0=1,2,1),
YfE{-1,+q,f=l,2,…厅;
(2)弱学习算法.
2、对训练集初始化权值:
(3—2)
Dx(i)=il,f=l,2,...,
3、执行算法:11;
,Drt=1,2,
T
(1)对己指定权重的训练样本进行学习,得到一个预测函数:
鬼:薯一{一1,1},f=1,2,n(3—3)
(2)统计预测函数旭的训练错误率:
,一z皿。)肛(弓)一YiJ,(3—4)
17
若Et=0或〉1/2,则令T=f-1并终止循环
(3)令:
q;,n[斟…
(4)根据啊的训练错误率更新样本的权重:
当啊@)黄丫i时,
里
%胪坳螂㈣二喇〈等
当岛@)=丫/。时,;
疗j:»q=q—aq=疗u一—,q(3—7z)
........•也岛
(5)更新t的值为t+1,返回(1)
4、输出:
…2s枷偿q
3.2.2训练错误协))
对于上述训练算法,Schapire,Singei^DFreund从理论上推导出
所得翻箫段箭训练误差满足以卜条件:
定义,o)2荟q啊o),则上述H(力可以表
而H江送I练误船捣》45?:J咖(,@)),
昙t{i:H(xi)舌ijs若藁ex
其中:p(w“))=IIT互(3-----9)
互=gDIo)懈p(一a,yi一@))(3
—10)
从上式我们可以看到:通过对a。和-的适当选择,zf将被最小化.相应地,训
18
练误差也迅速减小.
在二值情况下,设S是最终的预测函数H0)的最大错误率,Schapire与
Freund分析并证明8满足[46]:
ss立[Z厕习。亦厢5
其中Et是啊类器都里犯叱
猜想稍好,DAP、乙十1,乙
约束n离0较远,则训练错误将以指数级速度下降.AdaBoost以前的Boosti
ng算zorr
法也有相似的性质.G而3前的算法茬孚司前J要得到L•知9下界n.实践中
关于这样的边界的知识是很难得到的.而AdaB。。st可以调整单个弱分类器的错误
率,所以说是自适应的.
3.2.3AdaBoost算法的特点及其应用
AdaBoost算法的优点表现在:有很好的算法效率,易于编程实现.它除了
迭代次数T外不需要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校社团工作计划鼓励学生写诗
- 2025年羧甲淀粉钠项目合作计划书
- 七年级下册《一元一次不等式的应用》课件与练习
- 制冷空调培训课件
- 强化废弃物管理推动生物降解
- 构建系统耦合度控制与优化机制
- 关于员工培训的会议纪要及培训计划
- 功能、使用与维护指南
- α-Lactose-hydrate-Standard-生命科学试剂-MCE
- Sodium-ethylparaben-Standard-生命科学试剂-MCE
- 双溪漂流可行性报告
- 采购流程各部门关系图
- 力士乐工程机械液压培训资料(共7篇)课件
- 英语单词词根
- 问题学生转化策略课件
- GMP附录计算机化系统整体及条款解读
- 村光伏发电申请书
- 腰椎间盘突出症中医特色疗法课件
- 施工现场专项消防安全检查表
- 如何当好学校的中层干部
- 2022-2023学年广东省佛山市顺德区高三(下)模拟英语试卷
评论
0/150
提交评论