




已阅读5页,还剩54页未读, 继续免费阅读
(应用数学专业论文)聚类分析在股指期货期现套利中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
a b s t r a c t s t o c ki i l d e xf u t u r e si saf i n a n c i a lf u t u r e s i ti st h es t o c ki n d e xf b f t h es u b j e c t a so n e o ft h ei n l p o n a n tr o l eo ff u t u r e si su s i n gf u t l l r ea r b i t r a g et op r c v e n tt h er i s ko ft h es p o t m a r k e t i l l d e xf u t u r e s 卸dc o m m o d i t yf u t u r e si sd i f f e r e n tf r o mt h es p o tw h e r et h e s u b j e c ti st h a ti ti sn o tap h y s i c a l ,b u t 觚i n d e x s oh o wt oc h o o s eac o m b i n a t i o no f s t o c k st oa c h i e v et h es m a l l e s te o ro ft h es i m u l a t i o n0 ft h i si n d e xi sa ni m p o n a n t i s s u e i nt h i sp a p e r ,t i m e s e r i e sc l u s t e ra l l a l y s i sw i l lb ea p p l i e dt ot h es i m u l a t i o no f s t o c ki n d e xt oc h o o s ea r e p r e s e n t a t i v es t o c kp o n f l o l i o t h em a i nr e s e a r c hw o r ka n dr e s u l t ss u m m a r i z e da s1 o o w s : a n a l y z et h ec i l h e n tc o m m o ns t o c ki l l d e x s i m u l a t i o ns t r a t e g y 觚dc o m p a f et h e c h a r a c t e r i s t i c so ft h ev a r i o u ss t r a t e 西e sa n de 骶c t s a u s t e r a n a l y s i sw i l lb ea p p l i e d t 0s a m p l ec ( 巾ys i m u l a t i o ns t m t e g y an e w s a m p l ec o p ys i m u l a t i o ns t r a t e g yu s i n gf e a t u r ee x 虹a c t i o nt e c h n i q u e sb 雒e d o n ( 孔气r c hm o d e lw i l lb ep r c s e n t a ne m p i r i c a la n a l y s i so ft h ei n d e xs i m u l a t i o ns t r a t e g yc o n f i m e dt h es u p e r i o r i t y o ft h en e w s t r a t e g y k e yw o r d s :廿m es e r 噎e s ,c l u s t e ra n a l y s i s ,s t o c ki n d 懿m t i l 麟,如t u 心sa r b i t 豫g e 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本 文的研究作出重要贡献的个人和集体,均己在文中以明确方式标明。 本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期:如奠年 f 月 谓一汞 歹i e l l 学位论文使用授权声明 黧鬻鹬秫蒙 日期:7 年 岁月31 日 第一章前言 1 1 研究背景 中国期货市场自1 9 9 2 年开始试点交易以来,经历了最初的盲目发展、1 9 9 3 年 起的清理整顿以及2 0 0 4 年起的稳步发展,已成为仅次于美国的全球第二大商品期 货市场,各项功能初步发挥,国际化程度开始提高。 目前,中国期货交易已形成了较完备的法律法规体系,市场环境明显改善。 2 0 0 8 年,全国期货市场成交额突破7 1 万亿元,创出历史新高,成为全球第二大商品 期货市场。不过,美国期货期权交易额一般是gdp 总量的1 0 倍以上,中国期货交 易额才达到gdp 总量的两倍左右。 产品方面,中国覆盖农产品、普通金属、贵金属、能源和化工等领域的商品 期货体系已初步形成。除原油外,国际市场主要大宗商品期货交易品种都己在中 国上市交易,首个金融期货品种股指期货正在筹备当中,钢材、稻谷期货即将上 市。不过,中国产品配套和产品深度还有很大差距,特别是至今没有金融期货品 种。我国金融衍生品期货的缺失,是造成我国期货市场近十年发展缓慢的主要原 因之一。据统计,近十年来,全球的期货、期权交易量增长了十倍左右,其中金 融期货已经成为期货市场成交量最大的种类,商品期货的成交量不足总成交量的 l0 。 上市公司的股票全流通后的同股同价、汇率的有管理浮动、金融机构借贷款 利率上下限的放开,标志着中国金融产品的市场化迈出了第一步。而作为第一个 金融期货品种即股指期货的上市,才将真正拉开中国金融体制市场化改革的序 幕。 股指期货是针对股票指数为标的的金融期货。股票现货市场和股指期货 市场紧密相连,根据股指期货的制度设计,期货价格在合约到期日会与现 货市场标的指数的价格相等。但实际行情中,期货指数价格常受多种因素 影响而偏离其合理的理论价格,与现货指数之间的价格差距往往出现过大 或过小的情况,一旦这种偏离出现,就会带来在期货市场和现货市场之问 套利的机会,我们把这种跨越期市和现市同时进行交易的操作称之为期现 套利,也叫指数套利。 股指期货的期现套利不同于商品套利。因为它的现货是一个指数,并非实 物。如何精确的模拟它的现货,也就是指数,是期现套利中最为关键的一环。现 有的三大类指数模拟策略:全复制,抽样复制,e t f 组合都有它们各自的缺点。 而且三种方法都将时间序列作为简单的数据集来看待,这限制了它们进一步的改 进。 1 2 论文的主要工作 本文在分析了现有的各种指数模拟策略之后,初步采用了k m e a n 聚类算 法对个股序列进行了聚类分析,对抽样复制做出了改进。之后创新的将e t f 和 个股序列相结合,提出了基于特征的抽样复制现货模拟策略。 本文的主要研究工作和成果概括如下: 分析讨论了目前常用的股指期货现货指数模拟策略,对各种指数模 拟策略的特征及结果做了分析比较。 将聚类分析应用于抽样复制的现货模拟策略,利用聚类分析技术来 解决抽样复制的样本选择问题,提出了基于聚类分析的抽样复制模 拟策略。 创新地将e 1 陌和个股相结合,利用特征提取技术,用g a r c h 模型 对时间序列进行拟合,然后对求解的模型参数作为时间序列的特征, 提出了基于g a r c h 模型的抽样复制模拟策略。 最后实证分析了各种指数模拟策略,从实验结果上肯定了文中提出 的新的模拟策略的优越性。 2 1 3 论文的内容安排 第一章前言: 介绍本文的研究背景及指数模拟的现有策略,并说明论文的主要工作和内容 安排。 第二章股指期货期现套利和指数简介: 介绍了股指期货套利的基本模型,并对本文中要模拟的指数( h s 3 0 0 指数) 做了简单的介绍。 第三章股指期货指数模拟基本策略: 介绍了现有的三大类指数模拟策略:全复制,抽样复制,e t f 组合。并指出 了各自的不足。 第四章聚类分析模拟策略的提出: 首先用时间序列的观点来对待个股及指数的日收盘价序列。对其做了标准化 处理之后,先用聚类分析对抽样复制的方法做了改进。然后提出了将个股序列和 e t f 序列相结合,用时间序列基于g a r c h 模型的聚类选样的方法,进一步优化 了指数模拟策略。 第五章实验与讨论: 通过实证分析来对比了已有的三种指数模拟策略的优缺点。并对聚类分析指 数模拟策略进行了检验,实验结果说明聚类分析能够选出更具有代表性的样本股 来模拟指数,并且也验证了个股和e t f 组合基于模型聚类选样的优越性。 第六章全文总结与展望: 本章对本课题的研究工作进行总结,指出了前进的方向。 3 第二章股指期货期现套利和h s 3 0 0 指数简介2 1 股指期货期现套利介绍 2 1 1 股指期货期现套利的模型框架简介什么是期现套利 期现套利是指某种期货合约,当期货市场与现货市场在价格上出现差距时, 利用两个市场的价格差距,低买高卖而获利。理论上,期货价格是商品未来的价 格,现货价格是商品目前的价格,按照经济学上的同一价格理论,两者间的差距, 即“基差(基差=现货价格一期货价格)应该等于该商品的持有成本。一旦基 差与持有成本偏离较大,就出现了期现套利的机会。其中,期货价格要高出现货 价格,并且超过用于交割的各项成本,如运输成本、质检成本、仓储成本、开具 发票所增加的成本等等。期现套利主要包括正向买进期现套利和反向买进期现套利两种。股指期货期现套利 股票现货市场和股指期货市场紧密相连,根据股指期货的制度设计,期货价 格在合约到期日会与现货市场标的指数的价格相等。但实际行情中,期货指数价 往出现过大或过小的情况,一旦这种偏离出现,就会带来在期货市场和现货市场 之间套利的机会h 1 ,我们把这种跨越期市和现市同时进行交易的操作称之为期现套利,也叫指数套利。 期现套利有两种类型:正向基差套利和反向基差套利。正向基差套利: 当现货指数被低估,某个交割月份的期货合约被高估时,投资者可以卖出该 期货合约,同时根据指数权重买进成份股,建立套利头寸。当现货和期货价格差4 套利区间。由于套利机会转瞬即逝,所以无套利区间的计算应该及时完成,实际 操作中往往借助电脑程式化交易进行。 2 、判断是否存在套利机会。通过监视期货合约价格走势并与无套利区间进 行比较,可以判断是否存在套利机会,只有当期货价格落在无套利区间上界之上 或下界之下时,才出现可操作的套利机会。 3 、确定交易规模,确定交易规模时应考虑预期的获利水平,交易规模大小 对市场有冲击影响,交易规模过大会造成冲击成本高,从而使套利利润降低。此 外,还应考虑融资和融券的可能性,由于我国目前还不能融券,所以反向基差套 利还难以实施。 4 、同时进行股指期货合约和股票交易。 5 、监控套利头寸的盈亏情况,确定是否进行加仓或减仓操作。 2 1 2 股指期货定价模型介绍 持有成本模型是c o m e l l l 5 l & f r e n c h 6 l ( 1 9 8 3 ) 借助一个无风险套利组合论证的 建构在完美市场假设下的定价模型。假设条件如下: ( 1 ) 无税收和交易成本; ( 2 ) 卖空股指成分股无限制; ( 3 ) 借贷利率相同且维持不变; ( 4 ) 无逐日盯市的保证金结算风险; ( 5 ) 股利发放时间、数量确定,无股利不确定风险; ( 6 ) 股指成分股可无限分割; ( 7 ) 期货和现货头寸均持有到期货合同到期日。 下面给出定价模型中的符号说明: s :股份组合在t 时刻的价格; s r :股份组合在t 时刻的价格; 只r :t 时刻到期的期货合约在t 时刻的价格; 6 4 j :从t 时刻到t 时刻的股票组合的股利收入; r :市场无风险收益率。 在无套利条件下,t 时点买人指数期货e j 和买入指数现货成份股投资组合 墨,持有到t 时点,两种投资方式的未来收益现金流量囊錾茎委蓁雾 蒌t 一羹藿”蚕要羹霪一;事一i 雾麦薹”! 专誊“ f ! 螯一季霎 藩燮稀菰掣型羲霞吲俺朋耋冀鼠嘉雨攒, 雾曼一;雾垂量i ;耋一雾暑 蓁霎茎茎 薹。量,摹薹薹雾雾 s a i fu rr a h m a n 2 ( 1 东南大学电气工程学院,江苏省南京市2 1 0 0 9 6 ; 2 美国弗吉尼亚理工大学高级研究所,美国弗吉尼亚州阿灵顿市2 2 2 0 3 ; 3 河海大学电气工程学院,江苏省南京市2 1 0 0 9 8 ) c o m p a r a t i v es t ud yo ns m a r tg r i dr e l a t e dr & d i n c h i n a ,t h eu n i t eds t a t e sa n dt h ee u r o p e a nu n i o n t a n gy i l ,m a n i s ap i p a t t a n a s o m p o m 2 ,s h a os h e n g n a n 2 ,l i uh a o r u i n 9 3 ,s a i f u rr a h m a n 2 ( 1 s c h o o lo fe l ec t r i c a le n g i n e e r i n g ,s o u t h e a s tu n i v e r s i t y ,n a n j i n g2 1 0 0 9 6 ,j i a n g s up r o v i n c e ,c h i n a : 2 a d v a n c e dr e s ea r c hi n s t i t u t e ,v i r g i n i ap o l y t e c h n i ci n s t i t u t ea n ds t a t eu n i v e r s i t y ,a r l i n g t o n ,v a ,2 2 2 0 3 ,u s : 3 s c h o o lo f e l e ct r i c a le n g i n e e r i n g ,h o h a iu n i v e r s i 哆,n a n j i n g2 1 0 0 9 8 ,j i a n g s up r o v i n c e ,c h i n a ) a b s t r a c t :e l e c tr i c p o w e rs y s t e m s a r e f a c i n gm a n y c h a l l e n g e sd u eto t h er a p i ds o c i a la n de c o n o m i cd e v e l o p m e n t s a l lo v e rt h ew o r ld m a n yc o u n t r i e sa n dr e g i o n sa r ei n t e r e s t e di n t h es m a r tg r i dc on c e p ta san e wi d e at om e e tt h er e q u i r e m e n t s o fp o w e rd e m a n d si nt h e21s tc e n t u r y a sv a r i o u sc o u n t r i e s h a v ed i f f e r e n tn a t u r a lr e s o u r c e s ,t e c h n o l o g i e sa n ds o c i e t a l p r e f e r e n c e s ,t h e a p p r o a c h e st ot h es m a r tg r i dd e v e l o p m e n tw i l l b ed i f f e r e n tf r omo n ec o u n t r yt oa n o t h e r t h i sp a p e rp r e s e n t sa s u m m a r y o ft h ec on c e p t ,r e s e a r c ha n di m p l e m e n t a t i o n 勖陌组合这三种方式f 8 j o 全复制就是按照构成股票指数的各成份股的权重,做到 投资组合和指数的结构一致。这一种方法交易操作复杂,并且不可能达到完全复 制的效果,总有不可克服的误差。样本抽样复制就是选择个别成份股来模拟整个 指数。这个方法,交易操作简单。但是传统方法的误差较大。而按照e 邛组合 来模拟指数的策略,效果较好,模拟误差较小。但是因为e t f 自身的特点,它 也有不可避免的缺点。 2 2 沪深3 0 0 指数及其期货合约简介 2 2 1 沪深3 0 0 指数概述 沪深3 0 0 指数是由中证指数有限公司负责编制和维护的成份股票指数,该指 数是从沪深两市中选取3 0 0 只股票作为其成份股,其样本市值约占整个股票市场 的六成左右,具有良好的代表性。沪深3 0 0 指数也是我国第一只用以反映a 股整 体市场表现的股票指数,有利于投资者观察和把握国内股票市场的整体变化,具 有很好的投资参考价值。 2 2 2 沪深3 0 0 指数的编制 沪深3 0 0 指数是根据流动性和市值规模从沪深两市中选取3 0 0 只a 股股票 作为成份股,其样本空间为剔除如下股票后的a 股股票:上市时间不足一个季度 的股票( 大市值股票可以有例外) 、暂停上市股票、经营状况异常或最近财务出 现严重亏损的股票、市场价格波动异常明显受操纵的股票、其他经专家委员会认 为应剔除的股票。 沪深3 0 0 指数成份股的选取方法为:对样本空间股票在最近一年( 新股为 上市以来) 的日均成交额进行排名,剔除排名后5 0 的股票,然后对剩余股票按 日均总市值进行排序,选取前3 0 0 位的股票作为成份股。 沪篓蓄颡蓊雾嚣嚣燮冀蓬辩;摧 蓦耄麓爨嘲鞋雾爱驻瓣鏊蘸餮鬻翼辇型;霪 鼠 10 0 r e s e a r c h 半年进行一次调整,每次调整数量不超过1 0 。 沪深3 0 0 指数采用派氏加权法进行计算,其计算公式为: 报告期指数= 报告期成份股的调整市值基同成份股的调整市值1 0 0 0 调整市值= ( 市价调整股本数) 其中基日成份股的调整市值又称为除数。调整股本数采用分级靠档的方法进 行计算,比如,某股票流通股比例( 流通股本总股本) 为7 ,低于1 0 ,则采用 流通股本为权数;某股票流通比例为3 5 ,落在区间( 3 0 ,4 0 ) 内,对应的加权 比例为4 0 ,则将总股本的4 0 作为权数。具体加权比例见下表: 表2 一lh s 3 0 0 指数流通股权重计算 流通0 1 01 0 2 0 3 0 4 0 5 0 6 0 7 0 8 0 比例 2 03 04 05 06 07 08 01 0 0 加权流通 2 03 04 05 06 07 08 0 1 0 0 比例比例 指数的修正:当沪深3 0 0 指数的成份股发生替换或股本结构出现变化,或者 成份股市值由于非交易因素产生变动时,需要对指数进行修正,以保证指数价格 的连续性。修正方法采用“除数修正法”,即通过一定方法重新计算新的除数,并 用新除数计算指数价格,除数修正公式如下: 修正前的市值原除数= 修正后的市值新除数 其中修正后的市值= 修正前的市值+ 新增( 减) 市值。 1 0 第三章股指期货指数模拟基本策略 3 1 全复制指数模拟策略 应当说,利用全复制的方法创建现货组合复制目标指数的过程是非常直接并 易于理解的。如果利用全复制方法来创建现货组合,那么目标指数的所有成分股 都应该被选入到现货组合中,在现货组合中,持有成分股的数量是按照它们在目 标指数中的标准权重进行资金配置。 3 1 1 全复制指数模拟策略的成分股配置 为了叙述方便,引入以下符号: e ,f - 1 ,2 ,表示第f 支成分股 睨,f 。1 ,2 ,表示在时刻f 成分股f 在目标指数中的权重; 最,z 一1 ,2 ,表示成分股f i 在时刻f 的价格 形表示在时刻f 现货组合的资产 e 表示在时刻f 现货组合的现金资产的价值; e + 表示在时刻f 现货组合中股票资产的价值 z 血一e 彬。,表示成分股i 的资金 属,表示现货组合中应当持有成分股舶数量 那么根据权重,可以得到曰“的计算公式: ,;。- - 1 。( ) _ i 卫ni j ,z f ( j i - ;i i - ;) ,1 ) ,f - 1 ,2 , 3 1 ) 从而得到全复制的现货组合如下: 3 善风宰e l 一1 1 2 ( 3 2 ) 3 1 2 全复制模拟策略对模拟误差 根据目标指数的标准权重复制出的现货组合页存在跟踪误差。产生跟踪误差 的主要原因包括以下四个方面。 首先,交易费用的问题。因为涉及到交易费用存在,使得实际可以配置的资 产少于总资产。交易费用越低,跟踪误差越小。 其次,成分股韵红利也会造成现货组合与目标指数之间的跟踪误差。我们称 这种跟踪误差为现金拖累造成的。所以说现货组合中的现金的比例越小,现金拖 累产生的误差就越小。 第三,成分股的在融资与指数成分股调整也将导致现货组合与目标指数之间 产生误差。在上述情况发生之后,所有成分股的权重将发生变化。这时,我们需 要根据新的权重,重新计算现货组合的持股比例。而现货组合过程中的调整,不 可避免的带来交易费用增加,从而加大了跟踪误差。 第四,证券交易所的交易规则和资金配置过程中的四舍五入计算原则都使成 分股在现货组合中的权重与标准权重产生不一致,从而导致跟踪误差。 3 2 传统的抽样复制指数模拟策略 抽样复制方法是从目标指数的成份股中挑出一部分股票创建现货组合。但是 我们希望这个现货组合与目标指数之间的跟踪误差能够被有效控制。 传统的抽样复制的方法有三种,简单随机抽样,排序抽样,分层抽样。 因为简单随机抽样的效果太差本文便不做讨论。 3 2 1 传统的排序抽样 由于可以用于对成份股进行分类和排序的指标太多,通常情况下,只采用权 重指标也可以取得不错的效果。它是一种较为简单和高效率的一种复制方法。 在下面的讨论中,我们假设目标指数是以流通市值加权,成份股的挑选是选 择按权重排序排在前面的或者是满足设定的权重阈值的几只成份股。资金配置的 方法是依据被选中的成份股在指数中的流通市值权重作为资金配置比例,计算现 1 3 3 3e t f 组合指数模拟策略 3 3 1e i - f 组合配置的原理 直接使用实用股指期货标的指数基金是最简单的一种模拟方法。它使投资者 避免了对指数成份股组合直接进行买卖交易而将现货的模拟环节交给基金公司 来执行,同时具有交易成本低拟合度高的特点。但是,这种方法也存在相当程度 的缺陷。首先,在业绩衡量方面,我国现有的两只沪深3 0 0 股指基金的业绩衡量 标准是为9 5 的沪深3 0 0 指数收益率加5 的银行同业存款收益率,并非1 0 0 的跟踪。其次在市场容量和流动性方面,由于股指期货的指数基金的规模和份额 限制,使其不适合进行短期或大规模资金的期现套利活动。再次,在结算风险方 面,l o f 基金的交割方式为t + 2 ,这无疑会在较大程度上影响期现套利的效率。 而e t f 组合拟合度高,跟踪误差小。与普通的指数基金相比,e t f 具有以下 优点:e t f 基金相对于l o f ,具有交易成本低,交易方便,交易效率高等特点。 其次,e t f 采用完全被动的指数化投资策略,管理费用较低,操作透明度较高, 可以让投资这以较低的成本投资与一揽子标的指数成份股。 因为沪深3 0 0 指数涵盖了上海和深圳两个证券市场,我们也可以使用上证 5 0 e t f 上证1 8 0 e t f 和深证1 0 0 e t f 的组合来模拟h s 3 0 0 指数。这将是一个简单的 规划模型阳1 设,1 ,厂1 ,分别代表h s 3 0 0 ,上证5 0 ,深证1 0 0 ,上证1 8 0 在t 日的收益 率,设,m ,m 舳分别代表h s 3 0 0 ,上证5 0 ,深证1 0 0 ,上证1 8 0 在投资组合中 的资金比例。 t e 表示跟踪误差。利用规划模型得到下面方程: m i n 距一 s j + m + m 一1 ,m ,m 20 ( 3 3 ) 求解出权重之后,便可以得到e t f 组合模拟策略对应的现货组合: w 如,钿f + 吒_ ,+ w l ,1 , ( 3 - 4 ) 1 5 3 3 2e t f 组合模拟策略的缺陷 e t f 和全复制方法有着相同的不可克服的缺陷。 第一交易费用的问题。因为涉及到交易费用存在,使得实际可以配置的资 产少于总资产。交易费用越低,跟踪误差越小。 第二h s 3 0 0 和e t f 各自成分股的红利也会造成现货组合与目标指数之间的 跟踪误差。我们称这种跟踪误差为现金拖累造成的。所以说现货组合中的现金的 比例越小,现金拖累产生的误差就越小。 第三成分股的在融资与指数成分股调整也将导致现货组合与目标指数之间 产生误差。在上述情况发生之后,所有成分股的权重将发生变化。这时,我们需 要根据新的权重,重新计算现货组合的持股比例。而现货组合过程中的调整,不 可避免的带来交易费用增加,从而加大了跟踪误差。 1 6 第四章聚类选样指数模拟策略的提出 4 1 时间序列聚类算法简介 人们对聚类问题的研究己经有相当长的历史。1 9 6 3 年,由r o b e r ts o k a l 和 p e t e rs n e a t h 合著的p r i n c i p l e so fn u m e r i c a lt a x o n o m y ) 一书对聚类的研究起了 很大的推动和促进作用。早在多年前,聚类分析就成为统计学的一个分支,主要 的研究方法是基于距离的聚类。在模式识别中。聚类分析常被称作无监督的学习 或者概念聚类,它是在不知道训练样本类标的情况下,依据对象自身的相似性把 一组对象划分成一系列有意义子集的描述型任务。从这个意义上看,聚类分析可 以这样定义:将一组数据分组,使其具有最大的组内相似性和最小的组间相似性, 也就是说,最后的结果要达到不同聚类中的数据尽可能地不同,而同一聚类中的 数据尽可能地相似。目前,研究人员已经提出了大量的聚类算法,可以大致分为 五类。 4 1 1 基于划分的方法( p a r t i f i o n i n gm e t h o d ) 给定一个玎个对象或元组的数据库,基于划分的方法构建数据的k 个划分, 每个划分表示一个簇,并且ks 以。也就是说,它将数据划分为k 个组,同时满 足要求: ( 1 ) 每个组至少包含一个对象; ( 2 ) 每个对象必须属于且只属于一个组。 给定要构建的划分数目k ,划分算法首先创建一个初始划分。然后采用一种 迭代的重新定位技术,尝试通过对象在划分间移动来改进划分。一个好的划分的 一般准则是:在同一个类中的对象之间尽可能“接近 或者相关,而不同类中的 对象之间尽可能“远离 或者不同。 为了达到全局最优,基于划分的聚类会要求穷举所有可能的划分。目前比较 流行的两个划分算法是: ( 1 ) k 均值算、法【1 4 j ,在该算法中,每个簇用该簇中对象的平均值来表示; ( 2 ) k 中心点算法【1 5 】,在该算法中,每个簇用接近聚类中心的一个对象来 1 7 声 和孤立点数据是敏感的,少量的该类数据能够对平均值产生极大的影响。 4 1 2 层次的方法( h j e m i h i lm e 恤o d ) 层次的方法对给定的数据对象集合进行层次的分解。一个层次的聚类方法将 数据对象组成一个聚类的树。根据层次分解的不同,层次聚类方法可以分为凝聚 的( a g 羽o m e r a t i v e ) 和分裂的( d i v i s i v e ) 层次聚类。 凝聚的层次聚类:这种自底向上的策略首先将每个对象作为一个簇,然后合 并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终止条 件被满足。绝大多数层次聚类方法属于这一类,它们只是在簇间相似度的定义上 有所不同。 分裂的层次聚类:这种自顶向下的策略与凝聚的层次聚类相反,它首先将所 有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇, 或者达到了某个终止条件,例如达到了某个希望的簇数目,或者两个最近的簇之 间的距离超过了某个阈值。 凝聚的层次聚类算法的步骤如下: 设c | c 一玎,q = ) ,f 一1 ,2 ,露。 若c csc ,则停止,否则,r e p b 玎: 找最相近的两个类d :f 和d ,: 将皿和q 合并:d j q u q ,删除q ,c c 减去1 。 其中c 是事先制定的聚类数目,n 是样本的数目,c 亡用来记录当前的分类 数目,当聚类c 次后,迭代停止;如果c = l ,则得到整个分类树,算法第三步 计算最相近的两个聚类,不同的类间距离度量,对聚类会有不同效果。常用的几 种距离度量包括: 近点距离: d 。;。 q ,一嘎巴,忙一x 。0 ( 4 2 ) 远点距离: d m 叫d ,川,4 器,肛一x 0 ( 4 3 ) 1 9 平均距离: 矿者荟荟b o ( 4 4 ) 4 1 3 基于密度的方法( d 蚰s i t y - b a s e dm e t h o d ) 绝大多数划分方法基于对象之间的距离进行聚类,这样的方法只能发现球状 的簇,而在发现任意形状的簇这个问题上遇到困难。随之提出基于密度的另一类 聚类方法,其主要思想是:只要临近区域的密度( 对象或数据点的数目) 超过某 个阈值,就继续聚类。也就是说,对给定的类中的每个数据点,在一个给定范围 的区域内至少包含某个数目的点。这样的方法可以用来过滤“噪声 和孤立点数 据,发现任意形状的簇。 d b s q 悄【2 0 l 是一个具有代表性的基于密度的聚类算法,它根据一个密度阈值 来控制簇的增长。o p t i c s 是另一个基于密度的算法,它为自动的和交互的聚类 分析计算一个聚类顺序。 d b s c a n 算法的主要处理步骤: ( 1 ) 数据集中任取对象p ; ( 2 ) 若p 的f 邻域内包含多于肠坳船个样本点,则创建包含p 的新聚类,循 环收集直接密度可达的对象。 ( 3 ) 聚类中再无新对象加入时,算法结束,否则转( 1 ) 。 d b s c a n 算法可以发现任意形状的簇,并且对输入数据顺序不敏感,不用 事先指定聚类数目,缺点是对用户设置参数敏感,算法复杂度较高,通常情况下 算法复杂度为d 0 2 ) ,在数据库索引的前提下,算法复杂度为d 0 l o g 订) 。 该算法将具有足够高密度的区域划分为簇,并可以在带有“噪声 的空间数 据库中发现任意形状的聚类。基于密度的簇是基于密度可达性的最大的密度相连 对象的集合,不包含在任何簇中的对象被认为是“噪声。 4 1 4 基于网格的方法( g r i d - b a s e dm e t h o d ) 基于网格的方法把对象的空间量化为有限数目的单元,形成了一个网格结 误差平方和准则 误差平方和准则函数是一种简单但是应用很广泛的准则函数,七均值算法 中应用的就是这个准则函数。令吩表示子集疋中的样本的数量,令表示这些 样本的均值向量: 一丢磊x 。, 于是误差平方和准则定义为: 、小砉到x 一0 2 ( 4 - 6 ) 这个准则函数可以解释为:对于一个给定的聚类石,均值向量慨是最能代 表疋中所有样本的一个向量( 鸭也称为聚类中心) 。一个好的聚类方法应该能够 使得每个子集中的所有向量与这个均值向量的“误差向量( x 一幌) 的长度平 方和最小。以的值取决于类别的数目和样本的分布情况,使得t 最小的划分称 为最优划分,或者最小方差划分。 散布准则 为了对聚类的质量进行全面的描述和评价,我们通过定义一些散布矩阵引出 一些准则函数,它们不仅反映同类样本的聚集程度,而且也反映不同类之间的分 离程度。 ( 1 ) 定义第i 个子类的散布矩阵为: s 。磊僻训僻训r ”7 ) 朋,是第i 子类的均值向量。 ( 2 ) 定义类内散布矩阵( 其中c 为类别总数) : s 。;墨 ( 4 8 ) 妻萋鍪墓i 萋萋鬟蕃冀羹霪薹篓囊 l i 霎;i i 鬈重:j i 菱量堇j ;釜量;l l ! ;步蓄i i 蓁l 耋丕i | i ;垂l 瓮;塞l l 霞熏墅i 羹l 雾塞 y 、,耋妊差至! 孽至塞薹霎妻i 凄i 薹霎毒睾i i 萋 差圣蕈霎蕈章i妻囊姜。 藿雩三 l 耆摹羹蘸董耋蠢窜酲l ! l i 蚕i 蠢囊嚣;耋季妻主f 曩茎噩霎匿羹蓁墨芝i 囊篓茎 童耋夏羹竺一謇笋耋ii _ 萋耋旦毫差三i ;:主| i l 萋莲鍪i 霎萋 而类内 和类间散布矩阵都和如何划分样本有关,并且两者呈反向变化。为 了更加准确地度量类内散布矩阵和类间散布矩阵,需要引入一个标量来衡量 散布矩阵的大小。这里介绍两者度量矩阵的标量,矩阵的迹和行列式。迹 准则方 阵的主对角线元素之和称为这个方阵的迹,它是度量散布矩阵大小的最简单 的标量方法。迹准则定义如下的判别式:t r s , , 。善鹕。善剖x 一慨0 2 ( 4 - - 1 2 ) 这 一准则和以上介绍的误差平方和准则是完全等价的。另有:峨 一参 圳1 2 ( 4 - - 1 3 ) 行 列式准则矩 阵的行列式同样可以作为散布矩阵的另一种标量度量。通常,我们假定类内 散布矩阵s w 非奇异,于是得到准则函数:小慨i = 酬 x 4 2 基于聚类分析的抽样复制模拟策略 传统的抽样复制仅仅是根据简单的指标( 比如权重) 来抽样,然后模拟指数, 并没有很好的针对收益率的特征做深度特征提取然后选择样本。这样选择出的样 本组合并不能达到很好的效果。 而聚类分析能够实现将一组数据分组,使其具有最大的组内相似性和最小的 组间相似性,也就是说,最后的结果要达到不同聚类中的数据尽可能地不同,而 同一聚类中的数据尽可能地相似。因为聚类分析利用了收益率序列在每一个时间 点的信息,所以聚类分析可以很好的利用收益率序列之间的相似性来挑选股指代 表样本。从而选择出效果更好的样本组合来模拟股指。 我们首先把h s 3 0 0 放到3 0 0 支个股序列中,然后对对h s 3 0 0 及其个股收益 率序列进行聚类。然后选择出和h s 3 0 0 指数收益率序列分到同类,收益率高度 相关的个股样本。然后再进行模拟可以取得更好的效果。 本文的实验将采取k m e a n s 、基于密度的聚类和简单的层次聚类三种聚类 算法来进行聚类,然后抽样组合。 4 3 基于g a r c h 模型聚类的模拟策略的提出 基于模型的聚类可以很好的提取时间序列的特征,然后对时间序列的特征 进行聚类。这样做可以实现,降维去躁的效果,往往可以产生更好的聚类结果。 而对于金融时间序列,g a r c h ( 1 ,1 ) 模型,已被很多经济学家所实证,能够很好的 对金融时间序列进行很好的模拟。所以本文采用g a r c h ( 1 ,1 ) 模型进行时间序列 的特征提取。 4 3 i 金融资产波动性特点 在实际的金融资产分布中,金融资产收益率的波动性呈现以下几个主要特 点: 1 集聚性:主要是指金融资产某一时期收益率的波动性可能很高,而另一 段时期的它的波动性却是低的,m a n d e l b r o t 乜5 1 和f a m a 啪1 都曾描述过金融资产的 这一特点。他们指出,当期收益率的大( 小) 变化往往伴随着下期投资回报率的大 ( 小) 变化。如果今天股票市场剧烈波动,那么明天股票市场很有可能也会剧烈波 动;反之,如果今天股票市场风平浪静,那么明天股票市场很有可能也是风平浪 静。图4 1 是h s 3 0 0 指数的日收益率的波动情况,由此可以看出该股指的波动 性存在集聚性,即一次大的波动后往往伴随着一次大的波动,而一次小的波动后 伴随着较小的波动。 图4 一lh s 3 0 0 指数日收益率的波动情况 2 持久性:即对波动性的冲击要持续一段时间才会消失。图4 1 也很好地 反应了市场经过波幅较大的波动之后,对市场的冲击仍然要持续一段时间,波动 幅度是逐渐减弱的。 3 尖峰厚尾性:与正态分布相比,金融资产收益率的实际分布呈现明显的 中间腰部更加尖细、尾部明显更厚的特点。金融资产具有尖峰厚尾的分布特点, 与正态分布相比,呈现“中间尖与两边厚的分布特征。 4 杠杆作用:金融资产的正收益率和负收益率对波动性的影响是非对称的。 b l a c k 1 、c h r i s t i e 汹1 和n e l s o n 啪1 都发现金融资产的收益率和波动性是负相关 的。他们指出:一般情况下负收益率要比正收益率导致更大的条件方差。 金融资产的这些特点为建立波动性预测模型的发展提供了重要的信息。正因 为如此,更多的学者将研究的目光锁定在基于这些特点的建模上。但是在众多的 波动性模型中,最成功且得到金融界广泛应用的是e n g l e 跚1 提出的自回归条件异 方差模型( a r c h 模型) 以及他学生b o l l e r s l e v 1 改进后的广义自回归条件异方 差模型( g a r c h 模型) 。自此以后,许多计量经济学家对g a r c h 模型进行了多次变 型,现在已经发展成为一个包含众多方法的模型类别。 4 3 2 常见g a r c h 模型介绍 g a r c h 类模型一般由两个方程组成:条件均值方程、条件方差方程。通常情 况下条件均值方程写成如下表达形式: y f = g “_ 1 ;6 ) + g l ( 4 1 5 ) 上式中,g - l ;6 ) 是f 一1 时刻的信息集一一l 和参数向量6 的函数表达,是 随机信息项。 因为g a r c h 模型主要是用来估计并预测波动性和相关性的,所以第二个方 程,即条件方差方程,会得到研究者的更多关注。因此,我们通常将第一个方程 ( 条件均值方程) 的形式取得非常简单,一般为如下形式: ,;一+ 岛 ( 4 1 6 ) 上式中,是反映收益率波动的随机过程;是无条件收益率,为常数,一 般用样本均值来估计;巳是随机信息项,表示非预期收益率。 各种g a r c h 模型的区别在于条件方差方程的表达形式不同以及对随机项q 的分布假设不同。 a r c h ( q ) 模型 e n g l e ( 1 9 8 2 ) 提出该模型,它与传统时间序列和计量模型假定方差不变不 同,该模型将条件方差看作是随时间而变化的。a r c h ( q ) 的模型表达式如下: fg ,一z s 产一+ 毫口;s 2 t 一 4 1 7 其中,口;是常数;乙独立同分布,e ( z ,) * o ,砌,q ,) 一1 ;占,服从条件正 态分布,e ( l ) 一o ,砌厂( ,) 。砰;乙与q 是相互独立的。 a r c h ( q ) 可以很好的解释当前波动情况是依赖于过去方差的大小变化而得 到的,某一时刻大幅( 小幅) 波动结果会导致下一时刻大幅( 小幅) 波动。该模 型很好地刻画了收益率序列波动集聚性的趋势特点。 但是a r c h ( q ) 模型在实际应用中为了得到好的拟合效果常常需要很大的阶 数q ,这不仅增大了待估参数的个数,而且还会引发多重共线性等问题。 g a r c h ( p ,q ) 模型 为了解决a r c h ( q ) 模型中所存在的上述问题,b o l l e r s l e v 在a r c h ( q ) 模 型中增加了p 个自回归项,将其推广成g a r c h ( p ,q ) 模型,其模型表达式如下: t iz t st s 于一+ 套叩2 h + 套6 卜。 “1 8 ) 私+ 毫卟1 其中,口;,6 j 它们都是常数;乞独立同分布,e o ,) 一o ,砌,q ,) 一1 ;艿,服 从条件正态分布,e ( s ,) 一o ,砌,( ,) 一矿;z ,与q 是相互独立的。 从g a r c h ( p ,q ) 模型的表达形式可以看出,如果令p = 0 ,那么该模型就可以 演变成a r c h ( q ) 模型,可见后者是前者的特例。 在实际应用中,g a r c h ( 1 ,1 ) 模型是最常用的模型,在实证研究中已取得极 大的成功,而且被许多计量经济学家认为是基准模型脚1 ,其表达形式如下: h 。z js ? ,脚+ 口2 ,一l + 幻2 卜1 ( 4 1 9 ) s ,_ 脚+ 口,一l + 幻二卜1 ( 4 一1 9 ) 卜川 均值方程:y ,一“,+ 线 条件方差方程:q 2 = + 口弘二+ 6 仃己 其中:为外生变量向量,c 是其系数向量。为常数项,三。,蠢。分别为 条件方差方程的艘c 蹶和g 肷c h 项。 其中,口 0 ,6 0 ;口被称为回报系数:易被称为滞后系数。在金融市场中, g a r c h 模型的滞后系数通常大于o 7 ,但是回报系数往往小于o 2 5 啪1 。 4 3 3g a r c h 模型的建模介绍 由于金融时间序列对于g r a c h 模型,有很好的模拟效果。所以可以先对股票 收益率序列,进行g a r c h 建模,然后通过对模型参数序列的l ( l e a n 聚类来实现分 类的效果。 一数据平稳性处理 由图4 2 到图4 5 可以看出:h s 3 0 0 指数,上证5 0 ,上证1 8 0 ,深证1 0 0 这三支e t f 的收盘价的时间序列都呈现出明显的不平稳状态。 图4 2h s 3 0 0 指数收盘价序列 图4 7 上证5 0 e t f 收益率序列 图4 8 深证1 0 0 e t f 收益率序列 图4 9 上证1 8 0 e t f 收益率序列 3 1 第五章各种策略的实证分析及结果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 怀化学院《学科课程与教学论》2023-2024学年第二学期期末试卷
- 昭通职业学院《外国文学III》2023-2024学年第二学期期末试卷
- 重庆市七校渝北中学2024-2025学年招生全国统一试题含解析
- 宁夏大学《测井资料解释课程设计》2023-2024学年第二学期期末试卷
- 江苏大学《药物研发基本原理》2023-2024学年第二学期期末试卷
- 曲靖职业技术学院《伴侣动物饲养》2023-2024学年第二学期期末试卷
- 护理基础知识培训
- 枣庄市市中区2025届数学三下期末检测试题含解析
- 山西大学《城市微观环境》2023-2024学年第一学期期末试卷
- 天津市南开区2025年五年级数学第二学期期末监测试题含答案
- 第15课《青春之光》课件-2024-2025学年统编版语文七年级下册
- 2025年国家国防科技工业局军工项目审核中心招聘笔试参考题库附带答案详解
- 广东省肇庆市各县区乡镇行政村村庄村名明细及行政区划代码
- 缓和医疗精品课件
- 工程(产品)交付后顾客满意度调查表
- 项目定标审批表
- 体育市场营销(第三版)整套课件完整版电子教案课件汇总(最新)
- 弱电安装安全安全技术交底
- SJG 05-2020 基坑支护技术标准-高清现行
- T∕CHAS 10-4-9-2019 中国医院质量安全管理 第4-9部分:医疗管理危急值管理
- 动脉血气参数解释
评论
0/150
提交评论