(应用数学专业论文)超度量聚类理论在上海股市的实证分析.pdf_第1页
(应用数学专业论文)超度量聚类理论在上海股市的实证分析.pdf_第2页
(应用数学专业论文)超度量聚类理论在上海股市的实证分析.pdf_第3页
(应用数学专业论文)超度量聚类理论在上海股市的实证分析.pdf_第4页
(应用数学专业论文)超度量聚类理论在上海股市的实证分析.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文采用基于股票价格时间序列相关性的超度量聚类,利用最小生成树和指 数分层结构树,通过对1 9 9 8 2 0 0 2 年间的上证3 0 指数样本股组合距离矩阵的研究 得到有拓扑意义的图。与图相关联的亚超度量空间上的分层树为研究影响股票价 格时间序列的经济因素提供了有用的信息。金融市场上交易的股票的拓扑排列与 经济意义上的分类相关联。 根据同一时间序列上股票价格日收益率,计算出组合中每一对股票之间的相 关系数矩阵,由股票的超度量距离定义,从n 个股票的相关系数矩阵中获得距离 矩阵,借助定义好的算法从相关系数矩阵中抽取最小生成树( m s n 和指数分层结 构树。m s t 可以揭示股票之间相关性的几何信息。而指数分层结构树可以得到揭 示股票间相关性的分类信息。 这种超度量聚类分析方法在国外得到了很快发展,在股票市场,外汇市场得 到了验证,理论不断成熟完善。这些理论观点和研究方法为我们将其应用于上海 股市的研究提供了很好的借鉴。由于国内理论研究界在这方面的实证研究还较少, 有许多现象或规律值得我们去分析研究,作这样的研究就显得很有必要。 本研究的主要目的是通过对1 9 9 8 - - 2 0 0 2 年上海a 股市场上证3 0 指数样本股 组合的实证分析,从计量分析的角度验证超度量距离定义下的聚类方法在我国股 票市场的适用程度,通过资产价格时间序列本身来对资产组合进行有经济意义的 分类,探索这段时间上海股票市场的基本结构及特点,为理论研究与资产投资提 供理论依据。 文章共分为四个部分研究背景及理论方法,实证分析,与统计聚类分析 方法的比较,研究结论及分析。 第一部分引言主要介绍超度量聚类方法的发展过程以及发展过程中较重 要的观点及结论。 第二部分研究理论及方法主萤讨论趟度量聚类方法的原理及分析步骤 第三部分实证分析本部分是本文的主要内容,具体介绍了上证3 0 指数样 本股组合在亚超度量空间中的分层机构以及组合中股票的分类 第四部分,使用分层聚类法对指数样本股组合进行分类,与超度量聚类相比 较 研究结果表明,对我国上证3 0 指数样本股组合的超度量聚类的分类结果与 我国股市的实际情况基本吻合,揭示了3 0 指数样本股组合的拓扑结构,具有很强 的经济意义。 关键词;超度量聚类亚超度量空间最小生成树指数分层结构树 i i a b s t r a c t i nt h i sp a p e r ,b a s e do nt h et i m es e r i e so fs t o c kp r i c e st h er e l e v a i l c eo f t h et w o l a y e r e da p p r o a c h ,t h em i n i m u ms p a n n i n gt r e ea n dt h et r e e m e t r i cs t r a t i f i c a t i o n ,b y 1 9 9 8 2 0 0 2 ,t h e3 0i n d e xs t o c k so nt h es a m p l ec o m p o s i t i o no f t h eu n i t - m e t r i cd i s t a n c e m a t r i xs t u d i e sh a v eb e e nt o p o l o g i c a ls i g n i f i c a n c eo f t h em a p f i g u r ea s s o c i a t e dw i t h t h em e t r i cs p a c es u b d o m i n a n th i e r a r c h i c a lt r e eo nt h ei m p a c to f t h es t u d yg i v e nt h e e q u i t yp o r t f o l i oi nt h es t o c kp r i c e so fs e v e r a ls e r i e so f e c o n o m i cf a c t o r st h eq u a n t i t y a n dn a t u r eo f t h ep r o v i s i o no f u s e f u li n f o r m a t i o n f i n a n c i a lm a r k e t st r a d e ds t o c kw i t h t h et o p o l o g ya n de c o n o m i cs i g n i f i c a n c eo f t h ec l a s s i f i c a t i o na s s o c i a t e d a c c o r d i n gt ot h es a m et i m es e r i e so f d a i l ys t o c kp r i c e sf o rt h ed i f f e r e n c e c a l c u l a t e df o re a c hc o m b i n a t i o no fs t o c kb e t w e e nt h ec o r r e l a t i o nc o e f f i c i e n tm a t r i x , f r o mt h es t o c k - m e t r i cd i s t a n c ed e f i n i t i o n ,ns t o c kf r o mt h ec o r r e l a t i o nc o e f f i c i e n t m a t r i xo b t a i n e df r o mt h em a t r i x ,u s i n ga l g o r i t h m sf r o mt h ed e f i n i t i o no f ag o o d c o r r e l a t i o nc o e f f i c i e n tm a t r i xf r o mt h em i n i m u ms p a n n i n gt r e e ( m s t ) a n dt h e h i e r a r c h i c a ls t r u c t u r et r e ei n d e x m s ts t o c kc a nr e v e a lt h ec o r r e l a t i o nb e t w e e nt h e g e o m e t r i ci n f o r m a t i o n ,h i e r a r c h i c a ls t r u c t u r eo f t h ei n d e xt r e ec a n b er e v e a l e d c o r r e l a t i o nb e t w e e nt h es t o c ko fi n f o r m a t i o n t h i su l t r a - m e t r i cc l u s t e ra n a l y s i sa b r o a d h a sb e e nar a p i dd e v e l o p m e n ti nt h es t o c km a r k e t ,t h ef o r e i g ne x c h a n g em a r k e th a s t e s t e d ,t h e o r ym a t u r i n gp e r f e c tt h e s et h e o r e t i c a lv i e w p o i n t sa n dm e t h o d sf o ri t s i i i a n a l y s i st ot h es h a n g h a is t o c km a r k e tp r o v i d e sag o o dr e f e r e n c e a sd o m e s t i c t h e o r e t i c a lr e s e a r c ho nc h i n a ss t o c km a r k e ti nt h i sa r e ah a sl e s se m p i r i c a lr e s e a r c h , t h e r ea r em a n yp h e n o m e n ao rt h el a wm a k e si tw o r t h w h i l ef o ru st os t u d y , s on o w , t o m a k es u c has t u d yi sn e c e s s a r y t h em a i np u r p o s ei st h r o u g ht h ey e a r so f1 9 9 8 2 0 0 2s h a n g h a is t o c km a r k e t i n d e xs t o c k s3 0s a n l p l e so f t h es t o c kp o r t f o l i oe m p i r i c a la n a l y s i sq u a n t i t a t i v ea n a l y s i s f r o mt h ep e r s p e c t i v eo f t e s t m e t r i cd i s t a n c ed e f i n i t i o no f c l u s t e r i n gm e t h o di nt h e a p p l i c a t i o no f c h i n a ss t o c km a r k e t ,t h r o u g ha s s e tp r i c e st h e m s e l v e st ot h et i m es e r i e s o f a s s e tp o r t f o l i oe c o n o m i cs i g n i f i c a n c ec l a s s i f i c a t i o ne x p l o r es h a n g h a is t o c km a r k e t t h i st i m et h eb a s i cs t r u c t u r ea n df e a t u r e s i n v e s t m e n ti n s t i t u t i o n sa n di n v e s t o r si nt h e i n v e s t m e n td e c i s i o n - m a k i n gt h e o r yo f r e f e r e n c e t h ea r t i c l ei sd i v i d e di n t of o u r p a r t s - 一 t h eb a c k g r o u n da n dt h e o r e t i c a l ,e m p i r i c a la n a l y s i s ,a n ds t a t i s t i c a lc l u s t e ra n a l y s i s m e t h o d s ,c o n c l u s i o no f t h es t u d ya n da n a l y s i s t h ef i r s tp a r ti n t r o d u c e su l t r a - m e t r i c c l u s t e r i n gt h ed e v e l o p m e n tp r o c e s sa n dt h ed e v e l o p m e n tp r o c e s so f t h em o r ei m p o r t a n t p o i n t so f v i e wa n dc o n c l u s i o n s t h es e c o n dp a r tt ot h et h e o r ya n dm e t h o d o l o g y m e t r i cd i s c u s st h ec l u s t e r i n gm e t h o da n dt h ep r i n c i p l eo fa n a l y s i ss t e p se m p i r i c a l a n a l y s i so f t h e t h i r d p a r t o f t h e p a p e r i s p a r to f t h e m a i nc o n t e n ts p e c i f i co n t h e s h a n g h a is t o c k3 0i n d e xs a m p l e s y a c h a os t o c kp o r t f o l i oi nt h em e t r i cs p a c e s e g r e g a t e di n s t i t u t i o n sa n dt h es t o c kp o r t f o l i oo fc l a s s i f i c a t i o nt w o o ff o u rs a m p l e so f i v c l u s t e r i n gm e t h o d ss h a r e sp o r t f o l i oc l a s s i f i c a t i o n ,a n dt h eu s e o fc l u s t e r - m e t r i c m e t h o d ss i m i l a rt ot h en e a r e s tn e i g h b o ra l g o r i t h ma n dt h eh i e r a r c h i c a lc l u s t e r i n g m e t h o dt ot h ee q u i t yp o r t f o l i oc l a s s i f i c a t i o nr e s u l t ss h o w ,o nt h ee v i d e n c eo fo u r s a m p l eo f 3 0i n d e xs t o c k sp o r t f o l i o m e t r i cc l u s t e r i n gr e s u l t so f t h ec l a s s i f i c a t i o no f t h e s t o c km a r k e ti nc h i n aa n dt h er e a l i t yo f t h eb a s i ca g r e e m e n t ,r e v e a l e dt h e3 0i n d e x s t o c k sp o r t f o l i os a m p l e st o p o l o g y , w i t hs t r o n ge c o n o m i cs i g n i f i c a n c e k e yw o r d s :u l t r a m e t r i cc l u s t e r ,s u b d o m i n a n tu l t r a m e t r i cs p a c e ,m i n i m a l s p a n n i n gt r e e ,h i e r a r c h i c a ls t r u c t u r e v 关于学位论文独立完成和内容创新的声明 本人向河壶大学提出硕士学位申请。本人弹童声明:所呈变酌学位论文曼 车 存导师的指导下独立宠成的。对所研充酌课题有新的见解。据我所知,除 主中特别加以说明标注和致谢的地方外论文中车包括其他八已经发表或撰 写过妁研究成果,也不电括其他人为获得任何敏育、科研机构的擘住或证书而 使用过拍材料。与裁一同工作音勺同事对本研究所儆的任何贡献均已在论文中作 7 明囊舳说明并表示了谢毒。 学拉砷请八( 学位论文作者) 签名 2 0 年月 日 关手警位论文著作权使厨授权书 本人经河南大学审核托准授子礓士擘位。作为学位论文鹋作者。本人完全 了解并同意河南大学有关保留、使用擘位论文鹕要求,即河南大学有权面目家 图书馆、科研信息机构、数据收集机构和本校图书馆等提供学垃论文( 甄质文 本和电子文本) 牲供公众检索、查阅。本人授权河南大学出于宣扬。展览学校 擘采发展和进行学术交流等日韵,可瞄采取影印、端印、扫描和拷贝等复制手 段保冉、汇编学位论文( 鲰质盘本和电子主本) 。 ( 涉度保密内容的擘位论文在解密后适用本授权书) 学位获得者( 学位论文作者) 蔷名 2 0 学位论史指导教师荽名 黔 1 引言 金融市场是一个复杂系统,它能将与被交易资产有关的各类信息都综合反映 到其价格时间序列中。非冗余的时间序列常常与随机过程非常相似。复杂系统通 常是开放系统,其中的许多子单元在反馈机制下存在非线性交互作用。不同金融 时间序列的相关性分析在金融分析上非常重要,资产定价、投资组合的选择、波 动的传导和溢出、风险管理等问题都涉及相关性分析。对金融时间序列的挖掘可 以找出股票运行的内在规律性,发现交易数据中潜在的规律和经济信息。早在 1 9 5 9 年,马克威茨就开始利用股票价格时间序列之间的交叉相关( 负相关) 进行 资产组合的研究。金融市场上资产回报率的相关系数和协方差矩阵的分析表明 市场上资产之间的价格变动存在同步性。 1 。1 问题的提出 r n m a n t e g n a 于1 9 9 9 年发表了论文h i e r a r c h i c a ls t r u c t u r ei nf i n a n c i a l m a r k e t s ,他的研究表明资产时间序列承载着一定的经济信息,通过专门的筛选过 程能观察到这些信息。从1 1 个股票的相关系数矩阵中获得距离矩阵,借助定义好 的算法从相关系数矩阵中抽取最小生成树( m s d 和指数分层结构树。m s t 可以揭 示股票之间相关性的几何信息,而指数分层结构树可以得到揭示股票间相关性的 分类信息。 这项研究表明资产价格的时间演化包含了影响该项资产的信息,同时,从多 个股票价格时问序列的同步性分析出发,可以设计策略以获得对股票时间序列的 有意义的分类。并第一次对价格随时间同时变化的两项资产,引入了距离的概念 提供了超度量聚类的方法,具有重要理论意义。 近几年,国内外对金融时间序列及其相关性的研究更加深入,众多的经济学 家投身于该领域,通过多年采集高频交易数据进行实证研究,在股票市场,外汇 市场等多个领域中论证,取得了多项的进展。 1 2 重要意义 首先,一直以来,人们试图从众多经济信息寻找信息,希望利用价格时间变 化序列来预测未来的价格变化以获得收益。但由有效市场假说,这种套利机会是 很少存在的。m a n t e g n a 的研究从逆方向考虑,仅从资产自身的价格变化,得到有 意义的经济信息,这是理论上的一次突破。 性。 其次,运用图论中的最小生成树等工具研究了股票组合系统结构的拓扑特 再次,对不同股票的价格时间序列的随机过程是否相关及r o s s 在他的a p t 模型中引入的共同经济因子的个数和性质问题进行经验证明。 同时,在实践中投资组合管理所要求的分散化投资的一个重大问题就是资产 的选择,对股票进行分类,并进而在不同的股票类型中进行投资资金的分配,无 疑会加大投资组合管理的可操作4 ”。7 0 资决策胜算的概率。 2 最后,现代投资组合管理中的一个重大课题是资产分类,特别是股票资产的 分类。采用统计方法与数学方法进行分类在有着广阔的应用前景。 1 3 本选题国内外研究现状述评 近年来,金融市场微观结构理论的研究开始关注金融时间序列的相关性的研 究。其中最为重要的研究之一是r n m a n t e g n a ( 1 9 9 9 ) 的文章,他提出金融市场 上交易的股票的价格序列通过亚超度量空间上的分层树与经济意义上的分类相关 联,而这意味着股票价格自身提供出有意义的经济信息。b r u c eh u g h e s 的研究认 为,基于股票时间序列得到的最小生成树与超度量空问是等价的:m i c h a e lj n a y l o r , l a w r e n c ec r o s e ,a n db r e n d a nj m o y l e 关于外汇市场的实证研究表明,这 个分类理论在外汇市场的研究中也取得较好的结果;2 0 0 3 年r o s a r i o n m a n t e g n a a 等通过价格时间序列与波动率两方面的论证肯定了最小生成树的拓扑结构稳定 性。 同时,人们从复杂网络的角度对金融市场上不同时间序列的相关性进行多方 面多角度的研究,其中最有影响的是小世界网络( s m a l lw o r l dn e t w o r k ) ;f l 无标度 网络( s c a l ef r e en e t w o r k ) 。 国内相关的研究主要有李守伟,钱省三( 2 0 0 6 ) ,面向金融时间序列相关性 的网络模型研究,从网络的角度对金融市场上不同时间序列的相关性进行研究, 先研究金融市场中的规则网络,即从相关系数矩阵中抽取的m s t 和等级树,再 研究金融市场中的复杂网络,即具有无标度特性的复杂相关性网络。最后用实际 金融数据得出沪深股市的价格变动具有高度的一致性的实证结果。 闵丹( 2 0 0 6 ) 采用针对聚类问题的神经网络方法,利用自适应共振( a r t ) 模型,通过对我国证券市场中的股票进行实证分类,得出在给定数据解释能力方 面,a r t 模型倾向于构建一个狭长的、具有某种函数关系的类。同时,她还对股 票风格分类进行了实证分析。发现我国证券市场上的股票表现与其业绩模式相关 不显著。 1 。4 本选题研究的基本思路、内容与框架 本文的基本思路是根据m a n t e g n a 的研究方法对我国上海股票市场的3 0 指数 样本股做实证检验,分析我国股市出现的结果。同时对距离模型给予一定改进 并与统计聚类中的分层聚类分析法进行比较,得出结论。 本文研究的内容是基于金融时间序列相关性的资产组合分类,具体分为四部 分。首先对m a n t e g n a 的引入超度量距离对股票组合进行聚类的方法( 简称为超度 量聚类,下同) 进行探讨,然后选取上证3 0 指数样本股组合,考虑同一时间序列 上的股票价格日变化率,计算出组合中每一对股票之间的相关系数矩阵,由超度 量距离的定义,得到最小生成树。根据与最小生成树相关联的亚超度量空间上的 分层树对给定股票组合进行分类,这个分类具有经济意义。然后尝试改变分类所 用的距离,观察分类结果。利用统计分层聚类技术对股票进行聚类分析,比较两 4 种方法的异同,得出结论。 1 5 本文的创新与不足之处 1 5 1 本文的创新之处 1 5 1 1 首次利用上证指数样本股进行我国股票价格时间序列的相关性及超 度量距离定义下的股票分类的深入研究,通过研究实证结果来验证我国股票价格 时间序列之间存在一定相关性,分类的结果具有经济意义 1 5 1 2 对我国的实证结果进行深入,全面的分析,具有现实意义; 1 5 1 3 首次将超度量聚类方法与统计分层聚类方法在理论,实现过程,实 证检验各方面进行对比,具有创新意义。 1 5 2 本文的不足之处 众所周知,我国金融市场价格时间序列方面的的研究还刚起步,尤其是实证 研究更是少之又少,这中间的原因主要是理论比较深奥,相互影响的因素过多 另外一方面是我国股票交易数据管理不完善,时有各券商提供数据不一致的现象, 这为研究带来了很大的麻烦。本文在数据上也存在缺陷,为了研究我国的股票市 场价格时间序列的相关性并进行分类,在数据的收集,整理上花费很大的力气。 由于数据及本人时间及能力e 程制,本文在实证研究中样本数据的选取上没 有选择更多,可能对实证结果有些许影响。另外本文主要侧重考虑股票价格时间 序列的相关性及超度量距离定义下的股票分类的实现,对组合的拓扑结构的性质 及特征较少涉及。另外,文章对某些关键问题的理解和把握还不是很准确,在此 恳请众位谅解。 不足之处有待于今后改进,解决。 2 基于股票价格时间序列的超度量聚类方法 金融资产集合的交叉相关性研究能够促进金融资产组合建模的能力,如股票 投资组合( p o r t f o l i o s ) ,因此相关性具有实践上的重要性。研究相关性常用的方法 主要有通过对组合中股票的相关系数矩阵来研究金融市场中相关性网络的拓扑特 征的超度量聚类方法( u l t r a m e t r i cc l u s t e r i n g ) ,以相关性为基础的聚类分析 ( c l u s t e r i n ga n a l y s i s ) 等,前者通常得到包含研究集合的最小生成树( m i l l i m u i n s p a n n i n g t r e e ,简称m s n ,而后者者通常得到与经济活动部门相应的同种股票簇 集,都是有意义的分类 2 1 理论与方法 n 个股票时间序列的集合中,在任意变量对之间抽取到相关系数。通过定义 超度量距离,从相关矩阵中得到m s t 。m s t 是一类特殊的图,连接图中所有的 顶点而没有环,是一种具有规则拓扑结构的规则网络,可以从m s t 得到被研究 数据集的亚超度量距离矩阵和股票集的指数分层等级结构。本理论基于有效市场 假设,且要求股票之间是相关的。实际上,在资产回报集合的同步时间演化之间 高度交叉相关性的存在是金融市场中众所周知的经验事实。对于一个交易目的时 间水平,在属于相同经济部门的回报中可以观察到和0 7 一样高的相关系数。 考虑一种简单的情况,系统中有三种不同的状态这些状态任意之间都可以 相互“重叠”,即以状态f 和j 之间的距离来衡量,它们有一定程度的相似性, 例 7 如,如果每一种状态用一个向量s 来表示,那么状态f 和之日j 的重叠部分表示为 = s t 一,即其中一种状态在另个上的向量投影。这三种状态都存在的系统 观测值的条件概率具有显著的特征。只有当两种状态之间的相似程度结构为两个 重叠部分相等且不大于第三个时观测值的概率才不为零。这是三角形构造,从任 何三个结构总是等边或等腰( 底边最短) 。其中所有的三角关系都如上所述的集合 是一个超度量集。超度量空间中,墩氏三角不等式 吒如+ ( 描述空间中三点之间的距离) 取而代之的是一个更强的不等式 d # m a x 陋 很显然用超度量不等式来检验,全部三角形都因此是等边或者等腰的。这个 不等式的更进一步的推论是状态i 和j 之间没有中间点。也就是说,在欧几里得 度量空间中,在一个特定方向连续多次地小步行进,理论上最终可以达到o 。然 而在由超度量不等式定义的度量空间中,经过任意次固定长度的行进之后,与起 始点的距离仍然与开始前的距离相等。( 因此,布朗运动在超度量空间是非遍历的) 为了使超度量结构可视化,可以将超度量空间中的点划分成群。一个群内 的每一点与群中其它点之间的距离在一个确定的范围之内。由于点之间的距离的 超度量性质( 即缺少中间点) ,每一点都位于一个确定的群中。显然位于不同群的 点之间的临界距离的是任意确定的。 因此一个更好的方法是将这个距离看作可调参数并使之在o ( 由定义两状态 之问的最小距离为0 ) 与某一个最大值之间变化。因此,在聚类过程开始时,所 有的点都是孤立的,单独成群。随着i 豳界距离的增大,越来越多的点聚合在一起 形成群和更大的群。这个过程持续到所有的点都被聚合到一个大的群中。 按照上面的过程,可以构建一个指数分层结构。指数分层和超度量之间的一 般关系已经被深入的研究过。假设n 个对象之间的度量距离存在,通过对集合中 的元素进行任意划分可以得到不同的超度量空间。 在所有可能的超度量结构中,亚超度量具有简洁性和良好的性质连接n 个对 象的度量空间存在时,亚超度量可以通过联结n 个对象的最小生成树得到。n 个 对象的加权连通图m s t 是具有n 一1 条边的树,满足边距之和最小。构建m s t 是自旋玻璃理论( 表示物理系统中混论与无序的模型) 中的一个普通方法,用来 表示非平凡动态复杂系统的基本结构。 亚超度量空间和度量空间一起提供了清楚界定的拓扑结构和与之相连的指 数分层。因此对亚超度量的研究可以唯一确定一个n 个对象的指数分层结构。( 对 象的分层组织结构称为指数生成树) 。许多简单的方法可以计算m s t ( 例如k r u s k a l 算法) 这些图的计算同时生成超度量距离矩阵( 表示超度量空间中点之间的距离) 。 超度量距离矩阵表示分层结构的状态。 在金融市场上,诲多段票被同时交易。为了评测两只股票同时演变的相似性 和差异,引入了相关系数的概念,通过考察两只股票( 记为股票i 和股票j ) 的价 格曰变化率的相关系数,米量化股票i 和股票j 之间价格变化的i 司步性程度。对 股票i ,定义: 从而可以得到 啡等掣眨, p 。= j ( s ,2 一( s ,) 2 ) ( s ,2 一( 。) 2 ) ( 2 1 2 ) 其中r ( f ) 是股票i 在时间t 的日收盘价,s f 是股票i 的价格对数的口变化。 带角的括号( ) 表示对考察期内所有交易日的数据取平均值。根据这个定义,相 关系数只的取值范围从一l 到1 ,其中有三个特殊值:当p 。= 一1 时,两只股票价 格变化完全负相关;当p ,= o 时,股票价格变化不相关;当成= l 时,股票价 格变化完全相关。 相关系数成有着两个重要的作用:( 1 ) 在它的基础上,我们可以定义给定 投资组合中股票之间的相对距离;( 2 ) 它提供了一种从股票价格时间序列提取经 济信息的方法。 对给定时间区间上的n 只股票组合计算出股票两两之间的相关系数,得到的 相关系数矩阵是主对角线为岛= 1 的对称矩阵。因此,在任一组合中,丛专尘 个相关系数完全确定矩阵。 研究相关系数矩阵是为了得到股票市场中交易的资产组合内在的分层结构。 为了找到给定组合中股票的合适的拓扑排列,首先要找到一个距离尺度。两只股 票之间的相关系数不能作为两只股票的距离,因为它不满足定义欧氏距离的三条 公理。实际上,相关系数的一个合适的函数可以用来定义一个一般的尺度。 对价格随时间同时变化的两项资产,参考文献第一次引进了股票之问的距 离的概念。以下是确定股票i 和股票j 之间距离的方法之一。考虑 一 s 一( s ) 一翮 ( 2 1 | 3 ) 其中s 是股票价格对数的一阶差分序列,由( 2 1 ) 式定义。 s i 等于变量墨减去其均值除其标准差。均值和标准差都是根据指定时间 区间上的样本数据算得的,将s ,在相同时间段上的n 条记录作为n 维向量s t 的 各分量瓢,则向量s 和薯之间的欧几里得距离可由毕达哥拉斯关系得到: 爵= 0 童一声 1 2 = 喜c 文一爵,2 c z z 。, 由定义式( 2 1 3 ) 可知向量s 的长度为i : 岛= 1 ( 2 1 5 ) i = l 因此式( 2 1 4 ) 可以重写; 彰= ( + 岛一2 甄s j k ) = 2 - 2 瓯欺 ( 2 1 6 ) 式( 2 1 6 ) 右端的和式s 马t 与p 一致。因此山式( 2 4 ) 可以得到 t = l d u = 丽( 2 1 7 由于式( 2 1 4 ) 定义了一个欧几里得距离,因此以下公理成立 公理1 公理2 公理3 呜= 0 i = ( 2 1 8 1 ) d = 0 i = ,( 2 1 8 2 ) 秀办+ 矗( 2 ,1 8 3 ) 公理1 是成立的,因为乃= o 当且仅当完全相关p ,= l ( 负相关i 岛l = 1 即仅当两只股票满足同一个随机过程或者是另一个随机过程的镜像;根据定义相 关系数矩阵以及由此得到的距离矩阵是对称的,于是公理2 是正确的;公理3 “三 角不等式”的证明则必须依赖于式( 2 1 4 ) 和式( 2 1 7 ) 的等价性。因此毛满 足作为度量距离所必须满足的三条性质。 距离矩阵d 用来确定n 只股票的最小生成树 一个( 无向) 图g 是一个有序二元组( v ,e ) ,其中矿= v 1 ,v 2 ,k 是顶点 集,往往被用来代表实际系统中的个体;e = 勺 是边集,且勺是一个无序二 元组 一,叶 ,它表示该边连接顶点v f ,o ,多用于表示实际系统中个体之间的关 系或相互作用。若x ,y ) e ,就称图g 中有一条从x 到y 的弧,记为x y , 其中顶点x 叫做弧的起点,顶点y 叫做弧的终点。根据定义,从任意顶点x 到y 至多只有一条弧,这是因为如果两个顶点有多种需要区分的关系或相互作用,我 们总是乐意在多个图中分别表示,从而不至于因为这种复杂的关系而给解析分析 带来困难。如果再假设图g 中不含自己到自己的弧,我们就称图g 为简单图,即 没有环也没有重边的图称为简单图。一般情况我们研究简单图。记g 中顶点数为 v ( g ) = i v i ,边数为e ( c ) = i e i ,分别叫做图g 的阶和规模,显然有 占( g ) y ( g ) ( y ( g ) 一1 ) 。 对于两个图g ( v ,e ) 和g ,e ) ,如果v 亡v ,e c e ,就称g 是 g 的子图。若v = v ,则称g 是g 的生成子图 如果图g 不含圈,我们就称其为森林,若它同时还是连通图,则被叫做树。 定理2 1 ,3 至定理2 1 5 给出了树的基本性质。 定理2 1 3 :下面几个命题是等价的 ( 1 ) g 是树 ( 2 )g 是最小连通图,也就是说,任意去掉一条边,g 都会变成非连通图 ( 3 )g 是最大无圈图,也就是说,任意加上一条边,g 都会变成含圈图 ( 4 )g 是连通图,且g 中任意两顶点之间有且只有一条路。 定理2 4 :疗阶树有门一l 条边。 设g 是一个图,若对g 的每一条边p 都赋以一个实数巧( p ) ,称为边e 的 权,则g 连同边上的权称为一4 n - 络,记为g = ( y ,e ,万) 。 最小支撑树( m i n i m a ls p a n n i n g t r e e ,m s t ) 是网络优化中的一个重要 问题。给定网络( 矿,e ,万) ,设,= v ,e 1 为g 的一个支撑树,记 巧( ,) = 巧( 8 ) ,称为t 的权或树的长,我们希望找出所有支撑树中权最小的 支撑树,即i 哪n 珂( 丁) 。 1 9 5 6 年k r u s k a l 给出了求解最小支撑树的避恻法,又称贪婪算法,该 算法实质是:在构造支撑树过程中每一步都避开圈,同时要求所选择加入的边的 权最小。 设有无向网络g = ( 矿,e ,甜) ,记( y ,e ,巧) ,该算法的步骤如下 k r u s k a l 算法 ( 1 ) 把g 的边按权从4 , n 大的顺序排列起来,即设 ( 岛) 万( 乞) 万( ) ,并令s = ,f _ o ,= 1 。 ( 2 ) 若g p u 勺) 含有圈,转3 ;否则转4 ,。 ( 3 ) 令j = ,+ l ,若m 转2 ;否则停止,g 中不存在支撑树。 ( 4 ) 令s = s u ( 勺) ,并置江“l 。 若f = h 一1 ,则结束,这时g s 1 即为所求;否则转3 生成树是一个具有n 一1 个边连接所有n 个节点的无环图。最小生成树m s t 选择n 一1 条较强( 即较短) 的连接,跨越所有的节点。从m s t 可以得到被研究数 据集的亚超度量- ( s u b d o m i n a n tu l t r a m e t i c ) e 离矩阵d 和股票集的等级结构。超度 量空间指对象之间的距离是超度量距离的空间。有研究认为树与超度量空间是一 致的。 超度量距离以必须满足距离的前两个性质即 ( 1 ) 以= 0 f = _ , d 4 = d i l 而通常的三角不等式( 2 1 8 3 ) 被更强的不等式条件所代替,称为超度 量不等式,即; 毛m a x r 毛) 眨, 即在股票i 和j 间的亚超度量距离,即矩阵d 。的元素d v 是距离岛的最 大值,这里是通过对m s t 中连接i 和j 的路径从i 到j 移动单步来实现的。 假设n 个对象之间存在某种度量距离,对这n 个对象组成的集合做某种分割 可以得到若干个超度量空间。在与距离对应的所有可能的超度量结构中,亚超度 量空间最简单并且具有很好的性质。 在n 个对象关联在一起的度量空间中,通过确定关联n 个对象的m s t ,可 以得到亚超度量空间。与度量空间相应的亚超度量空间具有准确定义的拓扑序列, 这个拓扑序列对应着一个唯一的指数分层结构。因此,考察亚超度量空间可以唯 一确定被研究的n 个对象的指数分层结构。 因此,对回报的原始时问序列中信息的筛选步骤为:( 1 ) 在给定时问水平上 计算股价对数的差分的同步相关系数;( 2 ) 计算所有股票间的距离,得到距离矩阵 ( 3 ) 计算距离矩阵的亚超度量距离。 2 2 优势与局限性 基于超度量的度量准则不容易陷入局部最小的困境,因为聚类之间的距离排 序能够得到严格的保证。 这种图论方法在聚类使将数据当作顶点,并按照距离度量和一些启发式原则 连接起来。这样产生的类虽然可以表示复杂的结构,但是也无法真正实现全局代 价的最优化。该方法对数据的细节会更敏感,有噪声情况下不理想。 3 中国股市上证3 0 指数样本股的实证研究 本章统计了自1 9 9 8 年7 月7 日至2 0 0 2 年4 月3 0 日的沪市上证3 0 指数中的股票收盘价的数据,计算股票的相关系数矩阵,并通过相关系数矩阵来 构建m s t ,指数分层结构树,进而研究金融市场中相关性网络的拓扑特征。 3 1 数据的选取与处理 如何选取样本是实证研究中最重要的一步,样本选取的偏颇将严重影响实 证研究的结果。本文选取上海a 股股市为研究对象,由于上证综合指数股能够比 较准确地反映整体行情的变化和股票市场的整体发展趋势,并且包括了上海股市 中各种证券,比较符合m 模型中所描述的市场组合,因此将上证综合指数股作为 研究对象。由于指数编制规则中要求每半年调整样本股,考虑研究的稳定性以及 工作量,选择上证3 0 指数样本股( 全部为a 股) 进行研究。 上证3 0 指数是上海证券交易所编制的,以上交所上市的所有a 股股票中抽 取最具有市场代表性的3 0 种样本股票为计算对象,并以流通股数为权数的加权综 合股价指数,取1 9 9 6 年1 月至3 月的平均流通市值为指数的基础,基期指数定为 1 0 0 0 点,自1 9 9 6 年7 月1 日起正式发布。2 0 0 2 年7 月1 日起,被上证1 8 0 指数 取代。 本文选取1 9 9 8 年7 月6 日至2 0 0 2 年6 月2 8 日期间3 0 指数样本股的交易数 据作为样本。因为此前我国股市还处于不规范的初期发展阶段,当时股市中的股 票数量少,上市规模也不大,股市经常处于只涨不跌的状态,加之投资者的风险 意识还很淡薄,承受能力也很小,一遇到某些消息的刺激,股市大起大落,这些 不规范数据对于分析整个股市的特征会造成扭曲。此外,自i 9 9 8 年7 月最后一次 调整至被取代,上证3 0 指数样本股保持不变,这很大程度上保证了研究的稳定性。 故将样本范围确定为1 9 9 8 年7 月至2 0 0 2 年6 月,共9 1 5 个交易口。上证3 0 指数 样本股见表1 表l3 0 个样本股票名称,代码及标号( 股票名称的拼音首字母组合) 代码名称标号代码 名称 标号 代码名称标号 6 0 0 0 0 1邯郸钢铁h g6 0 0 0 0 2 齐鲁石化q l 6 0 0 0 0 9上海机场s j 6 0 0 0 5 8五矿发展w k6 0 0 0 6 8葛州坝 g z b6 0 0 0 7 2 江南重工 j z 6 0 0 0 9 8广州控股g k6 0 0 1 0 0清华同方 q h 6 0 0 1 0 4上海汽车 s o 6 0 0 1 1 5东方航空d h 6 0 0 6 3 1 百联股份 b l6 0 0 6 4 2 申能股份 s n 6 0 0 6 4 3爱建股份a j6 0 0 6 4 9原水股份 y s6 0 0 6 6 3陆家嘴l j z 6 0 0 6 8 8上海石化s s6 0 0 6 9 0青岛海尔 q d 6 0 0 7 0 2沱牌曲酒t p 6 0 0 7 1 8东大阿派d d a6 0 0 7 2 7鲁北化工l b6 0 0 7 3 6苏州高新s g x 6 0 0 7 7 6东方通信d t x6 0 0 8 1 l东方集团 d j6 0 0 8 1 2华北制药h b y 6 0 0 8 3 9 四j i l 长虹s c h 6 0 0 8 5 4春兰股份c l 6 0 0 8 6 7通化东宝t h 6 0 0 8 6 8梅雁股份m y6 0 0 8 8 6湖北兴化x h 6 0 0 8 8 7 伊利股份 y l 注:( 1 ) 股票日收盘价数据及年报来自分析家软件和雅虎财经网 ( 2 ) 由于在本文当中我们不考虑样本数据当中与日历顺序有关的“周一效应 “等问题,因此可以简单地将数据看成时间序列数据。即使出现节假目的休市也 不影响时间序列的顺序关系。 ( 3 ) 当由于某种原因,某只股票在正常交易日里停牌而没有交易数据,这就 造成数据的缺失。数据缺失对分析投资组合时,计算方差协方差及相关系数矩阵 造成样本数不一致的困难。考虑本文样本量较大,在计算收益率始,对缺失数据 采取补零法处理。即认为缺失日的收益率为零,比较符合实际,误差也不会太大。 3 2 收益率的计算 我们将股票市场的日收益率定义为 僻

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论