




已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 典型相关分析是多元统计分析方法的一种,它利用主成分的思想研究两组变量之间 相关性,分别在每组变量中选取若干有代表性的综合变量,把研究两组变量的相关性问 题转化为研究少数几对综合变量的相关性问题。由于它能反映出两组变量之间的相互线 性依赖关系,因此在自然科学和社会科学各领域得到广泛应用。 典型相关分析方法具有一定的局限性:多元统计分析以数学期望、方差、协方差、 相关系数这四个数字特征为基础,只能基于均值给出数据的分布程度及变差,基于这一 理论基础的典型相关分析方法对所有样本数据均采用相同的处理方式,不能及时、准确 地反映客观系统的时间特征及变化趋势,因此不适用于解决时间序列问题。 灰色系统理论与时间序列关系密切,通过对时间序列的累加生成进行建模和预测。 针对上述问题,将灰色系统理论引入多元统计分析,提出灰统计的构想,基于灰度给出 了灰序列的数字特征,并以此为基础提出了全新的灰典型相关分析模型。灰典型相关分 析突出了时间序列中新增数据对系统发展趋势的重要作用,对具有时间意义的实际问题 具有更好的统计效果。 本文以经典典型相关分析及灰典型相关分析为理论基础,搭建了灰统计分析系统 ( g s a s ) 平台,对上述两种方法分别进行了系统实现,满足了用户的不同需求,为对时 间特性有较高要求的应用问题的统计分析提供了更好的选择。 为验证灰典型相关分析方法的时效性,将其应用到以下两个实际问题中:社会伦理 与经济发展状况相关性的研究,国内生产总值与财政用于抚恤及社会福利的支出的相关 性研究,并通过与经典典型相关分析方法的对比揭示出其在解决时间序列问题方面的优 越性,统计分析的结果将为相关职能部门的决策提供更有力的理论依据。 关键词:灰统计;灰序列;灰典型相关分析 a b s t r a c t c 锄0 1 1 i c a lc o n e l a t i o n 锄a l y s i si so n eo ft h ei 玳i n l o d so fm m t i v a r i a t es 雠s t i c a l 锄a l y s i s n c o n v e r t st h ec o r r e l a t i o nb e t 、 ,e e nt 、) 旧s c t so fv a r i a b l e st 0t h ec o r r e l a t i o no faf e wp a i r so f l i n e a rc o m b i n 撕o i l so f 也ev a r i a b l e sb ys e l e c t i n gs o m er 印r e n t a t i v el i n e 盯c 伽曲i 1 1 ;a t i o 璐 五me a c ho ft h et w os e t so ft h ew d a b l e s 、析t l lt h et h e o 锣o fp 血c i p a lc o m p o n 衄:t s 砌y s i s c 锄o i l i c a lc 0 仃e l a t i o n 锄a l y s i si s 谢d e l y 潞e di i la r e 雒o f 彻t u 】融i e i l c ea n ds o c i a ls c i e n c e b e c a u s eo fi t sa b i l i 够t or e p r e s e n tt h el i n e a rc o n i e l a t i o nb e t w e e n 铆os e t so fv a r i a b l e s b u tc a n o n i c a lc o r r e l a t i o na n a l y s i sh a sl o c a l i z a t i o n s m u l t i v a r ia _ t es t a t i s t i c a l 删y s i s 啪 o i l l yp r o v i d e 也em e 觚u r eo fm es p r e a d 0 rv a r i a t i o ni nn l em m 慨r sb ym a m e m a t i c a l e x p e c t a t i o n 、) l ,:t l i l e i ti so nt h eb 嬲i so ft l l ef o u rn 1 瑚e r i cc b 龇a c t e r sr l 锄e dm a t h 锄a t i c a l e x l ) e c t a t i o 巩v a r i a n c e ,c o v 撕砒1 c ea r l dc 0 r r e l a t i o nc o e 街c i e n t c 锄0 1 1 i c a lc o r r c l a t i o na i l a l y s i s 骶a t st 1 1 es 锄叩l e se q u a l l y 、析t h o u td i s c r i m i n a f i o na r l di sn o ta p p l i ca :b l et 0t h ei s s u e si i l _ v o l v e 劬es e r i e s 弱i tc 孤i l o tr e n e c tt :i l et i m ec h a r a c t e ra i l dd e v e l o p m e m 仃e n do fs y s t e m sp r o m 讲l y g r e ys y s t c m 也e o r yh 镐at i g h tr e l a t i o i l s k pw i 也t i i x l es e f i e s ,也ec 啪u l a t i v ep l l l so f w i l i c h i st h eb 豁i so fg r e ym o d e l i n ga i l df o r e c 嬲t i i l g w bp u tf o r 袱u dm ei d c ao f 肿ys t a t i s t i c sb y i i i 叻d l 比m g 笋e ys y s t c i nt h e o 巧i i l t 0m u l t i v a r i a = t es t a t i s t i c a la 彻l y s i s 缸l dp r e s 锄h em o d e lo f 留e yc a l l o n i c a lc o r r e l a t i o na 1 1 a l y s i so nn l eb a s i so ft l l e n u m e r i c a lc 1 1 a r a c t e ro fg r e ys e r i e s , w h i c hi sr e d e f i n e d 、i t i lg r e yd e 伊e e t h en e wm o d e lp u tt h ei m p o r t 觚c eo fm en c 、e s td a 土ai n t i i n es 耐c st 0t h ef o r e g r 0 蛐gp o s i t i o na n dg c t sam u c hb e t t e i 。s t a t i s t i c a le 行b c to n 缸 s i 鲥f i c a n c ep r o b l e m s w eb u i l dap l a 偷弧n 觚l e dg r e ys 觚s t i c a l 砌y s i ss y s t c m ( g s a s ) 谢mt h cm e 也o d s0 f c a n o i l i c a lc o l l r e l a t i o n a n a l y s i s锄d 目哈y c a n o i l i c a lc 0 仃e l a t i o na i l a l y s i sa s 也e o r e t i c a l f 0 1 】n d a :t i o n ,n l ep l a t f 0 r mp 陀s e n t st l l er e a l i z a t i o no ft :h et w om e m o d sm e n t i o n e dd b o v ea n d m e e t sd i 妇凫r e n tn e e d so fu s e r sb yp r o v i d i n gab e t t e r 。c h o i c ef o rs t a t i s t i c a l 砌y s i sf o rp r o b l e m s 缸l a ti n v o l v el l i 曲e r q u i r e m e n t so f t i m ec h a r a c t e r ho r d e rt 0v a l i d a :t et h et i m ee f f e c t i v e n e s so fg r c yc 锄o i l i c a lc o n e l a t i o na i 谳y s i s ,w ea p p l y t l l i sm e t h o dt 0r e s e a r c ho ft h er e l a t i o n s h i pb e t w e e ns o c i a le t h i c s 锄de c o n o m i cd e v e l o p r n c m a i l dn l er e l a t i o i l s l i pb e t w e e ng r o s sd o r n e s t i cp r o d u c t 觚df i s c a ls p e n d i n g0 np e n s i o n 觚d s o c i a lw e l f h r ea n dc o n t r a s tt h er e s u l t s 、析mc l 硒s i c a lc 砒l o m c a lc 0 仃e l a t i o n 觚a l y s i s ni s r e v e a l e dt i 蛾g r e yc 猢1 1 i c a lc o 玎i 曲a t i o n 肌a l y s i sh 嬲i t ss u p c r i o r i 够o ns o l v i l l gt i l z 屺s e r i e s p r o b l e m s ,t h e s m t 伽p r o v i d em o r cp o t e n tt h e 0 础c a lg i s t f o rm ed e c i s i o n - m a :k i i l go f r e l e v 乏m t 如n c t i o nd e p 撇e n t s k e yw o r d s :g 嘞7s t a t i s t i c s ;g r e ys 谢e s ;g r e yc 锄o i l i c a lc o 玎e l a t i o na n a l y s i s 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究工作所取得 的成果。据我所知,除了特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果。对本人的研究做出重要贡献的个人和集体,均已在文中作了 明确的说明。本声明的法律结果由本人承担。 学位论文作者签名:日期:伽扩j 够 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即:东 北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许 论文被查阅和借阅。本人授权东北师范大学可以采用影印、缩印或其它复制手段保存、 汇编本学位论文。同意将本学位论文收录到中国优秀博硕士学位论文全文数据库 ( 中国学术期刊( 光盘版) 电子杂志社) 、中国学位论文全文数据库( 中国科学技 术信息研究所) 等数据库中,并以电子出版物形式出版发行和提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:碰指导教师签名:盔圣塑芏 日期:二丕兰z 了日 期:a 巫墨。【;碍 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: 东北师范大学硕士学位论文 第一章绪论 1 1 研究背景及意义 1 1 1 研究背景 在自然科学和社会科学的众多领域中,研究者都有可能对具有多个变量的数据的问 题进行分析和处理,多元统计分析应运而生,使人们能够从表面上杂乱无章的数据中发 现并提炼出规律性的结论n 1 。多元统计分析乜1 是数理统计学的一个重要分支,是一种对 多变量进行综合分析的多元数据处理方法,可以在多个变量相互关联的前提下分析出它 们的统计规律。近几十年来,随着现代电子计算机的广泛应用以及s a s 、s p s s 等统计 分析软件的普及,多元统计分析方法已广泛应用到许多社会科学领域和自然科学学科中 并且在使用中得到不断的完善和创新。 在实际应用中,许多问题所涉及到的多个变量都可以按其特性归为两类,且两组变 量之间具有相关关系:例如在生物科学中,生物群( 表示为第一组变量) 与其生活环境 ( 表示为第二组变量) 之间具有相关关系,研究这一问题对保持生态平衡具有重要意义; 在经济领域内,居民家庭收入( 表示为第一组变量) 与生活消费支出( 表示为第二组变 量) 之间具有相关关系嘲,对这一问题的研究可以为正确刺激消费及提高收入提供可靠 的理论依据。利用相关分析方法,可以对分别选自两组变量的两个变量之间的相关关系 给出量化描述,却无法从总体上说明两组变量之间的关系;对于一些实际问题人们基于 经验可能对两组变量之间的相关关系产生一定的认知,但这种对已有信息在直觉上的认 知是表面的、片面的。1 9 3 6 年,美国数学家霍特林首次将相关系数推广到研究多个随机 变量与多个随机变量之间的相关性问题上“1 ,由此提出了典型相关分析方法。典型相关 分析是多元统计分析的几种基本方法之一,由于它能识别并量化两组随机变量之间的联 系,通过量化分析真正反映出两组变量之间的相互线性依赖关系,因此在地质科学、生 物化学及医学、社会经济及教育等众多领域都得到了广泛的应用,例如,在化学中,研 究森林土壤酶活性与土壤化学性质之间的相关关系嘲;在教育心理学中,研究青少年心 理健康与生活事件之间的相关关系嘲;在经济领域,研究国民经济发展与房地产业发展 之间的相关关系口1 ;在农业科学中,研究农作物产量性状与植物学性状之间的相关关系 哺1 ,等等。它能够根据蕴含在两组变量中的相关性信息以及每一组变量之中哪些变量占 支配地位来积极地调整分配政策,从而给相关领域的研究者在整体上优化系统结构提供 了客观的指导依据。另外,典型相关分析方法在特征提取、特征融合、脸像识别睡地n 1 等方向也都得到了广泛深入的应用。 东北师范大学硕士学位论文 1 1 2 研究意义 典型相关分析方法也具有一定的局限性,即不适用于解决时间序列n 引3 1 问题。我们 知道,多元统计分析的各个方法都是以均值、方差、协方差及相关系数这四个数字特征 为基础对多元变量进行分析和处理,从而得出相应的统计规律,即对所有样本数据采用 相同的处理方式。然而,在实际应用中,当样本数据呈现出某些特定的分布规律时,需 要对其进行相应的处理,以避免这种一视同仁的处理方式。比如,当由于人为因素造成 样本数据不准确时,一些样本数据会与真实值相去甚远,产生异常数据,需要对其异常 性进行压制,模糊统计学n ”5 1 在这一方面取得了较好的效果。从另一个角度,多元统计 分析对处理横向数据n 们具有较好的效果,即当样本数据的观测值是从个体的角度选取 时,多元统计分析不区分它们对整个系统的影响程度;但当样本数据为纵向数据时,即 样本数据的观测值是同一个体在某一时间范围内的时间序列值,显然,新增数据比时间 久远的数据对系统的发展趋势所起的作用重要得多,此时,我们希望多元统计分析能够 尽量弱化时间久远的数据的作用,突出新增数据对系统的影响。 当今时代是科学技术高速发展的信息时代,在自然科学方面,人们收集到越来越多 的时间序列数据,这些数据从发展趋势的角度描述着系统的特征,蕴藏着系统的大量动 态信息;在社会科学方面,建国以来,尤其是改革开放以后,我国经济取得了空前的迅 速发展,相应地,教育、社会保障等领域的各项指标数据随着时间的增长取得了越来越 显著的变化。在自然科学和社会科学的各个领域,都对多元统计分析方法的时间敏感性 提出了更高的要求。 然而经典典型相关分析方法不考虑多元复杂集合的时间迹向,无法全面地描述时间 序列的特征,即不适用于解决时间序列问题,对于处理各类时间序列问题是无能为力的。 综上所述,迫切需要对经典典型相关分析模型进行改进,使其能够更好地发挥新增数据 的重要作用,从而使统计分析的结果更真实地体现出事物发展的趋势。 1 2 国内外研究现状 典型相关分析方法最早由美国数学家霍特林在研究等差速度、等差动能与阅读速 度、阅读能力之间关系的问题中提出,在识别和量化两组变量之间的相关性方面取得了 良好的效果。就目前而言,它的理论已经比较完善。 典型相关分析揭示了两组变量间潜在的线性关系,对于事物间潜在的非线性关系, 有必要研究非线性典型相关算法。h a s o h 、o 1 酞e c l l i 和w w h s i e h 研究了基于神经网 络的非线性典型相关算法n l l 8 1 ;随着核理论的兴起,出现了核典型相关分析算法n 玑巩2 。 t 如今国内外对两组变量之间相关关系的研究主要采用典型相关分析方法,主要以统 计分析软件为途径。现今国外的统计分析软件的发展已经相当成熟,得到了广泛应用。 但上述统计分析软件以经典多元统计分析为理论基础,在很多实际应用问题中是不合时 宜的。 在实际问题中,当涉及到多个时间序列变量时,人们总是希望统计分析的结果能够 2 东北师范大学硕士学位论文 有效地反应时间对整个系统发展趋势的影响,但是就目前的了解,虽然存在众多对单个 变量时间序列进行建模及预测的方法,却鲜少有对多元统计分析方法基于时间序列的改 进,因此,研究这一问题具有较大的理论和现实意义。 1 3 研究内容 1 3 1 本文的主要工作 本文所做的主要工作是基于时间序列对经典典型相关分析方法进行改进,问题研究 的焦点集中在如何通过分析时间序列数据中所包含的信息充分挖掘出其中所蕴含的变 化规律信息。灰色系统理论是我国学者邓聚龙教授在2 0 世纪7 0 年代末、8 0 年代初提出 的,它抓住了时间序列样本中新增数据起到较大作用的本质特征,通过对时间序列的累 加预测建模,取得了良好的效果。基于上述分析,我们考虑将灰色系统理论的这种累加 思想引入到多元统计分析中,提出了灰典型相关分析的数学模型,并用面向对象程序设 计语言完成了g s a s 平台的开发,最后将其应用到实际问题中,并通过与经典典型相关 分析方法的对比揭示出其在解决时间序列问题方面的优越性。 1 3 2 本文的主要结构 本文利用五个章节来阐述问题的提出、解决、实现及应用,详情如下所述: 第一章绪论,提出本文的研究背景及意义、国内外研究现状及研究内容,指出研究 的目的和意义及本文的主要工作。 第二章内容为典型相关分析相关理论,主要从多元统计分析的数字特征、典型相关 分析的基本思想、求解步骤及显著性检验几个方面进行介绍,最后指出典型相关分析方 法的局限性。 第三章内容为灰典型相关分析,首先简要介绍灰色系统理论,随后引入灰序列的数 字特征,基于灰度给出灰数学期望、灰方差、灰协方差、灰相关系数的定义,在此基础 上定义了灰典型相关分析的数学模型,最后模拟一组实验数据对经典典型相关分析与灰 典型相关分析进行对比性分析,从而说明灰典型相关分析方法在解决时间序列问题上的 有效性。 第四章内容为灰统计分析系统( g s a s ) 平台,具体包括平台的系统分析、系统设 计及系统实现。 第五章内容为灰典型相关分析的应用,将灰典型相关分析方法应用于社会经济领 域,第一个实例为对社会伦理与经济发展状况相关关系的探讨,第二个实例为我国国内 生产总值各产业值及国家财政用于抚恤和社会福利支出的相关性研究。最后根据相关领 域的知识与理论对统计分析结果进行了科学的解释,从实际应用的角度对灰典型相关分 析方法的有效性进行了验证。 3 东北师范大学硕士学位论文 第二章典型相关分析相关理论 2 。1 多元统计分析的数字特征 当研究者研究一个社会现象或自然现象时,通常会选取多个变量来描述整个系统的 特征,这些变量的测量值所构成的数据集是相当庞大的,需要从中提取适当的信息,这 些包含在庞大数据中的信息可以通过某些称为数字特征的概括数字进行估计。多元统计 分析中最为重要及常用的数字特征包括数学期望、方差、协方差及相关系数,我们将对 它们分别予以讨论。 1 数学期望 设随机变量x = k ,屯,毛 ,概率分布p = p l ,p 2 ,p 。 ,则称 e ( ) = p 七 ( 2 1 ) 七l l 为z 的数学期望,或称x 的均值。数学期望是随机变量的一个重要数字特征。 在实际问题中,设x = “,x :,毛) 为样本数据的观测值,则有: 拈寺著以 ( 2 2 ) ( 2 2 ) 式相当于仇= 二,( 七= 1 ,2 ,疗) 前提下的数学期望。 2 方差 设随机变量z = 石l ,屯,矗 ,概率分布尸= a ,p :,p 。) ,数学期望e ( x ) , 则称 y ( x ) = e 【( x e ( x ) ) 2 】= ( 以一e ( x ) ) 2 p 七 ( 2 3 ) , 七= l 为x 的方差。另记为一,称仃善= y ( x ) 为x 的均方差或标准差。随机变量x 的方差 表示了x 的取值相对于它的均值e ( x ) 的分散程度,它是随机变量的又一重要数字特征。 在实际问题中,设x = 毛,x :,z 。 为样本数据的观测值,则有: 仃;2 寺荟( 矿习2 ( 2 4 ) ( 2 4 ) 式相当于e ( x ) = i ,n = 二,( 七= l ,2 ,刀) 前提下的方差。 3 协方差 设二元随机变量x = ( x 。,x 2 ) = ( 毛,而:) ,( x 2 。,砀) ,( 吒l ,2 ) ,其联合概率分布 r = p 。( 毛。,工1 2 ) ,p :( x 2 l ,砀) ,以( 矗。,毛2 ) ,数学期望e ( 墨) 和e ( 如) ,则称 东北师范大学硕士学位论文 c o ,( x 。,五) = 以阱一e ( x 。) 】【五一e ( 五) 】 ( 2 5 ) 为五与x :之间的协方差。另记为仃。:。即: 仃1 2 = 以l e ( 五) 】b 1 2 一e ( x 2 ) 】p i ( x 小黾2 ) ( 2 6 ) 七= l 协方差是二元随机变量x 的一个重要的数字特征,用于描述x 各分量之间的相互 关系。 在实际问题中,设x = ( z ,而:) ,( x :。,x :) ,( x 小x 。:) ) 为样本数据的观测值,则有: 仃。2 = 去 以l e ( x 。) 】【2 一e ( 五) 】 ( 2 7 ) 七i l 一 ( 2 7 ) 式相当于仇( x 扪坼2 ) = 二,( 七= l ,2 ,刀) 前提下的协方差。 丹 对于肌元随机变量x = ( x 。,x :,x 。) ,各分量之间存在协方差关系。记作 = e 【x ,一e ( 置) 】【x 一e ( x ,) 】) ,= 1 ,2 ,m ) 。显然,当f ,时,表示第z 个分 量与第_ ,个分量的协方差:当f = 时,吒表示第f 个分量的方差。记作 = 仃1 1 q 2 o - 2 l仃2 2 仃肼l仃肼2 ( 2 8 ) ( 2 8 ) 式称为肌元随机变量x 的协方差矩阵。 4 相关系数 设二元随机变量x = ( x l ,x 2 ) = ( x i l 而2 ) ,( x 2 l ,x 2 2 ) ,( x 小矗2 ) ) ,均值为e ( 五) 和 e ( x 2 ) ,方差为y ( x 1 ) 0 和y ( x 2 ) o 。则称 觚胁 ( 2 9 ) 为五与x :的相关系数或标准协方差,另记为岛:。相关系数是二元随机变量x 的又一 重要数字特征,它是一个无量纲的量,与协方差相比更加直观。 朋元随机变量x = ( 五,五,以) 的相关系数矩阵记作 p = n 舶 仍辫 p 吡p m 2 p 黼 5 ( 2 1 0 ) 册 所 眦 一 一 一 一 一 东北师范大学硕士学位论文 2 2 典型相关分析 2 2 1 典型相关分析的基本思想 在一元统计分析中,可以用简单相关系数来衡量两个随机变量之间的相关关系,如 果有显著的线性相关关系还可以建立它们的线性回归方程;在考虑一个随机变量与一组 随机变量之间的相关关系时,可以用复相关系数作为衡量标准吻1 。然而在地质科学、生 物化学及医学、社会经济及教育等众多领域,研究者经常遇到需要研究多个随机变量与 多个随机变量之间的相关关系问题。1 9 3 6 年,美国数学家霍特林首次把相关系数的概念 推广到研究多个随机变量与多个随机变量之间的相关关系的讨论中,提出了典型相关分 析这一方法。 典型相关分析是研究两组变量之间相关关系的一种多元统计分析方法,用( p 1 ) 随 机向量x 1 = ( 墨n ,x 8 ,x g ) t 来表示第一组的p 个随机变量,( g 1 ) 随机向量 x 2 = ( x :n ,x ;舶,x :2 ) 表示第二组的g 个随机变量。不失一般性,设p g 。若要研 究这两组随机变量之间的相关关系,一种方法是分别求出变量x :1 ) 与x ( 2 之间的相关系 数( 其中江l ,2 ,p ;,= 1 ,2 ,g ) 并根据相关系数矩阵进行分析,但是当两组随机变量 的数量较多时,这种做法既烦琐又不容易抓住事物的本质。另一种方法就是利用主成分 分析的降维思想来讨论两组随机变量的相关性问题,分别在每一组随机变量中选取若干 有代表性的综合变量( 原变量的线性组合) ,而每一组随机变量的综合变量之间又是互 不相关的,把研究两组随机变量的相关性问题转化为研究少数几对综合变量的相关性问 题,从而减少研究变量的个数,简化两组随机变量之间复杂的相关关系。具体的做法是: 首先在第一组随机变量中找出这组变量的一个线性组合( 综合变量) ,再在第二组 随机变量中找出这组变量的一个线性组合( 也是综合变量) ,使这一对综合变量具有最 大的相关系数,表示为: 阢= 口l l x f l + 口1 2 x 1 + + 口l p x ,。11 、 k = 6 l l 研2 + 6 1 2 x 2 + + 6 l g 工孑 。 如果这一对综合变量还不能够反映两组变量之间的相关性,则继续在每组随机变量 中找出第二对线性组合,使得它们在与第一对线性组合不相关的线性组合中具有最大的 相关系数,表示为: = 口2 l 耐d + 口2 2 墨d + + 口2 p r 苫 k = 6 2 l 墨2 + 如2 x 2 + + 6 2 q 一2 ( 2 1 2 ) 如果前后一l ( 七p ) 对综合变量还不能够反映两组变量之间的全部相关性信息,则 继续在每组随机变量中找出第七对线性组合,使得它们在与前七一1 对线性组合不相关的 线性组合中具有最大的相关系数,表示为: 6 东北师范大学硕士学位论文 以= 口x f d + 陬2 x u + + x 苫 ,o1 吣 k = 6 七l 斟2 + 钆2 x 2 + + 一2 如此继续下去,直到两组随机变量之间的相关性信息被提取完毕为止。我们把上述 每一对综合变量称为典型变量,把它们之间的相关系数称为典型相关系数。当然在实际 问题中,我们总是希望能够只提取尽量少的几对综合变量就能够完全反映出两组随机变 量之间的相关性信息。 2 2 2 典型相关分析方法的局限性 典型相关分析方法具有一定的局限性:l 、它对于离群的观测值十分敏感,异常数 据的出现往往会对整个分析过程造成强烈的干扰,使统计分析表现出与实际情况不相符 的结果。模糊典型相关分析具有较强的抗干扰能力,对异常数据起到了很好的压制作用, 统计分析的结果基本接近于实测数据的真实统计特征。2 、典型相关分析通常不考虑多 元复杂集合的时间迹向,即不适用于解决时间序列问题。 时间序列嚣删是按时间次序排列的随机变量序列忉3 ,它蕴含着客观世界及其变化的 信息,表现着系统变化的动态过程。它的这一特性通过以下两方面来体现:一是依靠数 据的顺序,二是依靠数据的大小啪,。 多元统计分析以均值、方差、协方差及相关系数这些数字特征为基础,只能基于均 值给出数据的分布程度及变差,对所有样本数据的观测值都采用相同的处理方式,因此 仅能反映各相关现象间的内在数值联系,却无法对样本数据的观测值的顺序做出应有的 响应,也就是说,它无法全面地描述时间序列的特征。由典型相关分析的数学模型可知, 它是基于样本数据的协方差矩阵或相关系数矩阵进行求解的,因此对处理各类时间序列 问题也是无能为力的。这一结论可以通过下述表述得到证实:我们把x ( 1 ) 及x ( 2 ) 中的 p + g 个变量的刀次观测值作为样本数据,表示如下: x :防( 1 ) ix ( 2 ) 】 阳i | 研2 1 = i ;l ix ? h x l 在对其进行典型相关分析的过程中,我们发现,对矩阵中的任意两行进行交换,典型相 关分析的统计结果都是不变的,即上述p + g 个变量的某一次观测值无论出现在任何位 置,对统计分析的结果都不会造成任何影响,典型相关分析对样本数据的观测值的顺序 不会做出响应。然而,时间序列中样本数据的观测值的顺序蕴含着系统的重要信息,可 见典型相关分析是无法全面地描述时间序列的特征的。为了解决这一问题,迫切需要对 埒幻;凹 x x x 坦趁;回砣; 2 l 2 i 2 l搿埒;埒 m肇m印;m矽 x x x m坨m舱;m砣; m u mn;以 东北师范大学硕士学位论文 典型相关分析模型进行改进,而如何通过分析时间序列数据中所包含的信息,充分挖掘 出其中所蕴含的变化规律成为问题的焦点。 灰色系统理论嘲1 与时间序列分析啪一u 关系密切。灰色系统理论的主要任务之一就是 根据社会、经济、生态等系统的行为特征数据,寻找因素之间或因素自身的数学关系与 变化规律,它抓住了样本数据的时间特征,即突出了时间序列中最新数据的重要作用, 通过对时间序列的累加生成预测出系统的发展趋势。考虑把这种累加的思想引入到多元 统计分析中,使灰色系统理论与典型相关分析方法结合起来,形成一种全新的模型,使 其能够及时跟踪时间序列样本的动态变化,真实反映时间对事物发展趋势的影响,使统 计分析的结果更真实、可靠。 8 东北师范大学硕士学位论文 第三章灰典型相关分析 3 1 灰色系统理论 近半个世纪以来,随着科学技术的高速发展,在现代社会的自然科学、社会科学各 领域及人们的日常生活中,信息的交流已日趋重要,变得不可或缺,与此同时,人们努 力追求数据的大量性,苛求信息的完备性。然而,信息社会的发展使得数据信息不完全 不确定。面对这样的现实,如何有效地提取、筛选、处理信息社会日益增多的信息,已 经引起人们的广泛关注和高度重视。灰色系统理论正是应运而生的一门新兴学科。 3 1 1 灰色系统理论的产生与发展 1 9 8 2 年,我国学者邓聚龙在n o r t h h o l l a n dc o 的s y s t e m c o n t r o ll e t t e r s 杂 志上发表了第一篇灰色系统论文t h ec o n t r o lp r o b l 鲫so fg r e ys y s t e m s 捌。1 9 8 2 年第3 期的华中工学院学报上发表了邓聚龙教授的第一篇中文灰色系统论文灰色 控制系统。这标志着灰色系统理论的诞生。此后邓聚龙教授的多篇论文和多部论著的 问世,为灰色系统理论奠定了基础,并引发了研究和应用灰色系统理论的热潮。在2 0 多年的时间里,广大研究者的共同努力使灰色系统理论获得了长足的发展,我国科技工 作者主持的一大批灰色系统理论研究课题获得了国家和省、市科学基金资助,已有千余 项灰色系统理论及应用成果获得国家和省、部级奖励。目前,灰色系统理论的应用已经 渗透到自然科学和社会科学的诸多领域,完成了一大批农业、环境、水利、军事、经济、 交通、人口、生态、石油啪1 、化工、医学、水产等许多领域的重大课题。 3 1 2 灰色系统的概念 自然科学与社会科学的许多系统都是根据研究对象所属的领域和范围命名的,而灰 色系统却是按照颜色来命名的。在控制理论中,人们常常用颜色的深浅来描述信息的明 确程度,用“黑 表示信息未知或信息很不确定,数据很少,用“白 表示信息完全明 确,数据完整,用“灰 表示信息部分确定、部分不确定,部分完全、部分不完全,部 分已知、部分未知。相应地,我们将信息完全明确的系统称为白色系统,信息未知的系 统称为黑色系统,部分信息明确、部分信息不明确的系统称为灰色系统。灰色系统理论 的研究对象是“部分信息己知,部分信息未知 的“贫信息 不确定性系统,它通过对 “部分一已知信息的生成、开发来实现对现实世界的确切描述和认识。 3 1 3 灰色系统理论的主要内容 灰色系统理论的主要内容包括:灰哲学、灰生成、灰分析、灰建模、灰预测、灰 9 东北师范大学硕士学位论文 决策、灰控制、灰评估、灰数学3 等。 3 1 4 灰序列生成 在实际问题中,各个客观系统尽管可能具有复杂的表象和数据,但其内部都蕴含着 一定的变化规律,关键在于如何选择适当的方式去挖掘并合理利用它。灰色系统理论对 这一问题的研究途径就是对原始数据进行整理,我们把这种通过原始数据探讨现实规律 的方法称为灰色序列生成。一切灰色序列都能通过某种生成弱化其随机性,显现其规律 性。 累加生成是使灰色过程由灰变白的一种方法,它在灰色系统理论中占有极其重要的 地位。通过对原始数据的累加可以观察出灰量积累过程的发展态势,使离乱的原始数据 中蕴含的积分特性或现实规律充分显露出来。灰色系统理论的这种累加生成的思想是对 时间序列进行分析和预测的基础,它充分挖掘出了时间序列样本数据所蕴含的系统信 息,使系统规律充分显现出来。在多元统计分析方法中引入灰色系统理论,将使基于时 间序列的统计分析过程更加完善,进而使统计分析的结果更加合理。 3 2 灰多元统计分析构想的提出 灰色系统理论的研究宗旨是强调新息优化,研究现实规律。它对数据少、信息不确 定的系统进行分析、建模和预测从而进行决策和控制,而预测模型的提出主要是基于时 间序列的累加。灰色模型之所以可以在少数据的基础上进行预测,是因为抓住了样本数 据的时间特征,通过对时间序列的累加预测出样本的发展趋势,即抓住了时间序列中, 新的样本数据起到较大作用的本质特征。我们根据灰色理论的以上特点,针对经典统计 学只能基于均值给出数据的分布程度及变差,而不能反映出时间对数据的影响的缺陷, 考虑把灰色系统理论引入到多元统计分析中,提出了灰多元统计分析。 3 3 灰序列的数字特征 将灰色系统理论引入到多元统计分析中,首先要做的工作就是对多元统计分析最基 本的四个数字特征的重新定义。在此之前,我们先对灰序列。町的相关知识进行介绍。 设序列s = p 。,j 2 ,s 一 ,灰度g = k 。,9 2 ,岛) ,则称: g s = g ,s ) = , , = g l j l ,9 2 j 2 ,g 。j 。 为灰序列。其中:= 去( 江1 ,2 ,刀) ,称为序列s 中第f 个元素& 的灰度。 l 0 9 2 u ) 为了便于计算,引入白度的概念,称:m = 二= l 0 9 2 ( f ) 为序列s 中第f 个元素以的 g f 自度,则灰序列对应的白化序列为: 臃= 缈,s = , , 玩( s :) ,方差为( 墨) o 和( s :) o 。则称: 以2 耥 ( 3 5 ) 灰数学期望为艮( 墨) 和 ( 3 6 ) 一 一 东北师范大学硕士学位论文 为序列s 。与s :的灰相关系数或灰标准协方差,另记为n 2 ,。灰相关系数是二元序列s 的 又一重要数字特征,它是一个无量纲的量,与灰协方差相比更加直观。 对于朋元序列s = ( s 。,) ,与之对应的灰相关系数矩阵记作 p g = n 2 - p 2 2 9 p 砒lp m 2 s p m m | ( 3 7 ) 方差、协方差、相关系数都是直接或间接通过数学期望计算得到的,在样本数据为 时间序列的前提下,数学期望的更加合理化必然导致基于数学期望的其它三个数字特征 更具有说服力。以下我们主要讨论改进后的灰相关系数矩阵,它对序列的有序性做出了 明确的表达,既能直观地从量化的角度给出各个变量之间的相关性信息,又较好地描述 了时间序列的特征。 我们给出样本数据的观测值如下: 表3 3 样本数据的观测值 时间变量l变量2变量3 t l1 38 95 2 6 t 2 2 57 29 8 2 t 33 76 41 5 0 5 其变化规律为:变量1 呈现递增趋势,变量2 呈现递减趋势,变量3 呈现递增数据。 1 o o o o - o 9 7 9 1 o 9 9 9 21 经典相关系数矩阵:尸= l o 9 7 9 l 1 0 0 0 0o 9 7 0 3i lo 9 9 9 2 一o 9 7 0 3 1 o o o oj 。 1 o o o o _ 0 9 7 4 0o 9 9 9 2 灰相关系数矩阵:尼= i - o 9 7 4 0 1 0 0 0 0o 9 6 4 0l lo 9 9 9 2 一o 9 “o 1 o o o oj 由上述结论可知,当每个变量的数据变化趋势比较一致,即呈单调递增或单调递减 趋势时,经典相关系数矩阵及灰相关系数矩阵得到的结果是极其相似的,都能较好地反 映各变量之间的相关关系。 在表3 3 样本数据的观测值中加入新样本如下: 表3 4 样本数据的观测值 时间变量l变量2变量3 t l1 38 95 2 6 t 22 57 29 8 2 t 33 76 41 5 0 5 l5 98 o9 0 8 东北师范大学硕士学位论文 其变化规律为:变量l 仍保持递增趋势,变量2 呈现递减一递增的变化趋势,变量3 呈 现递增一递减的变化趋势。 | 1 0 0 0 0 - 0 2 7 3 4o 3 9 1 8 经典相关系数矩阵:尸= l o 2 7 3 4 1 o 0 0 0一o 9 6 4 6l io 3 9 1 8 0 9 6 4 61 0 0 0 0 l k一 1 0 0 0 0 o 1 4 6 9o 0 2 2 81 灰相关系数矩阵:尼= io 1 4 6 9 1 0 0 0 0o 9 5 9 5l 。【- o 0 2 2 8 一o 9 5 9 5 1 o o o oj 由上述结论可知,变量1 和变量2 在经典相关分析方法下仍然保持负相关,而在灰 色相关分析方法下已经转化为正相关,变量l 和变量3 在经典相关分析方法下仍然保持 较大的正相关,而在灰色相关分析方法下虽然仍为正相关,但相关性已经十分微弱。可 以看出,与经典相关分析方法相比,灰色相关分析方法能迅速地对数据变化趋势的改变 做出响应。 在表3 4 样本数据的观测值继续加入新样本如下: 表3 5 样本数据的观测值 时间变量l变量2变量3 t l1 38 95 2 6 t 22 57 29 8 2 t 33 76 41 5 0 5 1 r t5 98 o9 0 8 t 57 11 0 54 0 8 其变化规律为:变量1 仍保持递增趋势,变量2 继续呈现递减一递增的变化趋势,变量 3 继续呈现递增一递减的变化趋势。 f - 1 o o o o o 4 5 5 6 - 0 1 9 0 6 经典相关系数矩阵:p = lo 4 5 5 6 1 0 0 0 0一o 9 3 4 9l i - 一o 1 9 0 6 一o 9 3 4 9 1 0 0 0 0j 1 o o o o o 7 0 3 4 一o 5 5 1 7 灰相关系数矩阵:最= lo 7 0 3 4 1 0 0 0 0一o 9 5 6 6i 。【一o 5 5 1 7 一o 9 5 6 6 1 0 0 0 0j 此时,每个变量都继续维持着上一组数据的变化趋势,由上述结论可知,变量1 和 变量2 在经典相关分析方法下已经由负相关转化为正相关,但相关系数明显小于在灰色 相关分析方法下的相关系数;变量1 和变量3 在经典相关分析方法下已经由正相关转化 为负相关,相关系数同样明显小于在灰色相关分析方法下的相关系数。由此可见,经典 相关分析方法需要在数据的变化趋势发生改变之后的一段时间才能对此做出响应,而灰 1 4 东北师范大学硕士学位论文 色相关分析方法却能在第一时间感知到这一信息,即灰色相关分析方法的敏感度明显高 于经典相关分析方法。 3 4 灰典型相关分析 3 4 1 灰典型相关分析的基本思想 灰典型相关分析研究的焦点是对经典典型相关分析模型进行改进,使其适用于各类 时间序列问题,因此经典典型相关分析的基本思想也适用于灰典型相关分析。 对于1 2 1 中提到的两组随机变量x ( 1 及x ( ,首先在第一组随机变量中找出这组 变量的一个线性组合( 综合变量) ,再在第二组随机变量中找
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中秋节慰问活动方案
- 2025年销售工作总结和工作方案演讲稿
- 赠与协议(附赡养义务)
- 内蒙古通辽历年中考作文题与审题指导(2008-2024)
- 2025年玻璃门保鲜柜项目可行性研究报告
- 2025年燃油切断装置项目可行性研究报告
- 湖南省郴州市第五完全中学2024-2025学年初三第二次调研考试(物理试题文)试卷含解析
- 云南省玉溪市红塔区2024-2025学年初三下第一次测试化学试题含解析
- 湖南师范大学树达学院《品牌规划与设计》2023-2024学年第二学期期末试卷
- 沈阳工业大学工程学院《生物医学图像处理》2023-2024学年第二学期期末试卷
- 手术室区域划分
- 薪酬管理第6版第3章课件
- 简易呼吸器课件
- MOST的总线概述、系统原理和应用讲解
- 水的光学特性及其对水下成像分析
- DB14∕T 2163-2020 信息化项目软件运维费用测算指南
- 05 【人教版】七年级下期中数学试卷(含答案)
- 农田水力学课程设计设计说明书
- 一年级20以内加减法练习(每页100题可直接打印)
- 北京版英语小学四年级下册单元测试卷
- 钻孔灌注桩钢筋笼自动计算公式
评论
0/150
提交评论