人民币汇率的独立成分分析_第1页
人民币汇率的独立成分分析_第2页
人民币汇率的独立成分分析_第3页
人民币汇率的独立成分分析_第4页
人民币汇率的独立成分分析_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、人民币汇率的独立成分分析 摘要 汇率波动无论对国内的经济增长还是对对外贸易都有重要影响。适当的汇率水平有利于国内经济的发展。中国从改革开放至今历经四次汇率制度改革,最终于 2005年 7月建立起有管理的浮动汇率制度,成功地由紧钉住美元过渡到钉住一揽子货币。在这种新的汇率制度下,汇率水平受市场因素的影响比以往时期更为强烈,如果能够成功识别出汇率波动背后的决定因素,对于我国汇率管理和经济决策必然具有重要的现实意义。 为了达到对汇率决定因素进行研究的目的,本文尝试采用一种新的分析方法?ICA 方法。ICA 是一种基于信息理论主要是熵及其他与熵有关的概念的分析潜变量的方法。这种分析方法的目的是把混合信

2、号分解为相互独立的潜变量成分,它能够抑制高斯噪声,并能分解出相互独立的非高斯信号,因而在潜变量研究方面具有其他统计分析方法所不可比拟的优点。 通过对人民币对美元等五个币种的汇率的中间价时间序列数据的分析,得到对五种汇率共同起作用的三个独立潜变量:市场预期、汇率政策以及季节因素。关键词: 汇率;ICA;信息理论;潜变量 Abstract Exchange rate has significant influence upon both domestic economic growth and international trade. Appropriate exchange rate is pr

3、opitious to domestic economic growth and important lever of the international trades. Although it is the comparison of two countrys currency, it does reflect the strength of different countries.There have been four innovations in foreign exchange domain in China since reform and opening, and eventua

4、lly supervised floating rate system was set up in July 2005, achieving the transition from nailing up dollar to pinning up total currency successfully. Under this new system, the exchange rate of RMB is determined by market factors to much more extent than before, which asks for more subtle analysis

5、 of the determinants of RMB exchange rates. In this paper, the author uses a new kind analytical tool, ICA, to look for latent factors determining the rate of RMB. Based on information theory, esp. entropy and other concepts relative to entropy, ICA can decompose observed variables and get the indep

6、endently latent variables, with strong advantages over other traditional statistical methods.After analyzing time series data of RMB vs dollar etc with ICA, it is found that expectation, exchange system and seasonal factors are three main latent factors determining the rate of RMB. Key Words: exchan

7、ge rate; ICA; information theory; latent variables目 录 前 言. 1 第1 章 ICA 方法及信息理论介绍 3 1.1 ICA概述3 1.1.1 ICA 的基本问题. 3 1.1.2 ICA的约束. 4 1.2 ICA 与PCA的区别和联系 5 1.2.1 ICA与PCA的联系. 5 1.2.2 ICA与PCA的区别6 1.2.3 ICA与PCA的模拟比较 7 1.3 信息理论简介 10 1.3.1 信息理论基本概念. 11 1.3.2 几个主要概念之间的关系. 11 第 2 章ICA 的算法 13 2.1 ICA一般算法13 2.1.1 I

8、CA 的目标函数13 2.1.2 ICA的算法. 14 2.1.3 独立成分个数的确定. 15 2.2 时间序列的ICA方法19 2.2.1 时间序列ICA的基本原理 20 2.2.2 AMUSE算法 21 第 3 章 人民币汇率波动潜在影响因素的实证分析23 3.1 五种汇率147天数据的ICA分析. 23 3.1.1 FastICA分析24 3.1.2 AMUSE分析 26 3.2 四种汇率的536天数据的ICA分析27 3.3 ICA实证分析结果的解释28 第 4 章 总结和展望. 31 参考文献:33 附 录 35 致 谢 40 人民币汇率的独立成分分析 前 言 从改革开放到加入 WT

9、O,再到金融市场的开放,中国的对外开放度日益加强,中国的对外经济依存度也日益增大,国际贸易飞速发展,外商直接投资竞相涌入,截至 2007年 3月底,中国外汇储备居世界首位。勿庸质疑的是,在这些辉煌的成绩背后,中国的汇率政策发挥了重要的作用。首先,人民币汇率政策的调整,给中国股市的长期走势构成了强有力的支持。其次,近年来,人民币对美元的持续走强,缓解了经济增长带来的许多问题,如进口减少,经常帐号盈余增加等。但是随着我国持续十数年的国际收支双顺差以及外汇储备的高额积累,对我国汇率制度进行改革的呼声也日益高涨。从 2005年 7月 21日起,中国的汇率政策翻开了新的一页,建立了市场供求为基础的,有管

10、理的浮动汇率制度。 管理浮动汇率制度又称干预浮动汇率制度,是指货币当局采取各种方式干预外汇市场,使汇率水平与货币当局的目标保持一致的一种浮动汇率制度。2007年 5月 11日银行间外汇市场人民币汇率中间价为: 1美元对人民币 7.6835元,再次创出汇改以来的新高。 鉴于汇率对国内经济发展以及国际贸易所起到的作用,对汇率问题的研究一直吸引着国内外学者和专家的关注,特别是 2005年人民币汇率改革以后,对汇率问题的争论和探讨一直是热点问题,并且会一直持续下去。有的学者从影响汇率的一般因素入手,着重分析经济、政治、军事和心理预期等方面的综合影响刘志国和周丽俭;有的学者从西方汇率决定理论出发,认为对

11、人民币汇率走势起决定作用的是经济因素,其中通货膨胀水平和利率水平对汇率的影响最大,国际收支中的经常项目和资本项目中的平衡状况是最直接的影响任英华和许涤龙;有的学者通过实证分析,得出消费价格指数是影响人民币实际汇率的最主要因素贺昌政、任佩瑜和贺俞海;有的学者则从经济和非经济因素两个方面,分析了影响人民币汇率的主要外部影响因素是中国国际竞争力的相对提升、国际贸易和投资形势变化、国际游资和资本外逃、美元持续贬值、国际政治压力和社会心理预期等因素郭四军。1人民币汇率的独立成分分析 总的来看,这些研究从不同角度充实了人民币汇率波动影响因素的研究,但是这些研究多数为定性研究,如果是定量分析,则一般的分析方

12、法就是进行回归分析。 与这些研究不同,本文将建立潜变量模型,以人民币对美元,欧元,日元,港币以及英镑的汇率中间价这五个汇率时间序列为分析对象,采用一种新的分析潜变量的方法?独立成分分析(ICA),分析出对上述五个汇率时间序列共同起作用的独立的潜变量。 传统的回归分析与本文采用的 ICA方法比,有很多不足,主要表现在如下几个方面:1回归分析的变量必须是可测的。然而汇率的影响因素众多,有的是可测的,有的是不可测的。如果进行回归分析,必然会忽略掉不可测因素。而 ICA会得出可测的和不可测的潜变量。2进行多元线性回归时,得出的有显著影响的因素可能会有相关性,也即这些因素并非最终的实质性影响因素,而IC

13、A得出的潜变量是统计上独立的,从理论上讲是最终的实质性影响因素。 (3)回归分析只能分析出自变量与因变量之间的相关关系,而 ICA方法则通过建立潜变量模型,揭示影响因素对汇率的单向决定作用。 综上,本文的研究对于人民币汇率波动影响因素的研究具有创新性,对于把握人民币汇率波动的实质性决定因素提供了有实际意义的结论。此外,本文利用随机模拟对 PCA 与 ICA 的优劣势进行了比较研究,对独立成份个数的选择进行了研究,是本文在方法研究上的创新之一。 本文的结构如下:第 1章简单介绍了 ICA以及 ICA方法中基于的信息理论,利用随机模拟比较了 ICA方法与 PCA,并简单介绍了 ICA和 PCA 的

14、结合运用。第 2 章介绍了 ICA 的算法,包括一般数据的算法和时间序列数据的算法。第 3章是实证分析 ,对人民币对美元等五个币种汇率中间价的时间序列用 ICA 方法进行分析。最后一章是总结。2人民币汇率的独立成分分析 第1章 ICA方法及信息理论介绍 本章主要介绍 ICA 方法的基本原理以及 ICA 方法的理论基础?信息理论。 1.1 ICA概述 1.1.1 ICA 的基本问题 独立成分分析(independent component analysis, 以下简称 ICA),是处理盲源分离blind source separation ,BSS的有效方法,最早是著名的”鸡尾酒会”问题cook

15、tail party中产生的。假设房屋里有三个人讲话,源信号分别为s t ,s t ,s t ,在不同的位置放置三个装置记录三个人讲话的信号的混合,观1 2 3测到的混合信号为x t ,x t ,x t ,t 为时间,则源信号与混合信号具有如下的1 2 3关系: x t a s t +a s t +a s t 1 11 1 12 2 13 3x t a s t +a s t +a s t 2 21 1 22 2 23 3x t a s t +a s t +a s t3 31 1 32 2 33 3其中,ai 1,2,3,j 1,2,3为参数,该参数与讲话者和记录信号的装置的ij距离有关。由于模

16、型中不含随机扰动项,因此是一个线性免噪音的 ICA模型。1一般地,如果有n个观测的随机变量x ,x ,x ,这些随机变量都可以写成m1 2 n1ICA 模型包括线性模型和非线性模型两大类,每类模型又分为线性免噪音模型和线性噪音模型,本文主要讨论的是线性免噪音模型。3人民币汇率的独立成分分析 个随机变量ss , ,s 的线性组合,即: 12 mx a s +a s +.a s ,对所有的i 1,n。 i i1 1 i2 2 im m其中,ai 1,n,j 1,m是系数。用矩阵表示即为: ijX AS 其中,A是nm 阶系数矩阵。 ICA 的目标是在观察到输入变量混合信号 x的条件下,确定输出变量

17、独立成分 s的表达,即寻找输入变量与输出变量之间的线性变换的函数: sf x wx 其中的关键是求出 x的权重矩阵 w。求解 w的过程是一个对信息理论中有关的特征参数如负熵在一定目标下进行的迭代优化的过程。因此,ICA 与信息理论具有密切联系。信息理论中的熵是 ICA方法的一个重要概念,算法中进行迭代优化的有关参数,如负熵,互信息,K-L 散度都与熵有关,附录中有详细介绍。本文中介绍的基本的 ICA算法FastICA?固定点算法,主要是在对负熵极大化的目标下进行的迭代优化在算法章节中有详细介绍。 ICA 方法最初的应用是用来解决信号分离问题,后来在医学通信等许多领域都得到了广泛应用。目前,IC

18、A 主要的应用领域有:特征提取,脑部成像EEG和 MEG,通信CDMA, ,地震监测,核磁共振等,在金融时间序列分析中也开始采用 ICA方法。 ICA在金融时间序列方面的应用是本文实证研究的重点。 1.1.2 ICA的约束 ICA 方法对数据进行分析时有一个约束,即要求各个独立成分的分布最多只有一个服从正态分布。 假定有两个独立成分s 和s ,且都服从标准正态分布,白化后的两个混合1 2T ?1为x 和x ,xAs 其中,A为正交矩阵,即A A ,则s 和s 的联合概率密度1 2 1 2为: 22 2s1 s +s 11 2ps ,s exp exp 1 22 2 2 24人民币汇率的独立成分

19、分析 x 和x 的联合概率密度为: 1 22 2?1 TA x A x1 1T Tpx ,x exp detA exp detA 1 22 2 2 2T T因为 A是正交矩阵,所以 A s x ,且 detA 1,故: 2x1px ,x exp 1 22 2可见,源信号s ,s 的联合分布与混合信号x ,x 的联合分布相同,显然1 2 1 2在这种情况下无法实现分离出独立成分的目的。因此,基本 ICA方法对数据的限制是最多于只有一个变量服从正态分布。 1.2 ICA 与PCA的区别和联系 作为一种多变量的分析方法, ICA与传统的分析多变量的方法如主成分分析PCA既有联系又有区别 。 1.2.

20、1 ICA与PCA的联系 PCA和 ICA的联系是很密切的。 (1)可以认为 ICA是对 PCA 的进一步拓展。ICA的算法可以归纳为如下步骤:PCA 球化sphere 或者白化whitening 迭代优化。在 ICA过程中,需要利用 PCA对数据进行预处理,包括对数据进行中心化和球化。中心化和球化的目的是简化运算。 中心化是通过原向量减去其均值向量实现的,从而使得中心化后的向量为零均值向量。对于零均值的变量,零协方差等价于零相关系数。对中心化后的混合信号进行 ICA,得到的独立成分也是零均值的。 T T存在n维向量zz .z ,如果Ez z I ,则称z 是球化的或者白化的。1 n在 ICA

21、中,球化是通过对中心化后的随机向量x 进行线性转化实现的。球化后的向量 z 是由zV x得到。因此找到矩阵 V 是实现球化的关键。球化中用到的5人民币汇率的独立成分分析1/ 2 T T线性变换矩阵 V是不唯一的,可以取V D E D为协方程阵Exx 的特征值组成的对角矩阵, E是与特征值对应的特征向量组成的矩阵,也可以取 UVU为任意正交矩阵。 (2)当确定的独立成分的个数小于混合数据的维度时,可先用 PCA 对数据进行降维处理,再对降维后的数据进行 ICA。实际上,在 FastICA 算法中,已经自动对混合信号进行了 PCA 降维处理,使得降维后的维度等于确定的独立成分的个数。 1.2.2

22、ICA与PCA的区别 ICA与 PCA的区别主要体现在如下几个方面: 首先,两种方法的模型设定不同。PCA 对潜变量模型没有要求;而 ICA 则有潜变量模型,其中线性免噪音模型是x As。 其次, 二者分析的目的不同。 PCA得出的主成分按照方差大小有次序差别,一般会提取方差最大的前若干个主成分来对样本进行更好的区分;而 ICA 的目的是分离出彼此独立的潜变量,以便对 ICA分析的现象从独立成分的角度进行合理解释,独立成分之间没有重要程度的差别。 再次,二者分析时间序列数据时的方法不同。PCA虽然可以分析任意分布的截面数据和时序数据,但 PCA 在分析时序数据时没有用到时间序列构造的特性,如时

23、依性;而 ICA在处理时序数据时会利用数据的时依性。 最后,二者分析的数据的分布不同。PCA可以分析任意分布的数据,只要混合向量彼此有相关性有冗余信息,进行 PCA总是有道理的;而 ICA分析的数据向量中最多只能有一个变量服从正态分布。 总的来看,ICA在一定的约束条件下能得到相互独立的潜变量,而 PCA能够得到彼此不相关的主成分潜变量。从统计性质上看,独立比不相关更严格,独立意味着非线性不相关,因此 ICA方法与 PCA相比具有明显的优势。 此外,主成分分析的数据多为二维截面数据,当数据为时序数据时或者数据为三维数据时,主成分分析就不适用了,因为主成分分析没有利用时间序列数据本身结构的特性?

24、时依性,ICA方法则可以对此类数据进行分析。6人民币汇率的独立成分分析 1.2.3 ICA与PCA的模拟比较 虽然 ICA 方法有约束条件,即变量最多有一个服从正态分布,但 ICA 与PCA相比确有优势,下面用随机模拟的方法展示 ICA与 PCA相比的优势。 1. 只有一个正态源信号的模拟 随机产生三个源信号,信号s 从均刀分布中随机产生,信号 s 为均刀分布1 2与正态分布混合混合效果随机产生,信号s 是从 1至 100的递增序列。 3s runif100,min0,1, 1s runif100,min0,1+rnorm100,2a1:100,s sina 3 这里用到的算法为 FastIC

25、A,该算法比随机梯度法运算速度快 10100倍。 三个源信号如图 1-1所示: (a) (b) (c) 图 1-1由源信号混合得到的三个混合信号如图 1-2所示: (a) (b) (c) 图 1-27人民币汇率的独立成分分析由主成分分析得到的彼此不相关的主成分如图 1-3所示:(a)(b)(c) 图 1-3由 ICA方法得到的独立成分如图 1-4所示: (a) (b)(c) 图 1-4 通过图形对比可以看出,ICA 可以把混合信号有效分离出来,尽管估计出的独立源信号的排列顺序与源信号不一致,但这并不影响我们对源信号的认识。相比之下,主成分分析则不能有效分离混合信号,原因主要在于 PCA得到的主

26、成分是不相关的,虽然在正态分布下,不相关就意味着独立,但在该模拟中,随机产生的源信号不服从正态分布,因此,得到的仅仅是不相关的主成分,而不是独立的源信号的估计。 2. 两个正态源信号的模拟 当然,ICA并不总比 PCA优越。若不止一个变量服从正态分布时,ICA方法并不能比 PCA方法具有更好的分析效果。上文指出,ICA限制最多有一个变量服从正态分布。如果数据实际上有 2个以上变量服从正态分布,仍然采用 ICA进行分析,分离出的独立成分与 PCA分析出的结果相比,没有后者好。下面依然用随机模拟的方法来验证。8人民币汇率的独立成分分析 随机生成两个正态分布和一个正弦函数: s rnorm100,m

27、ean0,sd1 1s rnorm100,mean4,sd3 2a1:100, s sina 3 则源信号如图 1-5所示:(a )(b) (c) 图 1-5由 ICA得到的独立成分如图 1-6所示: (a)(b)(c) 图 1-6由 PCA得到的主成分如图 1-7所示: (a)(b)(c) 图 1-79人民币汇率的独立成分分析 通过图形的对比可以看出, ICA得出的独立成分与 PCA得到的主成分相比,图 1-7(a)和图 1-7(b)比图 1-6(a)和图 1-6(c)更接近于源信号图 1-5(a)和图 1-5(b),而图 1-7(c)比图 1-6(b)更接近于源信号图 1-5(c),无论是

28、 ICA 还是 PCA 都不能完全分离出源信号。原因是混合信号是由两个正态分布的信号和一个非正态分布的信号混合生成的。不满足 ICA的假定,同时非正态分布下 PCA得不到独立源信号的估计。 3ICA与 PCA的选择 在实际的分析中,要得到的独立成分的分布是未知的,因此就需要判断到底是 ICA还是 PCA的效果更好。可以采取以下步骤: 1 先进行 ICA,得出独立成分。 2 求出独立成分的熵值。 3 确定熵的一个阈值,如果所有独立成分的熵值都小于该阈值,则继续进行 ICA。如果所有独立成分的熵值都大于该阈值,则重新进行 PCA。 4 如果独立成分的熵值有的大于该阈值,有的小于该阈值,则保留熵值小

29、于阈值的独立成分,再对所有数据进行 PCA,计算所有主成分的熵值,保留熵值大于该阈值的主成分。 上述分析步骤的修正,仅是通过随机模拟得出的,至于方法的合理性,还2需要理论上的进一步的研究。 1.3 信息理论简介 在数据的描述方面,统计分析一般是运用估计理论。估计理论是基于对数据建立参数模型,通过参数来描述变量。基于编码理论的信息理论是描述数据的另一种方法,熵是信息理论中的重要概念,信息理论中的许多其他概念也是由熵引申得到的,例如负熵,互信息,K-L散度等,其中负熵和互信息也是 ICA中重要的目标函数,可见信息理论对 ICA的重要意义。本节将主要介绍 ICA 中用到的几个信息理论中的概念。 2在

30、很多情况下,采集的数据是三维数据,即在每个阶段中对采集的样本的多个指标进行进行监控而采集的数据。对于此类数据,可以采用 MPCA与 ICA的结合分析见参考文献10。10人民币汇率的独立成分分析 1.3.1 信息理论基本概念 1.熵 熵是度量变量随机性大小的特征参数。 离散随机变量的熵定义如下: nHx px log px i ii 1连续随机变量的熵称为微熵,定义如下:H x pxlog pxdx。 由熵的定义可知,变量越随机,熵越大,反之, 熵越小,因此熵度量了变量的随机性,熵有多种性质(见附录 1)。2.负熵最大熵定理指出,在具有同样方差阵的概率密度函数中高斯分布的熵最大。因此,把任意密度

31、函数 px和具有相同方差阵的高斯分布 p x间的 K-LG散度(见附录 4)作为该概率密度函数非高斯程度的度量。记x为随机变量,px则负熵定义为:J x p,p pxlog dx H x ?H x G Gp xGJx 0可以证明,J x 0,当且仅当H x H x时, G1.3.2 几个主要概念之间的关系 1.负熵与互信息以及 K- L散度的关系负熵、互信息(见附录 5)以及 K-L散度之间的关系如下:N2E y iN1i 1I y J yJ y + log 证明见附录 2 iT2 det E yyi 1pxJ x p,p pxlog dx H x ?H x ?负熵 G Gp xG2.熵,条件

32、熵,联合熵以及互信息之间的关系11人民币汇率的独立成分分析 3熵、条件熵、联合熵以及互信息之间的关系 ,附录中有简要介绍(见附录 7)。 ICA 就像一个数据处理器,输入混合信号,输出独立源信号。从信息理论的角度看,ICA有许多优势,其一便是信息理论中的特征参数在线性 ICA处理之后保持不变,具体证明见附录 36。 3条件熵和联合熵不是本文研究的重点,故不作详细介绍。12人民币汇率的独立成分分析 第 2 章ICA 的算法 总的来看,ICA方法可以总结为:目标函数+优化算法在一定的准则下。本章首先介绍两种目标函数,即基于高阶统计量的削度kurtosis和基于信息理论的负熵negentropy,然

33、后介绍 ICA的基本算法,讨论独立成分个数的确定,最后介绍时间序列数据的 ICA方法。 2.1 ICA一般算法 2.1.1 ICA 的目标函数 依据中心极限定理,多个独立的随机变量的线性组合的分布近似服从正态分布。在 ICA中: x a s +a s K +a s i i1 1 i2 2 in n其中,s 是独立成分,i 1,2 Kn。因此当 n 逐渐增大时,x 趋向于正态分布。i结合上文的分析知,正态分布的向量组用 ICA不能达到分离的目的。因此,要想用 ICA 分离出独立成分,就要找到等式左侧混合信号最不从正态分布的情况,也就是在一定的目标函数下通过迭代运算使得当等式右侧只有一个独立随机变

34、量时,那么就得到独立成分了。这就是 ICA一个很重要也是主要的判据?极大化非高斯性nongaussianity。 对于非高斯性的度量主要有削度kurtosis和负熵negentropy。削度为四阶统计量,正态分布下,削度为零,非正态分布下,削度绝大多数情况下非零。所以极大化削度可以极大化非高斯性,故削度可以度量非高斯性。但削度的缺点是对极值点比较敏感,因此不是非高斯性的稳健估计。 另一个重要的也是最普遍的非高斯性的度量是负熵:13人民币汇率的独立成分分析 pxJ x pxlog dx H x ?H x Gp xG由极大熵定理在具有同样方差阵的概率密度函数中高斯分布的熵最大可知,负熵当且仅当 x

35、 服从正态分布时为零,否则 Jx0,即 Jx是非负的。因此极大化负熵也就极大化了向量的非高斯性。但负熵也有其不足之处,因为不知道向量的分布,所以负熵比较难以计算。在实际应用中,普遍采用非线性近似的方法,即: 2J y EGy ?EG 12实践表明:Gy log cosha y和Gy exp ?y / 2对估计是稳健的。 1a13对 Jx求极值, 需对 J和 G求导,得 G的导数,gy tanha y, gy y , 12gy y exp ?y / 2。在 FastICA算法的迭代过程中,会用到上述非线性函数。 2.1.2 ICA的算法 4 ICA的算法主要有随机梯度法和 FastICA固定点算

36、法。算法 主要分为两大步骤:第一步是数据预处理,包括中心化和球化,主要采用 PCA实现;第二步是基于一定的原理对目标函数(本文主要利用负熵)进行优化迭代运算。 1.随机梯度法的基本步骤是:(1)对中心化后的数据进行球化,得z。(2)随机选择的一个标准单位的初始向量w和步长 的初始值。 T(3)对 zg w z 进行迭代优化。 2.FastICA法的基本步骤是: (1)对中心化后的数据进行球化,得z。 (2)随机选择一个标准单位的初始向量w。 TT(3)对Ezgwz ?Egwzw进行迭代优化。 4算法不是本文讨论和研究的重点,故不对算法的具体步骤做详细分析和介绍。14人民币汇率的独立成分分析 本

37、文使用的 FastICA算法。因为该算法有如下优点: 1 收敛速度快,一般是 3次方收敛,具有较好的稳健性。 2 与梯度算法相比,FastICA算法不需要学习步长这个参数。 3 算法可以按不同的要求实现独立成分的提取。如本文使用的 R 软件里面,alg.typ”deflation”或者”parallel”就可以实现不同的独立的成分的提取。前者是依次提取,后者是同时提取。 2.1.3 独立成分个数的确定在对混合序列进行独立成分的分离时,对于独立成分的个数,ICA没有一5个确定的准则。不过,通常分析的独立成分的个数不多于混合序列的个数。 由于 ICA没有提供一个明确的确定独立成分的个数的准则,通常

38、的做法是在通过 PCA降维的时候,观察累积提取方差的比例来确定能最好的解释数据的最小数目的独立成分,例如,规定累积方差比例为 90%。至于这个比例的确定也不是固定不变的,可根据实际情况灵活运用。 下面通过一个随机模拟来研究确定独立成分个数的准则。随机生成三组信号: s runif100,min0,1, 1s runif100,min0,1+rnorm100,2a1:100,s sina 3将这三组信号混合,得到五组混合后的信号x。对五组混合信号先进行 PCA,6然后进行 ICA。通过 PCA得出如下表表 2-1所示的各个主成分的方差比例以及累积方差比例。 5独立成分的个数多于混合序列的个数的情

39、况很复杂,算法也很复杂。在 R软件里面,如果独立成分的个数多于混合序列的个数,系统会自动把独立成分的个数调整到与混合序列的个数相等。 6对 x先进行 PCA,然后进行 ICA,与直接进行 ICA相比,得出的结果几乎是完全一致的。15人民币汇率的独立成分分析 表 2-1成分一 成分二 成分三 成分四 成分五 标准偏差 2.407354 1.636832 0.6975018 1.12E-08 8.32E-09方差比例 0.646725 0.298984 0.0542913 1.40E-17 7.73E-18累积比例 0.646725 0.945709 1.000000 1.00E+00 1.00E

40、+00如果按照一般的做法,进行 PCA后累积方差比例达到 90%即可,则应该提取两个独立成分,而实际上 x是由三组独立信号混合而成,所以应该提取 3个独立成分。更为有效的做法是依次观察每个主成分的方差比例,如果第 m个主成分方差比例显著小,那么应该提取 m-1个独立成分,而不仅仅是看累积方差的比例是否超过 90%。本例中,从第 4个主成分起方差比例显著减小,因此应该保留 3个主成分。 再举一例,在原来三组独立信号的基础上再加入一组信号: s sina+rnorm100 4然后随机混合生成六组混合信号c, 对 c 先用 PCA降维,得到各个主成分的方差比例以及累积方差比例见表 2-2。 如同上面

41、的分析,应该提取 4个独立成分,这也与实际一致。表 2-2成分一 成分二 成分三 成分四 成分五 成分六 标准偏差 3.1110724 2.3788891 1.0750713 0.66321249 6.91E-09 0.000000 方差比例 0.5715749 0.334196 0.0682539 0.02597516 2.82E-18 0.000000 累积比例 0.5715749 0.9057709 0.9740248 1.000000 1.00E+00 1.000000 在确定独立成分的个数时,还可以通过反复的测试和比较确定独立成分个数。如果独立源信号的个数小于混合序列个数且后者的维数

42、不很大时,则在反复测试的过程中,若分别提取 2n混合序列个数个的独立成分,对比 n-1组因提取的独立成分个数 m 2 m n 不同而产生的独立成分的图形。从 2 个独立成分的组图开始,组图间依次两两对比,会发现 m 个独立成分的组图中含有m-1个独立成分的组图,如果 m大于实际源信号的个数,组图中会出现某个独立成分的重复。如果合并重复的图形,最终会得出实际应该提取的独立成分的16人民币汇率的独立成分分析 个数。 为验证 ICA 方法中独立成分的个数问题,仍采用 ICA 与 PCA 对比时用到的三个源信号。用这 3个源信号混合生成 5个混合信号,对这 5个混合信号用 ICA分离,分别提取 2个,

43、3个,4个,5个独立成分,然后分析独立成分图形的特点。 下面是由上面的方法生成的 3个源信号(如图 2-1): a b c图 2-1 如果提取 2个独立成分,则得到如图 2-2的组图:a b图 2-2 如果提取 3个独立成分,则得到如图 2-3的组图:ab c 图 2-317人民币汇率的独立成分分析 如果提取 4个独立成分,则得到如图 2-4的组图:a b c d 图 2-4 如果提取 5个独立成分,则得到如图 2-5的组图: a bc d e 图 2-518人民币汇率的独立成分分析 根据上面的规则,通过对 5-14 组图形分析来确定独立成分的个数。从提取 2 个独立成分的组图开始对组图依次进

44、行两两比较。3 个独立成分的组图中含有 2 个独立成分的组图中所有的独立成分。4 个独立成分的组图中含有 3 个独立成分的组图中所有的独立成分,同时图 2-4 中的图 2-4(a)和图 2-4(c)的图形走势是近似的。5 个独立成分的组图中含有 4个独立成分的组图中所有的独立成分,同时图 2-5中的图 2-5(a) ,图 2-5(c)以及图 2-5(e)的图形走势是近似的。通过上述的分析,可以判断通过对 5个混合序列运用 ICA方法,分离出来的独立成分应该是 3 个。这也与实际是一致的,因为 5 个混合序列确实是由 3个独立的源信号图 2-1得到的。 这种方法的验证仅限于数据维数不很大并且源信

45、号个数小于混合序列个数的情况。如果混合序列维度较大时,应采用第一种方法,即先用 PCA降维,观察方差提取比例和累积提前比例。 由这个随机模拟的分析结果可以清晰地看到,ICA有其含糊之处。 首先,得到的独立成分与源信号的顺序不同。图 2-1中的 3个源信号与图2-3中的 3个独立成分的顺序不一致。 其次,就某一个独立成分来说,它与源信号也会有差别的。差别可能是值域或者符号,或者二者兼有。图 2-3(a) 与图 1- 1(b)符号相反,同时图1-1(b)的值域是0,1而图 2-3(a)的值域是-2,2。图 2-1(c)与图 2-3(c)的符号相反,同时图 2-1(c)的值域是-1,1而图 2-3(

46、c)是-1.5,1.5。因此,在对比时要排除符号因素,然后观察图形的走势。 2.2 时间序列的ICA方法 在许多情况下,观测到的混合变量不是截面数据,而是时间序列信号。在基本 ICA 模型中,向量x的样本没有特别的顺序,可以任意排列,排列顺序对于模型没有影响。然而,如果独立成分是时间信号,则可能包含更为复杂的构造,例如,信号之间的时依性。时间序列的 ICA主要通过时间序列的自相关系7数分离出独立潜变量。 7此外,还可以利用时间序列的方差不平稳性来达到分离的目的。利用方差的不平稳性超出本文的范围。19人民币汇率的独立成分分析 2.2.1 时间序列ICA的基本原理 单个信号的不同时间点之间的协方差

47、 covxt xt 不等于 0,ii是滞后常数, 1, 2,3,则表明数据具有时依性。对于多个信号组成的向量xx,自协方差矩阵是c E xtxt 。该矩阵不等于 0,则表明信号间存在时依性。基本的 ICA中的问题是简单的零阶滞后的自协方差即自相关系数矩阵c ,x没有包含足够的参数来估计混合矩阵 A。这意味着简单地找到矩阵V 使得zt Vxt是球化的,是不足以估计独立成分的。这是因为会有无限多个不同的矩阵V 产生不相关的成分。这就是基本的 ICA中,必须用独立成分的非高斯性结构(例如,最小化用互信息度量的高阶依赖关系)的原因。 对于时间序列的 ICA,关键是找到矩阵B,使得yt Bxt的瞬时协方

48、差为零,同时,滞后协方差E y ty t 0,对所有的i, j, 。这样做的动机i j是对于独立成分s t,滞后协方差由于独立而都为零。用这些滞后协方差可得i足够得额外信息来估计模型,不再需要高阶信息。 ICA 算法也是从协方差矩阵入手的,基本的 ICA 算法通过协方差阵而AMUSE算法通过含有滞后项的自协方差阵。 通过自协方差分离独立成分最简单的情形是是滞后一个时期。在滞后一个时期的情况下获得独立成分的思路如下: z球化后得数据 ,对于正交分离矩阵 w有 wzt stwzt? st? 滞后协方差矩阵的些微修改如下: 1z z z T?c c +c ? 220人民币汇率的独立成分分析 线性和正

49、交化的关系如下: 1z T T T T s?c w E sts t ? +E st ?s t w w c w ? ?2s由于s t的独立性,时滞协方差矩阵c E stst ? 是对角阵,用 Di ss zT z表示。明显cc 。因此 c w Dw。 这表示矩阵w是c 特征值分解的一部分。 这个矩阵特征值的分解计算简单。实际上,用这个矩阵而不是简单时滞协方差阵的原因是想要得到一个对称矩阵。因为特征值分解是明确定义而且计算简单。滞后协方差阵数据服从 ICA模型时是对称的,但这些矩阵的估计是不对称的。 2.2.2 AMUSE算法 对时序数据进行 ICA 时,可以采用基本 ICA 的算法,例如本文用到

50、的fastICA,也可以采用 AMUSE算法。 AMUSE算法的基本步骤如下: 1 球化零均值数据x,以得到zt。 1z T2 计算c c +c 的特征值分解,c E ztzt 是时滞协方差矩 2阵。 z3 分离矩阵w的行向量,由c 的特征向量给出。 这种算法简单而且计算迅速。但问题是,只有当矩阵c 的特征向量是唯一确定时才可用,也即特征值是完全不同的。由于特征值由 covs ts t 给出,i i因此当且仅当滞后的协方差对所有独立成分都不相同时,特征值才是不同的。 为了修正该限制,可以寻找一个合适的时间滞后 ,使得特征值不同,但并不是总能找到这样一个合适的时滞。如果信号s t有相同的势谱,也

51、就是相i同的自协方差,便不可能进行估计。 根据时间序列数据的不同特点,可以选择不同的 ICA方法。如果数据呈现出明显的时依性,并且独立成分的自相关系数都不相同,适宜采用基于自相关系数的方法;如果独立成分的自相关系数有相同的,则宜采用基于方差不平稳的方法。如果时间序列的方差不等,最好采用基于方差非平稳的方法。对于具有21人民币汇率的独立成分分析 时依性的数据, 也可以采用基本的 ICA方法进行分析, 不过值得注意的是,由于基本的 ICA方法不会用到时序数据的时依性特征,因此其分析结果不是最优的。22人民币汇率的独立成分分析 第 3 章 人民币汇率波动潜在影响因素的实证分析 汇率一直是学界、商界和政界关注的焦点,因为恰当的汇率政策和适当的汇率浮动无论对于国内的经济增长还是国际间经济贸易都有重要影响。中国从1979 年改革开放到现在历经四次汇率改革。最终从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论