基于信息几何构建朴素贝叶斯分类器.doc_第1页
基于信息几何构建朴素贝叶斯分类器.doc_第2页
基于信息几何构建朴素贝叶斯分类器.doc_第3页
基于信息几何构建朴素贝叶斯分类器.doc_第4页
基于信息几何构建朴素贝叶斯分类器.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于信息几何构建朴素贝叶斯分类器基于信息几何构建朴素贝叶斯分类器黄友平黄友平,男,博士研究生,主要研究方向为Bayesian网络、信息几何。E-mail: ., 史忠植史忠植,男,研究员,博士生导师,主要研究领域为智能科学、数据挖掘、智能主体。E-mail: (1 中科院研究生院, 北京 100080)(1,2 中科院计算所智能信息处理重点实验室, 北京 100080)摘 要:朴素贝叶斯分类器是机器学习中一种简单而又有效的分类方法。但是由于它的属性条件独立性假设在实际应用中经常不成立,这影响了它的分类性能。本文基于信息几何和Fisher分,提出了一种新的创建属性集的方法。把原有属性经过Fisher分映射成新的属性集,并在新属性集上构建贝叶斯分类器。我们在理论上探讨了新属性间的条件依赖关系,证明了在一定条件下新属性间是条件独立的。试验结果表明,该方法较好地提高了朴素贝叶斯分类器的性能。关键词:朴素贝叶斯分类器;信息几何;Fisher分;条件独立61. 引言朴素贝叶斯分类器(Nave Bayesian Classifier)是一种基于Bayes理论的简单分类方法,它在很多领域都表现出优秀的性能12。朴素贝叶斯分类器的“朴素”指的是它的条件独立性假设,虽然在某些不满足独立性假设的情况下其仍然可能获得较好的结果3,但是大量研究表明此时可以通过各种方法来提高朴素贝叶斯分类器的性能。改进朴素贝叶斯分类器的方式主要有两种:一种是放弃条件独立性假设,在NBC的基础上增加属性间可能存在的依赖关系;另一种是重新构建样本属性集,以新的属性组(不包括类别属性)代替原来的属性组,期望在新的属性间存在较好的条件独立关系。目前对于第一种改进方法研究得较多245。这些算法一般都是在分类精度和算法复杂度之间进行折衷考虑,限制在一定的范围内而不是在所有属性构成的完全网中搜索条件依赖关系。虽然如此,寻找条件依赖关系依然需要较复杂的算法。而通过重新构建样本属性集的方式则可以避免寻找条件依赖关系,保持朴素贝叶斯分类器的简单和直观。事实上,属性构造方法一直是机器学习领域中重要的方法之一,在决策树、规则学习、神经网络等方面得到了有效应用67。Pazzani提出了一种构建NBC的方法:BSEJ算法8,该算法是基于原有属性的笛卡儿积来构建新的属性。本文基于信息几何理论和Fisher分,提出了一种新的属性构造方法,从而得到一种新的朴素Bayes分类器IG-NBC(Information Geometry Nave Bayes Classifier)。我们在理论上探讨了新属性间的条件独立关系,并对一些特殊情况进行了分析。最后给出了该算法与朴素贝叶斯分类器相比较的试验结果。2. 信息几何和Fisher分信息几何是采用(Riemann流形上的)微分几何方法来研究统计学的理论。自1975年Efron首先在统计学中采用微分几何方法以来,许多统计学家在这方面进行了大量的工作。特别是由于甘利俊一(S.Amari)9-12和ZHU Haiyu13-15等人的杰出工作,使得信息几何理论得到学术界的广泛关注,成为统计学中一个令人瞩目的新分支,并在许多领域得到了大量应用。设m维样本空间上随机变量X的概率分布(参数)簇 Sp(X |)|,其中为该分布簇的参数向量,为n维欧式空间Rn的一个开集。在p满足一些正则条件的情况下,S形成一个微分流形,称为统计流形,称为统计流形的自然坐标9。对于一个带参数的概率分布p(X |),其对数似然函数记为: (1)其中为n维欧式空间的向量。记, , 则该概率分布的Fisher信息矩阵定义为: (2)在自然坐标下,Fisher信息矩阵成为此概率分布所对应的流形S的Riemann度量。事实上,从保持充分统计量变换下度量不变的意义上说,Fisher信息矩阵是统计流形上唯一合适的Riemann度量16。与欧式空间的距离不通,该度量具有相对坐标变化的不变性,从而在很大程度上体现了样本分布的内在特征。设, 则Fisher信息矩阵I 可写为: (3)其中Ux又称为Fisher分。Fisher分作为一种特征抽取的手段,在机器学习领域得到了广泛的研究和应用791920。可以看出,Fisher分Ux把m维样本空间中的每一个点映射为n维空间中的一个点: (4) Tsuda等人认为Fisher分可以完全地抽取出样本数据的类别分布信息,并可以分离出重要的属性和无关的属性19。3. 基于Fisher分的朴素贝叶斯分类器一个m维的有监督训练样本:(x1, x2, ., xm , C),其中xi表示第I个属性,C表示类别。记X(x1, x2, ., xm),X的分布模型为Sp(X |)|,为n维欧式空间的一个开集,S成为一个统计流形。我们记样本X对应的Fisher分Y(y1, y2, ., yn),其中yi,这样经过Fisher分映射的新的样本为(Y,C)。下面我们证明对于一类广泛存在的分布簇指数分布簇,在一定的条件下其Fisher分的各分量是独立的。定理1:对于指数簇分布p(X |),在各充分统计量独立的情况下,Fisher分的各分量是相互独立的。证明:指数簇分布的一般形式可以写成: 其中为第i个充分统计量。则其Fisher分为: = ,易见:在相互独立的情况下,Fisher分的各分量相互独立。证毕。在定理1中我们证明的是非条件独立关系,事实上,在考虑类别条件的情况下,上述证明过程同样成立。从该定理可以看出,在满足一定条件的情况下,Fisher分把原本(条件)相关的属性组映射为(条件)无关的属性组。在实际应用中,常见的许多分布都属于指数簇分布簇,例如正态分布,离散分布等。一个统计试验的充分统计量经常对应于分布簇的参数,在许多情况下它们具有较好的独立性。在Fisher分映射的基础上,我们可以采用通常的办法建立朴素Bayesian分类器。具体算法描述如下:Step1:确定样本的先验分布形式。样本属性的先验分布可以根据专家的经验,也可以采用常用的统计方法或者是两者的结合来选择确定。Step2:补足数据中的缺失值。从Fisher分的计算可以看出,一个值的缺失可能导致整个Fihser分都算不出来。可以采用常用的手段来补足缺失值,例如求期望,条件期望等。Step3:应用Fisher分映射进行样本的变换。在确定样本的先验分布簇后,通过公式(4)计算出样本新的属性值。Step4:特征选择。由于Fisher分映射可能产生较多的维数(属性数),需要采取特征选择算法去掉其中与分类无关的维,而保留重要的维。Step5:对Fisher分进行离散化。由于一般的朴素贝叶斯分类器都只处理离散属性,而Fisher分为连续值,所以需要进行离散化。但这不是必需的,而是依赖于下一步采取的算法。可以采取多种常用的离散化方式。Step6:建立朴素贝叶斯分类器。完成前面四步后,我们已经获得了新的属性集的离散形式,可以采用一般的方法建立朴素贝叶斯分类器。事实上本步骤还可以采用其它扩展的朴素贝叶斯分类器,例如TAN、BSEJ等。我们认为,一个类别的样本对应于一组或几组特定的分布参数。由于Fisher分与样本分布的参数相关,因此新的样本属性能够较好地反映样本的类别。基于Fisher分构造朴素贝叶斯分类器不仅保留了样本数据中的信息,而且还可以通过选取分布簇的方式结合样本先验分布的信息。从上面的讨论可以看出,IG-NBC算法本身只是一个框架。它没有确定如何去选择样本数据的先验分布簇。先验分布簇的确定是影响该算法性能的重要因素。先验分布形式的确定在统计学中已经有了大量研究,本文不对此作深入探讨。在具体应用中,用户可以在计算的复杂性和先验分布簇的准确性中做一个折衷。4. 两种特殊先验分布的讨论4.1无先验信息的离散分布本节我们在理论上研究对于无先验信息的离散分布情况IM_NBC与NBC的性能比较。首先我们给出离散分布的指数簇表示10:设样本为(X; C ),其中X(x1, x2, ., xm)为样本的属性,C为类别标注。设X有n1个值v1, v2, ., vn。令:piProbX=vi, 即X=vi 的概率,log, i=1,2,n, i=1,2,n在Xvi时为1,其余情况为0。则该离散分布可以写作:p(X |)exp (5)其中=log,此即离散分布的指数簇表示。对该分布求Fisher分: , , (6)也即是说,Fisher分只有对应于X=vi的一个分量为1,其余分量为0。该向量综合了原样本的所有信息。那么显然容易看出该分类器的性能高于原朴素Bayesian分类器的性能。事实上,采用这种方式得到的Fisher分可以看成Pazzani所提的BSEJ算法的扩展,也就是把所有属性的笛卡儿积作为新的属性。4.2 各分量条件独立的情况不失一般性,我们分析样本只有2个非类别标记属性的情况:样本(X; C ),X(x1, x2),其中x1, x2相互条件独立。为方便起见下面的讨论中我们省去类别条件,这将不会影响讨论的过程和结果。设x1的分布为P(x1|),设x2的分布为P(x2|),不妨设、均为实数。X的分布可表示为:P( X|)P(x1|) P(x2|) (7)则P( X|)的Fisher分为: (8)易见,在x1, x2相互(条件)独立的情况下,Fisher分的各分量仍然保持(条件)独立。也就是说,单从属性的独立要求方面来说,经过Fisher分变换后建立的朴素Bayes分类器的分类性能不会比原本的朴素Bayes分类器更差。5. 试验结果为了验证IG-NBC算法的性能,我们测试了UCI数据库中的10个数据集。如前所述,先验分布簇的确定是影响IG-NBC算法性能的重要因素。在试验中,对于离散属性我们简单地采用4.1中所述方法,采用计算互信息的方法进行属性分组,从而计算Fisher分;而对于连续属性,我们一律采用正态分布。对于有缺失值的情况,把缺失值作为一个特殊的值处理。我们除测试了在Fisher分的基础上直接创建朴素贝叶斯分类器外,还测试了在Fisher分的基础上建立TAN分类模型。试验结果如下:表1:试验结果(其中数据为分类精度)DomainNBCIG-NBCTANTA-IMNBCAnneal96.2496.3296.2496.34Glass68.6582.7567.7883.96Iris91.3592.0093.6292.05Letter74.5085.6085.8385.77Mushroom94.093.4196.4593.81Pima75.5175.5275.5275.52Post-op69.8870.0070.0170.00Segment91.1693.5595.5694.05Vote90.2187.7891.9588.45Waveform76.0486.3378.1087.52从上表可以看出IM-Bayes分类精度整体上比朴素贝叶斯分类器有了很大提高,与TAN模型比也有较大提高。还可以看出经过树扩展的TA-IMNBC算法与IG-NBC算法比较并没有很大的提高,这应该是由于经过Fisher分映射,新的样本属性间已经存在较好的条件独立性关系。试验中我们发现,对于缺失值较多的数据集,IG-NBC算法的精度有一定下降,这应该是由于对于缺失太多的数据集,其Fisher分的计算存在误差。6. 总结朴素贝叶斯分类器由于其简单而又具有较高的性能得到了广泛的研究,但是由于其不切实际的条件独立性假设限制了它的进一步应用。许多学者在研究如何提高朴素贝叶斯分类器的性能方面做了大量工作。目前主要有两种途径改进朴素贝叶斯分类器,其一是放松条件独立性的限制;其二是进行属性转换,在原有属性的基础上创建新的属性集。本文提出了一种基于信息几何和Fisher分的属性转换方法,在理论上探讨了新的属性集间存在较好的条件独立性关系,并通过试验验证了该方法在较大程度上提高了朴素贝叶斯分类器的性能。参考文献:1 Langley, P., Iba, W., & Thompson, K.: An Analysis of Bayesian Classifiers. Proceedings of the Tenth National Conference on Artificial Intelligence, San Jose, CA, AAAI Press,pp. 223-228, 1992.2 Friedman, N., Geiger, D., Goldszmidt, M.: Bayesian Network Classifiers. Machine Learning, 29, pp.103-163 ,1997.3Domingos, P., Pazzani, M.: Beyond Independence: Conditions for the Optimality of the Simple Bayesian Classifier. Proceedings of the Thirteenth International Conference on Machine Learning, Morgan Kaufmann Publishers, Inc. pp.105112, 1996.4 Kononenko, I.: Semi- Nave Bayesian Classifier. Y. Kodratoff (Ed.), Proceedings of Sixth European Working Session on Learning, Springer-Verlag, pp.206-219, 1991.5 Cheng, J., Greiner, R.: Comparing Bayesian Network Classifiers. Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence (UAI99), pp.101-107, 1999.6 Matheus, C. J.: Adding Domain Knowledge to SBL through Feature Construction. Proceedings of the Eighth National Conference on Artificial Intelligence, Boston, MA: AAAI Press ,pp.803-808, 1990.7Ragavan, H., Rendell, L.: Lookahead Feature Construction for Learning Hard Concepts. Proceedings of the Tenth International Conference on Machine Learning, Amherst, MA, pp.252-259, 1993.8 Pazzani, M.: Constructive Induction of Cartesian Product Attributes. Information, Statistics and Induction in Science, Melbourne, Australia. 1996.9 Amari, S.Differential-Geometrical Methods in Statistics, Lecture Notes in Statistics, Springer-Verlag, Berlin, Vol.28, 1985.10 Amari, S. Information Geometry of the EM and em Algorithms for Neural Networks. Neural Networks, 8(9) pp.1379-1408, 1995.11 Amari, S. Information Geometry on Hierarchical Decomposition of Stochastic Interactions. IEEE Transaction on Information Theory ,pp.1701-1711, 2001.12 Ikeda, S., Tanaka, T., Amari, S. T. G. Dietterich et al. (eds.), Information Geometrical Framework for Analyzing Belief Propagation Decoder. Advances in Neural Information Processing Systems, The MIT Press, Vol.14, 2002.13 Zhu, H., Rohwer, R.: Bayesian Geometric Theory of Statistical Inference. Submitted to Ann. Stat. 1995.14 Zhu, H.: On the Mathematical Foundation of Learning Algorithms. Submitted to Machine Learning 1996.15 Zhu, H.: Bayesian Geometric Theory of Learning Algorithms. Proceedings of the International Conference on Neural Networks (ICNN97), volume 2, pp. 1041-1044, Houston, June 1997.16 Wei, B., Some invariance of statistic manifold, Application of probability statistics, Vol.3 pp.106-112 (in Chinese), 1987.17 Tsuda, K., Kawanabe, M., Ratsch, G., Sonnenburg, S., Muller, K.-R.: A New Discriminative Kernel from Probabilistic Models. Neural Computation. 2002.18 Vinokourov, A., Girolami, M.: A Probabilistic Framework for the Hierarchic Organization and Classification of Document Collections. Journal of Intelligent Information Systems, 18(2/3), pp.153 172, 200219 Tsuda, K., Kawanabe, M., Muller, K.-R. Clustering with the Fisher Score. In S. Becker, S. Thrun, and K. Obermayer, (eds.), Advances in Neural Information Processing Systems 15. MIT Press. 2003.20 Muller Sonnenburg, S., Ratsch, Jagota, A., Muller, K.-R.: New Methods for Splice Site Recognition. In ICANN02, 2002.Constructing Nave Bayesian Classifier Based on Information GeometryHUANG Youping1,2, SHI Zhongzhi1(1 Key Laboratory of Intel

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论