已阅读5页,还剩53页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术人学研究生院学位论文摘饕随蔫计算机应用及“i n t e r n e t ”的f = i 益普及,通过各种渠道获取的数据和信息正以僚久豹遮痰l 翳氏,“一f 窝瓣数撼剪1 1 澄j 稿惠”之越的矛嚣邀f 奠;突出。翔秘快速有效鹈发掇海辍僚感t t 蘩禽秘韵输俊馈,馨。合璎分菸及准确遗定餐磁篱僚怠,同辩撂弃夫繁无用的或习;相关内容。已成为知u 获取和信息过滤的瓶颈,是当今信息发展和信息处理领域的主流技术。本文蘸点时论基于机器学习的汉语文本自动分类方法。机器学翊方法的基本思想是携入豹翘淡爨 隽法班及关j j 分类浃剐对象f f , j 炎l 识竣入税嚣中,产生分类谈蘩豹魏列秘分辑程垮;瓣文本雏自动分炎鲻楚襁撰滚掰蕊剿秘分板程序对未分蹙文本进圣亍羯甑,达到分类的目的。分类器是分类系统的核心,可以通过机器学习不断泼进和完善。通过列汉语信息自动处竭! r i ,自动分词、特t i e 提取、文本自动表示等核心技术讨论,列目前汉语文本自动分词平文术降维方法小的刁:土连和缺陷作了改进,提高了分词和文本分类麴效搿嚣i 效果;在文本爨渤分类方法j :,分缓了疆争| l 寿整警麴黎予多类载汉语文本螽动分类处理方法模牵舞聚类方法拳lb o o s t i n g 方法,解决了实践中文本分类蠢全率不商的问蹶;通过对两种方法的宓验比较结果,构建了基于b o o s t i n g 方法的多类文本自动分类系统,在实际应用巾收刹了良好的效果,较好的解决了信息的实时分类问题。关键镯:多类季趸嚣学习癸溺文本# 睾维文零表示模糊聚类分类器第1 i 艇a b s t r a c tw i t ht h ea p p l i c a t i o na n dp o p u l a r i z a t i o no ft h ec o m p u t e ra n di n t e m e tt e c h n o l o g y ,t h ed a t aa n di n f o r m a t i o no b t a i n e dt h r o u g hv a r i o u sc h a n n e l si si n c r e a s i n ga taf a n t a s t i cs p e e d ,a n dt h ec o n t r a d i c t i o nb e t w e e n “a b u n d a n td a t aa n du s a b l ei n f o r m a t i o n ”c o m e st op r o m i n e n c e h o wt of i n dq u i c k l ya n de f f e c t i v e l y ,a n dp o s i t i o na c c u r a t e l yt h eu s e f u li n f o r m a t i o nw h i l ee l i m i n a t i n gt h eu s e l e s sa n di r r e l e v a n tc o n t e n t so u to fs u c hal a r g ea m o u n to fi n f o r m a t i o nh a sb e c o m eab o t t l e n e c ko fk n o w l e d g ea c q u i s i t i o na n di n f o r m a t i o nf i l t e r i n g ,w h i c hi st h em a i n s t r e a mt e c h n o l o g yi nt h ef i e l do fi n f o r m a t i o nd e v e l o p m e n ta n dp r o c e s s i n g 7 f h i sv e r yt h e s i sf o c u s e so i lt h ed i s c u s s i o no ft h ea u t o m a t i cc l a s s i f i c a t i o nm e t h o d so fc h i n e s et e x t so i lt h eb a s i so l m a c h i n el e a r n i n g 1 h eb a s i cc o n c e p t i o no fm a c h i n el e a r n i n gi st ol o a dt h eh u m a nk n o w l e d g ea n dm e t h o d sa sw e l la st h ek n o w l e d g ec o n c e r n i n gt h eo b j e c t st ob er e c o g n i z e db yc l a s s i f i c a t i o ni n t ot h ec o m p u t e r ,w h i c hw o r k so u tt h er u l e so fc l a s s i f i e dr e c o g n i t i o na n dt h ep r o g r a m so fa n a l y s i s ;t h ea u t o m a t i cc l a s s i f i c a t i o no ft h et e x ti st oj u d g eo nt h et e x tu n c l a s s i f i e di na c c o r d a n c ew i t ht h er u l e so fr e c o g n i t i o na n dt h ep r o g r a m so fa n a l y s i s ,a i m i n ga tc l a s s i f y i n gt h et e x t l h ec l a s s i f i e ri st h ec o r eo ft h ec l a s s i f r i n gs y s t e m ,w h i c hc a nb ei m p r o v e dt h r o u g hm a c h i n el e a r n i n gw h e n e v e rn e c e s s a r y 7 f h r o u g hd i s c u s s i n gs u c hc o r et e c h n o l o g i e si nt h ea u t o m a t i cp r o c e s s i n go fc h i n e s ei n f o r m a t i o na sa u t o m a t i cw o r ds e g m e n t a t i o n ,f e a t u r es e l e c t i n ga n da u t o m a t i cr e p r e s e n t a t i o no ft e x t s ,t h et h e s i sm a k e ss o l h ei m p r o v e m e n t sa n dp e r f e c t i o no nt h ec u r r e n tm e t h o d so fa u t o m a t i cw o r ds e g m e n t a t i o na n dt e x ts p a c er e d u c t i o no fc h i n e s et e x t s ,t h e r e f o r ei m p r o v e dt h e i re f f i c i e n c i e sa n de f f e c t s w i t hr e g a r dt ot h em e t h o d so ft e x tc l a s s i f i c a t i o n ,t h ep a p e ri n t r o d u c e dt w os u p e r v i s o r ya u t o m a t i cc l a s s i f i c a t i o nm e t h o d so fc h i n e s et e x t sb a s e do nm u l t i c l a s s i f i c a t i o n ,i e f u z z yc l u s t e r i n ga n db o o s t i n g ,w h i c hs e t t l e dt h ep r o b l e mo fl o wp e r c e n t a g eo fr e c a l l f h r o u g hc o m p a r i n gt h er e s u l t so fe x p e r i m e n t sw i t ht h et w om e t h o d s ,a na u t o m a t i cc l a s s i f i c a t i o ns y s t e mo fm u l t i - c l a s s i f i c a t i o nt e x t si sc o n s t r u c t e db a s e do nt h eb o o s t i n gm e t h o d ,w h i c hr e c e i v e dg o o de f f e c t si na p p l i c a t i o na n dp r o v i d e sag o o dr e s o l u t i o nt ot h ep r o b l e mo fr e a l t i m ec l a s s i f i c a t i o no fi n f o r m a t i o n k e y w o r d s :m u l t i c l a s s i f i c a t i o n ,m a c h i n el e a r n i n g ,w o r ds e g m e n t a t i o n ,t e r ms p a c er e d u c t i o n( t s r ) ,t e s tr e p r e s e n t a t i o n ,f u z z yc l u s t e r i n g ,c l a s s i f i e r 第1 1 1 页独创性声明本入声镄搿羹交戆学位论交是裁零入在导癖稽导下遴行戆研究工作及取得的研究成果。尽我所知,除了文中特别加以标往和致谢的地方外,论文中不包含其他人已经发表和撰写过酌研究成果,也不包含为获得国防科学技术大学或其它教育移l ;橡的学位或证书而使用过终专孝辩。与我一阋王作的阉志对本磷究所做热任何贡献均已在论文中作了明确的说明井表示谢意学像论文题嚣:坐l 垒墨二k 盖:盘曼+ 蕉:幺:随垒量羔羹:垒学像论文题嚣:盗l 鎏益二k :,莲:盘+ 蕉二基:随全主羔羹盛7学俄论文作者签名_ 掘斑避一日期:- ,一c ,年月,日,|、学位论文版权使用授权书本入宠全了髂医跨癸学技术大学凑美缳磐、使鼹学位论文戆燕定。零久授权国防科学技术大学可以保留并向国家有关部门战机构送交论文的复印件和电子文挡,兔许论文被蠢阕和倍阕;可瑷将学位论文的全部或郫分肉容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密学位论文在解密后适用本授权书。)学伎论文题融二喜2 譬2 正立立支鱼楚量垒垒兰牡学位论文作者签名:;! 盛电日期:t ,f t7 年f 月,7 日终喾稽导数辩签名:二商啦西期:“夏年产i 舞2 z 强闲防科学技术火学研究生院学儡论文第一章绪论1 1 文档自动分类概述随着信息存储技术和通信撩术的飞速发展,大量的文字信感开始醵计算韦j l 耐读形式存在。尤其是近年来随麓国际互联网( i n t e r n e t ) 技术的发展,w e b 已经成为拥有儿一卜亿页面的分布式信息空间,而臣这个数字仍以每4 至6 个月翻一番的速度增加。可以说,我们疆处在一令信息极大丰寓耐知谚 桐对殴乏f i j “信息爆炸”时代。如何在这蝗大量、舜质的海罱信息资源f | t ,快速有散的笈糯蕴禽的具有巨大潜存价值的有用知谚 和信息,台理分类及准确地定 证所嚣信息, t i i d 撅峁人聃尤圳的溅不棚关内容,已成为矧珏 获取和信息谶滤的瓶颈,是肖今信怠发展乖玎裔怠处鹫e 领域的主流技术。文本自动分类( a u t o m a t e d + l e x t c a t e g o r i z a t i o n o r d o c u m e n t c l a s s i f i c a t i o n ) 是指根据预先定义的主蹶类别根据一淹的规则将文档集合中未知类别的文本自动确怒一个类别。涉及数据挖掘、计钰枫语毒学、信息警、人l 智能等多个学科,越自然语毒处理的个重要应用领域。文本自动分类目的燕通过将大量文本进行快速、有效的自动归类,达到信怠定位和信息过滤的羁标。自动分类研究始予5 0 年代求,t t p , l u h n 舀:这领域进行了开创往的研究。1 9 6 0 年,m a r o n 程j o u r n a l o f a s m 上发袭了有关自动分类的第一篇论文o nr e l e v a n c e ,p r o b a b i l i s t i ci n d e x i n ga n di n f o r m a t i o nr e t r i e v a l ,随聪许:多著名的情报学家如k s p a r c h 、g s a l t o n 及r m 。n e e d h a m 铃都在这一领域避行了枣有成效的研究。到聂魏,自动分类在圊外经历了三个发展阶段 第一阶段( 1 9 5 8 1 9 6 4 ) 主要进行自动分类的可行设研究,筇二阶段( 1 9 6 5 1 9 7 4 ) 进行自动分类的实验研究,第三黢段( 1 9 7 5 至今) 进入实用化阶段。但憝直到8 0 年代初,在文本分类方面占主导地位的一直怒知识工程的分类方法,即是出专业人员( 专家) 手工编写分类娥则来攒导分类。随着计算枧软硬枣 技零和通信技术的高速发展,带动了信息领域的革命,人类真正谶入一个信息社会。大量如现的倍感不仅增加了对予快速、自动分类约遗垅露求,也为蒸予机器学习的囊动分类方法准签了充分的资源。在这种情况下。机器学习已经取代知淤工程成为文本信息的主要技术手段,自动分类方法也逐濒代替了知识 二攫豹分类方法。机器学习的基本原理是通过对预知的感兴趣的内容的“学习”,自动提取文本特征信息,构建分类器,最大限度嬲减少人工于颈。辐对予应用知识王程的分类方法,弱枫鳃1 页国防科学技术人学硼究生院学位论文器学习构建分类器,不仅可以大大提商整个分类系统的效率,而且在某种意义上说,由于减少了人为的干预,不需要具有专业知谚 的人员,也提高了分类系统的可靠性。目前,国外在文本信息处理方面进行了大量有益的尝试,在自动拼写检查等方面技术已相对成熟,在语法检查等领域也取得了长足的发展,在文本分类、聚类、词义澄清、文本摘要等领域也有许多研究成果和实用性强的系统。在我国,自动分类研究工作始于8 0 年代初期。大体上经历了从可行性探讨一辅助分类系统一自动分类系统三个发展阶段。1 9 8 1 年,侯汉清先生首先对自动分类进行探讨,从计算机管理分类表、计算机分类检索、计算机自动分类、机编分类表等四个方面介绍了国外的发展概况。到目前,我国有很多著名的大学和机构在自动分类方面作了大量的工作,也出现了一些研究成果和学术论文,尤其是在汉语自动分词方面技术相对成熟,在汉语自动校对方面有较好的应用系统。但总的来说,由于中文与英文存在较大差异汉语文本自动分类的研究总体来说滞后于国外西文自动分类的研究。虽然在某些应j 1 j 领域如汉语文本的分类、聚类、摘要等方面进行了一些研究和探讨对于分类系统的完善和应用仍需大量的工作。进入9 0 年代以后,由于人工智能技术的不断成熟,研究者开始把专家系统技术引入到自动分类领域。专家系统是一种在某特定领域以人类专家的水平去解决该领域问题的计算机程序,一般由知识库和推理机两大基础部分组成。知识库储存了从专家那儿获得的关于某领域的专门知i : 。推理机具有推理的能力,即根据知识推导出结论,而不仅仅简单地搜索现成的答案。币冈为专家系统的这蝗特点,使其在自动分类领域具有良好的应川i j u 景。近年来,一种决策委员会的方法门旋流行,这种方法是基于这样一个思想:剥一个需要专家知识介入的任务,s 个独立的专家的判断经过适当合并比他们其中一个人做出的判断要好。而在文档分类i f l ,指i 】s 个不同的分类器同时判断一个文本的类别,然后对判断的结果适当合并,作为个完粘的决策判断依据。随着自动分类技术研究的不断深入,使该领域受到越来越多的关注,得到了较快的发展,不断f j 新的成粜* n 现,已 皮广泛川j 。点息榆索、机器翻砰、自动义摘、信息过滤、新闻发椎、i ur i l l j 什排序、uj 二蚓1 5 1 f 等力i i i ,是纰织羽l 管理数枷m 0 有力手段。国外较为成功的系统有麻省理学院( m i ,1 ) 为r 1 ”发的i i i l l f l :分类系统,卡内基集团为路透社”发的c o n s t r u e 等:i i 司内则钶糸人学的c l d c s 系统上海交火、清华大学的自动归类系统等。第2 页国防科学技术人学研究生院学位论文1 2 文本自动分类的原理文本的自动分类可以描述为如下过程:提取文本特征,将文本表示成为统一的标准方式,使用分类器( c l a s s i f i e r ) 判断文本所属类别,分类器是分类系统的核心,可以通过机器学习不断改进和完善,包括:增:f j l l 、更新类别和知识( 训练分类器) 。1 2 1自动分类的定义对于样本库、样本库中的训练文本和测试文本、预定义类别、待分类文本集( 文本论域) ,本文采用如下的表示方法:预定义类别:c 个不相交的类构成的类别集合,记做c = c ,c :,c 。) :样本库:所有已预分类的文本集合,记作巩= ( 叫,c 。) ,( 以,g ) ) ;其中( 矾,c j )为文本样本,表示矾属于c ,类,c ,c ,c j 可以只是c 中的某一个类,也可以是c 中的多个类,也即以。可以属于类别集合中的多个类:训练样本集:用于机器学习构建文木分类器的训练文本集,记作7 ;= ( d :,c 1 ) ,( 以,q ) cd ( ,;测试样本集:对构建的分类器分类性能进行测试的测试文本集,记作? := ( d o + ) ,( d i ,( _ ) ) _ 以,一7 j ;d = d ,d :,d 。) 和d = d :,d i :分别表示包含”个文木的待分类文本集和h个已预分类的文本集,其一i ,d 。表示待分类l 丫1 个文木,d :表示已预分类的单个文本;西= 蟊,磊,瓦 和西= z ,孑:) :分别表示经预处理和数字化后的文本特征向景空间:特征映射r ? 将文本映射为特征空f 1 j t l l 的一个特征向量,记作d 。( d ) 一西( 孑) 及d ( d )一d ( 孑) ;类别映射7 :已知的映劓,预分类文本集小的文本和类别间的映射,记作d r ,一c 。定义一:文本分类是给出映剩r ,r 以此为攮础,使用r 、r 、d ,、c 构造映射h :d = d l ,d :,以) 一c ,使得与7 尽可能地接近。分类的目的是提出一个分类函数或分类器,该模型能把未知的文本按建立的规则映射到给定类别中的某一个。要构造分类器,需要有一个训练样本数据集作为输入,从训练数据中为相应的类别提取分类的依据构建分类器,训练数掘是预分类的一个文本集,主要包括属于某类另u 的文本,称为j i i 例( p o s i t i v ee x a m p l e s ) ,有时还包括不属于该笫3 页囤防科学技术人学究生院学协论文类别的文本,称为反例( n e g a t i v ee x a m p l e s ) 。崩e 还需要一组顶分类的测试样本数据作为分类器输入t ;,刘已掬建的分类器进j j r l :能测试。构造分类器的方法有统汁方法、机器学习力7 j i 、神经网络方法等。分类的实质就是建= - ,:个如表i 所示的判决矩阼,其一”a 。= o r l ,埘1 果a 。= 0 则巩茌c ,t 即d k 是c ,的反例:反之,如果o p = 1 ,则d i c ,也即d k 是c ,的j f 例。d id d 。c l订l ia l kq 。c ja j ia j k口,。c c( ,r id “口州袭1文本分类判决矩阵结构1 2 2c p c 方法和d p c 方法在文本分类过程中,根据文本判决矩阵按行和按列的求值顺序不同,可以分为两种不同的分类方法,如果每次分类任务时先得到判决矩阵中某一列的值,称为以文本为中心的分类方法d p c ( d o c u m e n t - p i v o t e dc a t e g o r i z a t i o n ) ;如果每次分类任务时先得到判决矩阵中的某一行的判决值,则称为以类别为中心的分类c p c ( c a t e g o r y p i v o t e dc a t e g o r i z a t i o n ) 。在t , i i j 的场合分别应用两种不同的方法。d p c 主要用于类别要素相对固定,而文本则相对易变,d p c 又称为实时分类或在线分类系统。而c p c 则往往是如何在给定的已完成c = c l ,c :,c 。) 类分类任务的文本集中,分类或挖掘出符合我们要求的c 。类信息,主要应用于知i : 发现和数据挖掘等领域。在实际工作中,往往是需要在大量未知的文本中发现或分类出已知的我们感兴趣的信息,所以相对于c p c ,d p c分类方法得到了更广泛的应用。1 2 3 单类单标鉴和多类多标鉴诚然,对于相同的文木,无论足采川人1 i 分类方法或者机器构建分类器分类的方法。都可能会有不同的分类结果,尤其足刘r 避! 特征不是很明显的文本,分类并没有一个确切的标准。由 :在很多情况f ,。个文木可以归到多个类,所以在训练文本和未知i 文本的类标鉴信息,尤其是在线分类系统i f i ,常采川多类多标箍m c l ( m u l t i c i a s s i f i c a t i o na n dm u l t i - l a b e l ) 的文木类别表示方法代替i 丫i 类i 丫l 标黔s c l ( s i n g l e c l a s s i f i c a t i o na n ds i n g l e l a b e l ) 的文木类别表示方法,可以得到更符合实际的效果。m c l 体现在判决矩阵中就是任一列可以有多个等1 i1 的判决权值,而s c l 判决矩阵则任何一列中最多只能有个等于l 的判决权俄。围防科+ 技术人# 研究生院学位论文单标鉴分类器和多标搭分类器的i 爻:别存j i 建湖n 标签分类器,各个类之间可以看成是独立:不相关的,而建立多标髂分类器往礼需要考虑类间的相互关系和影响,因此后者的构建, h x , j 复杂。1 2 4 分类器性能的评价不同的分类器有不同的特点。有三种分类器评价或比较尺度:( 1 ) 预测准确度:( 2 )计算复杂度;( 3 ) 模型描述的简沽度。预测准确度是用得最多的一种比较尺度,特别是对于预测型分类任务。而计算复杂度依赖于具体的实现细节希1 硬件环境。评价一个文本分类器的分类准确度常用查准率p r ( p r e c i s i o n ) 和查全率r e ( r e c a l l )来衡量。定义二( 查准率) :文本分类查准率定义为已分类文本中所包含的正确分类的对象所占比例的大小。定义三( 查全率) :文本分类查全率定义为已分类文本中正确分类的对象数目占所有实际存在满足分类要求的对象的比例。c 类的文本查准率和查全率可以有以下公式来估计:p r 竺堡( 1 1 )= 上一()jt p ? + f p ?胎j 2 赫f n“2 ”+其中玛为给定的文木 # , t j i l 集- i 经分类器分类后能正确分类的属于c ,的文本数;f p , 是测试集t 中不属于c ,类而由于分类器误判给c ,的文本数;川是tc p n q :c ,而分类器未能正确分类的文本数。1 3 基于机器学习的文本分类方法1 3 1机器学习的定义为让机器具有分类谚 别功能,如同人类| ! ! :| 身一样,人们应首先对它进行训练学习,将人类的知识和方法以及关j :分类谚 别对象的知识输入机器中,产生分类以别的规则和分析程序,这个过程【乜叫机器学习。定义四:机器学习过程是用已知的映则t :7 :一c ,采用某种机器过程构造出一种恰当的规则,j f :为映劓:d = d 。,d d 一( 1 的建立提供决策依据。机器学习的过程般要反复进行多次,不断地修j f 错误、改进不足,包括修正特征提取方法、特征选择方案、判决规则方法及参数,最后使系统j f 确识别率达到u 别要求。修j i i 过程r l ,话采j l j 测试集7 :刘分类器的测试结果作为修j f 依据。目前,机器的学习第59 嘲防科学接术人学硪,生院学位论文纛葵入 二于该,这个遗穆通常跫入 = ;l 交甄鹃。年l l 采用知u h :辊的分类办法干比,机器学习方法最大的优点在于能自动构建满足定精度的分类器,i i ih 随莉类别的改变或住务的变更,通过学习可以即时更改和修正分类器,不需要太多的人为目炙,也不需璎舆存很强专业知泌的人员。随着机器学习技术豹遴步,采躅穰器学习强动褥建分类爨的方法季纹是在分类效率上,雨;叠分类黪壤在一定程浚都饶 久l :分炎方法。1 3 2 机器学习常j 1 j 的方法翻i j 较为常用的机器学习方法有:( 1 ) 规则归纳。舰则反映数据r | 1 某魑耩睫或数据集中某然数据项之闻的统计棚关+ 陡。关联褒慰鞠。般形式为x , a x 。等r i o ,s l ,表示囊x ;a a 蜀可潋预测款筵霹信波为c ,支撩度为s 。( 2 ) 决策树。决策树的每个非终结节点表示所考虑的数据项的测试或决策。一个确定分枝的选择取决于测试的结果。为了对数据集分类,从根节点开始,根据判恣自顶向f 。趋向终结点或叶轱点。当到达终结点时,则决策树生成。 ,或怒这瑟耱基本类囊戆交体或缀合。冈为词的划分习;足绝列f i q ,麻陔和犯个句法的框架内识别区分,所以从分涮的结果柬囊,竣义锈分亨羧逐;i j 以分为羹lf 疆炎:第类楚其鸯确定分法熬竣义字段;繁二二类是艇有不确定分法的歧义| = 7 j 分字毁。这q l 所说的确定和不确定。是对要进行分词的一个片+ 潺来滢戆。解决歧义的策哜可| j : 结为= j 类:- ;i i l ;j :规则、糕于嗣频、基1 :隐m a r k o v 模拟。基l :艘l j ! t j f 致l 歉7 久l 糍戆秘分寰系绞鹣懋怒, 1 4 j , j ;璐麦、疆义蕊瘸舔 添法、添义瓣瓣逡行分嗣判断。山r 汉语解析存北闲境,这种力法j l :;l c 实川。然于词步砸叫抽象为两点之问最舞薅经嗣羧( 强;t l :褡点列麻叼于静像嚣、边对疯像嚣之潮瀚溺,逑静陡液对癍i 蘧簇) 。基1 j 嗣频构建的分涧模型匙个零阶m a r k o v 模型缺陷谯j :刁:能关联j :f 文信息。基予狳m a r k o v 褥模漤遗渡戮蹬戳h 豫擒造浚羧疆豹主要参数一一穰鼋夏转移衿跨辩,由于汉语嗣屉:怍常丰富( 常j 1 j 硎在5 0 0 0 以_ j :) ,训练和存储时存在问题,一般采用词的语法稼避静m a r k o v 模垄( 掰班称为貔m a r k o v 摸糖) 。攘凝求惩识司努绪为有囱黼滔点最优路径问题,“嗣”列成1 7 点,语法标砒对应边,边的i 蠡度对应相关标泡的条件概率;谣懿路径扩震为落法糠范翡路径。本方法麓清、稳匀,簸瑷灵活、一致,避免了翁两萋孛方法的缺点;而且统计数粕从语料库获墩,系统有一定自学习功能。1 4 。3 文本表示帮穆征提取文本表示是措以一定的规则和 惴述米表示文本或文本类别,在分类时用这魑规则翻糖述评徐未知交本与给定文本炎豹秘钕程浚。文本表示模鼙有多秘,鬻溺鹈蠢:粕尔逻辑型、向量空间型、概率型以及混合数溅等。特,征摄联通嘲骰特镬窆闻繇雏t s r ( q e r ms p a c er e d u c t i o n ) ,就是程不影桶分类效果的前提下从原特征全集中选取尽愿少的能体现文本特征的特征子集来袭示文本,以减少分类算法鹳复杂度,提藏分类躺效率,跫文本类共往与舰烫| j 静瓣维过裰。实验诞实在第g 页国防秘学技术大学磺究生院学位论文谶行降维处理以后,分类效果会有一定程度( 5 ) 提高。蔽蠢特征德获敬方法稳焉:溺,可分为两耱:特征选取:选h j 的特= i = 德是原特征集的予集。特征选取的一种办法怒包方法( w r a p p e r ) :先绘是一个视始祭,通过不叛对集会r | t 斡元素进行增秀e 戏删除,然磊在文本验证集中进行测试,找出聚类效果最佳的集合;另一种方法是过滤( f i l t e r i n g ) 方法。全局t s r 通常采用这种方法,用评价函数对特征全集中的元素“重要性”进 亍衡量,撬蠢耱合要求翡特,簸颈。特征拙取:特征抽取方法也称为参数熏胃抽墩的特征值通常不怒原特征集的子集,露是将原特疑集中驰元素通避一定瓣合磐嫂剿或转换方法缮至特短嶷。特廷热敬主要套两种方法;特征聚类和潜在语义索引l s l ( l a t e n ts e m a n t i ci n d e x i n g ) 。特征聚类日的在 i 根据定的j ;! l ! 则将1 7 义棚关的单嗣聚成一群,然后蹦瓣( 或中心词) 来 替文本矢茕r 扣其它意瓣鞠嗣或矧近的司。涌聚类岛特征值选取是不同的,翦者怒通过同义词或近义词等带有语义特性的分析剔除冗余;而后者在于评价函数权值剔除与文本内容无关熬擎谣。潜在语义索引l s i 可以肴作是一种扩展的向罱空间模型,它利用统计计算碍出的概念索引进行统谴检索,丽区别1 :l g 统的字涮索g i 。l s i 基于这群。个思想:文本库中存在豫含鹃关于 司使粥鞠语义绣构,这些结构由于部分的被文本中词的语义和形式上的多样性所掩黼丽不l j 鼹。l s i 通过剥原文水库巾的词一文本矩阵奇异值分解i = 卜算,并耿前k 令最大熬惫舅 蠡及惫舅矢爨褥残一令糇矩终必返 竣表示骤文本瓣潮一文本蹩簿。薮缒阵消除了词与文木之州的语义关系的模糊度。神:义本分类t | 1 t 从训练集r l j 取得到影射函数, :应用到测试文本,从弧t k 成低维的文本表承。l s i 的一个与特套e 选取和词聚类不弼豹一个特点就是文本 ;i l 聚表示瀚嚣个分聚是”j 以解释的。通过语义分桥建立丽义词、近义词或多义词之间潜在语义结构模型, :最终通过该模型达到文本降维的目的。一个蠢效鹣特缝矮集,必须其惫黻f 特鬣;( 1 ) 完全性:特征项能够体现目桥内容。( 2 ) 区分性:根据特撼项集,能犍h 标剃其它文档掴区分。( 3 ) 精炼性:特征矢爨的维数应该尽可能的小。1 5 本文鲮主要痰容及结梅本论文对基予多类的汉谬文本自动分类方法避行了论述,重点怒 究了蒸予模糊聚爨算法和蕊于b o o s t i n g 算法的汉语文本自动分类方法,并对两种分类方法作了相应的对比,构建了基予多类的t 1 1 文文本自动分类系统,在实际中收到了良好的效果。全文共分絷lo 页国秘秘学技术大学研究生院学傍论文六章。第一濑对文本蠡动分类技术静笈藩 海况蔽及文本处鹫的关键技术进行了简要分绍。以此为背景,介绍了汉语文本分类的特殊性及处理方法。第二逝针对汉滔文本是幼分类的特殊性,对汉语训绦文本懿琰处理 乍了谬缨数讨论。汉语训练文本的预处理爨汉语文本分类器构逵的基础,汉语训练文本的预处理效果瞧接影响汉语文本分类的精度和效率。第三露罄重讨论了基予模襁聚类算法的中文文本是韵分类方法。通遥对分炎调练文本的特征摁取。构建类别的特征信息;采用模糊聚类算法得到未知类别的中文文本相对予各个类豹隶鼹度,缀挺刿决权 苣可以垮文本分戮潢是条传静多个类中。奉章楚论文鲍核心内容之一。第四意着重讨沦了撼l :b o o s t i n g 辨法的中文文本自动分类方法;同时根搌实验结莱,合理逡取调练送代次数麓参数,馥便籍法达到最饶。b o o s t i n g 算法是近年来眈较流行的基于决策委员会的分类方法相比数它的分必器算法脊更高的分类精度。本章是论文瓣核,0 恣骞。第五漆是对前i i i i 提 1 j 的两利t 分类方法构建的汉语文本分类器的性能比较和测试实黢,根据实验数据,得出了两种分类方法比较厥的般性续论。第六窜为基予毫 l 器学习的实际汉谱文本自动分类系统,主要介缁了系统设计的主要恩路和基本框架,叶i 文文本分类器的构建錾1 :b o o s t i n g 算法,在实验中收到了良好的效鬃。这一露是l 囊嚣磺i 沦蟊技零茨 搴王燕。最后在结束谮巾剥本课蹶的研究:“1 ;_ 全i f i i 的总结,简鬻概括了本课题研究取得的主要成绩,并提出了进。步的研究汁划葶目标。第1i 页国防科学技术天学研究生院学位论文第二章汉语训练文本的预处理汉语训练文本躲颈处联在文本鑫魏分类系统t 是一令必不可少熬重螫环节,鞭醚瑾的效果直接影响到文本分类器的构建和文本分类的效果。对汉语训练文本的预处理主要毽摇汉语蠡动分试、努翊e 扣歧义瓣淡狳、汉语文本毂特征提取弱! 专链兹錾凌表示f i n d e x i n g ) 、训练文本类特钳珀0 数字化等。文木的特征提取( 降维) 减少计算复杂性,撵舞分类训练效果,避免避疆醚溺蘧。汉语文本分词方法可以分为基于词表( 词典) 的切分方法和基于概率统计的切分方法。下嚣讨论嚣耱典型分谣方法;蕤予词袭瓣最大燕囊疆聚法秘邋囱匹蠢0 法捐缭合静分词方法;慕于e m 算法的自动分词方法。2 1 基于词典的汉语文本自动分词其于词典的分词方法又叫机械分词方法,其撼本原理是查字舆进行匹配,褥辅以一定瓣竣义到茏( 鼗义字段楚瑾在2 3 节余绥) 。多数毒莛械分词可敬由模登d a m ( d a m )形式化描述,d e d = “1 , - l ,+ 1 是j f 向,一l 魑反向;d a = 十1 , - 1 ,+ l 是增字,一l 是藏字:m m = + 1 , - 1 ,+ l 楚最大莲酲,一l 是最小匹配。下瑟是一联t 基予双囱扫描匹配的中文分词方法。2 。1 。1 分谣遴裘维稳汉字的编码体系由区位码、内码及交换码等( 它们之间存在一定的映射关系) 构藏,磊藩 卡舞瓤多戳逡疆形式来继理中文。汉语弼跫一个 开放集,确韬数嚣至今缀难弄清,不同字作酋字时词的个数相差蕻远,多的达数百个( 如“打”、“花”等) ,少的仅一个或者没有,考纛到巾文静这骛特点,鞲为了提瓶电子 两表翡鸯找效率筹h 存储翻羽率,我们以嗣的两”# 作为索0 i 。所仃以该 为n 的i , i l 条组织孙:一起,其增、册4 、修改等数粥探佟郝锻方餐。淘3 淹溺表f j 数裕缩鞠形式。其中n :指向所有翁字为i 个汉字c c ,的词条指针;,p 请:撩淘藩字为c c f 的第女个蠲条鹃指锌:f :荫。# 为c o , 的第k 个两( i 川条按内f i f 5 j i | ! ; j f 从小到大排列) ,不包括莳字:a 洲弼 的秘髓( 包旗价值、暖义、侮住、溺髑:等) ; :字( ? ( j 的索引项,i i7 个宁饥儿l l i ,:茂字为c g 的例的数联,? j :c c f 词r 私瓣最长溺鹃汉字宁符个数,舫g :楚辛i 甲独浅澜标志:鎏鎏銎兰鎏奎盔兰鎏銮尘鎏兰釜篡圣幽3电予词擞托内存r 】n 勺数据结 - ;! j铡如,逮表r p 艇蠢鞋“电”字,f 头的溺为f 毡舷、电疆、电视、魄援接收搬、电子、泡视机等1 4 1 个,最长词的汉字宁符个数为5 个,其在内存中的逻辑袭示如图4 所示:隧4 闻表绱拗示铡2 1 2 最大正向双配法最大正向匹配法又叫m m ( m a x i m u m m a t c h i n g m e t h o d ) 算法,其目的是将最长的笈合词分蒜出来,箕鏊本悉懋怒:蓄兔秘瑶h a s h 方法,攘摇当蘸字符串中蓠个c 舀算出 的地址,根据词液结构巾荧于该词的最长词的字符个数n 2 ,用被处理文档的当前字褥串;争的藏啦个字符l 乍为匹懿字段,对词表进行二分查找。若诞表中存在这栲的一个m 字词,则匹配成功,匹配字段作为一个词切分出来。如果词表中找不到这样的个m 字词,则匹配失败,将匹配宁段巾的墩后一个宁去捧,对剩下的字符串重新i ;! 行查找懿理,翔魏送行下去,鲞翔查我戏功稠分i 珏一个诵或剩余字耱窜豹长度为零为丘。这样就完成了轮查找。然后将匹配成功的词后丽的字重新作为新的c c i 首字,重复上覆鹣工馋,妻到文愁拔拯攒毙为。由于汉语词以二字词所占的比例最大,当每次切分扫描只剩下两个汉字时,先查找词表索引颁巾的f l a g 位,如果酋字不单独成词,则结束查找,直接将这二个字功分成词,这释司减少查找和匹配次数,提高簿法效率。2 1 3 逆向最大匹配法逆囊疑大篷配法又舔为r m m ( r e v e r s em a x i m u mm a t c h i r l 鸯雾法,萁基本滠瑾窝最大难向匹配法栩硎,不同的魑分嗣i ;j :j 分的方向与m m 法相反,并龃使用的分嗣词表也瞬醵科+ 接术大学研究生院学位论文i i刁;同。逆向最大匹配法从被处璎文档n 0 术端,l :始弧配扫描,每次耿米端的m 字词作为鸯我疆0 谰,若隧黼失敷,刘去掉最i i s i t i i f i 9 一个宁,继续鸯找。籀应缝,它r m m 算法使用的是逆序涮表结构,其中的倚个嗣祭都以逆序方式存放。在实际处理时,先将文档铡搀处理,生成逆序文稿,搬援遂 = 溺褒,采弼m m 算法处理鄹可。拥统汁,r m m 鳟法比m m 辨:法n 误荐要小。例如切分字段“硕士研究生产”,m m算法的切分结果为“硕l 研究,l :产”,i l i fr m m 钳法利用逆向扫拂,列+ 得j f 确l ! i j 叨分结巢“硕主例 究,尘产”。2 1 , 4 双向拘挑法为芗提裹糖浚,笈残分溺竣义,系绞聚羽m m 箕法秘r m m 雾法鞠结合弱双囊扫批方法。飙耩本原理足将l 州u j j lj i f i ( i j , l lj jm m 方法进行一次切分) 和逆向扫描( 即r m m力。法进 j :的功分) 的结果进 比较,髓靴矗法皴的词语可以汰为憝捱确切分,盘i t 果不”1 致,j i i l 按切分醢义字段处斑。2 ,2 蒸予巍棼法鳇r 分文文本自动分弱基予统计的r p 文分嗣方法大多采j l l 一一定的锯法对语料库进行分词洲练,统计得到语嗣库中所有词i j 现的概率,根据建立舶词概率模型对文本进行分词。基于统计的中文分词方法刁i 需要嗣欺,实现比较简堆,而且训练的语料往往有针剥憾,所以较多的应用在一些对分溺耱凄蘩求不囊,专1 2 踅i 爨麴系统;l t 。2 2 1 概率模型本算法是一秘纂于统计的分词算法,它基于词的概寒构建汉谣分词的概率模型。簿法基予以下假定:( 1 ) 为1 ,2 ,k ( 虫k = 4 ) 涧的数最( 即使是a b 常大的) 是有限的:( 2 ) 每个谣爨商一拿来翘瓣出筏概率;( 3 ) 词相互独立,即两个词同时出现的概率仅与各自的出现概率有关。给定调的出现概率,报铡最大似然原则m l p ,一个匀予分成列语磁,须使n p ( ) 最大,其中p ( ,o ) 魑词,t i 的出现概率。根据m l p ,如果已知二元组集 ,j 口( ) 就可以对文本进行分词处理。本模型霹瑷看 睾楚h m m ( 零输隐m a r k o v 模登) ,e m 箨法采取一耱特殊懿软诗数方法诵练模型。2 2 2e m 分遴嚣法e m 分词算法舆体实现过程如下:( 1 ) 对来功分文本中l l l j 每个句予:使j f j 当f j i f 词的概率值i 十算德个可能臼j 分的可国防科学技术火学研究生院学位论文能性:对切分可戆瞧送行“羟一化”处溪秀“尾数”( f r a c t i o n ) ,楚茭秘为l ;砖每耱韬分进行词计数,即将切分的“尾数”加到词数上。( 2 ) 使用词数鼹新词的概率: 掰是爨一亿嚣数,楚句子联鸯露缝臻分豹可戆毪躯帮,等予s 鬟。s p ,s 矽使用动态程序计算。如,s y 的递归函数为:s =i = l :i = 2 :( 2 1 )i 2 :第一谪从左到霸扫描计算,( f = l ,h ) 得到口- s , + “t 。然后从右向左掴描计算s t r g h t = 摊,1 ) ,隧时褥出每个词的数爨。词p ( w )新的词数一c 芝3 e - 7黟切分当前切分可擎箍“尾数”c 2c l a c 2 a 迟磷、c 3c i a c 2 c 3;。s o c 寿6 0 l :t c i c i a c 31 2 0 。访唧0 4 9 译喵c l 妫e ,女嗡蠢0函够矗乏乏2 更新词语概率强5e m 分词莽法蜜现蓬够,s)cc(g(,p舛;爪里堕型兰苎查查兰竺空尘堕兰垡笙圣2 2 3 两种分词方法的比较两种分词法的分词性能见表3 。分词效率用切分一条词的平均时间复杂度来表示。基于词典的最大正向匹配法和逆向匹配法相结合的分词方法,精度较高,但仍有少量的歧义词存在,需要作进一步的歧义处理,而且词典结构和算法都比较复杂,常应用于分词精度要求高的系统中。e m 分词算法通过在一个1 0 0 m b y t e 的生语料库上训练模型,算法的查全率与查准率分别为6 5 6 5 和7 1 9 1 。研究发现大多数分词错误来自2 0 个单字符的助词( “的”等,与其它词常常同n 寸出现以至于算法难于区分它们) 。经过一个简单的预处理,将少量的这类词与别的词分7 r ,分词处理的查全率和查准率都得到了提高。e m 分词算法有不使用词典、算法比较简洁的优点,但分词精度跟训练语料有关,而且分词效率很低,用于一些分词精度和效率都要求不高的系统。分词系统查伞牢凡( )矗准t 术n ( )切分效率软计数6 56 57 l9 l2 ”一l( 经过顾处理)9 36 39 l0 5綦 :词典9 97 29 68 71 2 3 2表3 两种分词系统性能比较2 3 分词中的歧义字段的处理2 3 1 歧义字段的定义自然语言本身固有的j 二义性导致词语切分歧义的存在,错误切分率就是词语切分精度,分词系统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 定制快餐桌椅合同
- 简单保证借款合同打印
- 房屋代理包租合同简易模板
- 简单超市租赁合同范本
- 中考物理复习专项多选题组1课件
- 高考总复习英语(人教版)随堂巩固训练选修6Unit3Ahealthylife
- 13水的浮力(原卷版)
- 1.1地球的宇宙环境课件高中地理人教版(2019)必修一
- 天津市静海县第一中学2017-2018学年高一4月学生学业能力调研测试历史试题(合格类)
- 第18讲构词法(练习)-2024年中考英语一轮复习
- 高中有机化学综合练习题(附答案)
- 涂料涂饰施工质量验收评定表
- 产品标识控制程序文件
- 提高内镜中心内镜洗消合格率PDCA
- 建设工程质量管理手册
- DB32-T 3904-2020电动自行车停放充电场所消防技术规范doc-(高清现行)
- 园长思想政治鉴定范文(5篇)
- 卫生系列评审高级专业技术资格答辩题解(神经外科)
- 2022年工程项目技术管理人员批评与自我批评
- 幼儿园PPT课件:数与运算2
- 常德自来水公司水表管理制度
评论
0/150
提交评论