(计算机应用技术专业论文)一种中文文本分类方法的研究及实现.pdf_第1页
(计算机应用技术专业论文)一种中文文本分类方法的研究及实现.pdf_第2页
(计算机应用技术专业论文)一种中文文本分类方法的研究及实现.pdf_第3页
(计算机应用技术专业论文)一种中文文本分类方法的研究及实现.pdf_第4页
(计算机应用技术专业论文)一种中文文本分类方法的研究及实现.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)一种中文文本分类方法的研究及实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 文本文件是目前各种计算机应用过程产生的输出结果中最为广泛的形式 之一,因此在文本文件中蕴含了很多信息。但是当文本文件数目巨大时,尤其 是网络的普及,使得通过网络更易产生和获得文件时,人们从文件中获得信息 变得更加困难。文本分类可以使得人们无需逐个浏览文本文件来确认是否是自 己所需文本,自动的将文本划分到人们事先指定好的类别域中的正确类别,同 时在分类过程中得到的分类模式及其它数据亦可应用于进一步的文本挖掘、智 能搜索引擎、个性化软件助理等领域。 本文在分析了文本分类系统的一般开发过程的基础上,增加了对分类模式 的改进,改进了整个文本分类系统的开发过程。在特征建立阶段提出了文本摘 要结构,引入了词条在文本不同位置时对文本分类结果的影响。在学习与知识 模式提取阶段提出了候选机制,得到候选分类类别列表,使得系统除了提供了 最佳分类类别外,还可以提供相似主题类别,即进行模糊分类。同时,还提出 了分类模式调整机制,利用了候选分类类别列表中的结果,采取调整算法对分 类模式进行循环调整,最终达到分类模式的不断改进。在得出最终分类结果时, 还应用了多参数评分机制、验证分类结果方案。其中多参数评分机制通过计算 文本之间的相似度值,并结合候选类别、候选名次可以得到一个加权后的最终 分类排名,以此确定最后分类类别。而验证分类结果方案,则依据候选分类类 别列表,随机从训练文本集中抽取一定数目的文本来验证该列表,使得本系统 得出的分类结果并不完全依赖于分类模式。 本文详细论述了上述新概念、新技术,并在此基础上实现了一个文本分类 系统,最后还给出了对这些新概念和新技术的实验结果。实验证明,上述新概 念、新技术确实对文本分类起到了一定的积极作用。 关键词:文本分类文本挖掘特征提取 a b s t r a c t a b s t r a c t t h et e x tf i l ec o n t a i n sm u c hi n f o r m a t i o na st h em o s tp o p u l a rt y p eo fo u t p u tf r o m m o s tk i n d so fc o m p u t e ra p p l i c a t i o n ,b u ta st h el a r g en u m b e ro ft e x t ,e s p e c i a l l ya st h e p o p u l a r i z a t i o n o fn e t w o r k ,i ti sd i f f i c u l tt o g e t t h a ti n f o r m a t i o n t h et e x t c a t e g o r i z a t i o nc a nm a k et h ep e o p l et ok n o ww h e t h e rt h i st e x ti st h a tt h e yn e e do rn o t , a n dn e e d n tr e a dt h e mo n eb yo n e i tw i l lc l a s s i f yt h o s et e x t si n t ot h ep r o p e rc l a s s , w h i c hd e f i n e db yu s e ri na d v a n c e t h i st e c h n o l o g yc a nb eu s e di n t ot e x tm i n i n g , i n t e l l i g e n ts e a r c he n g i n e ,a n d t h ei n d i v i d u a ls o f t w a r ea s s i s t a n tf i e l d s b a s e do nt h ea n a l y s i st ot h eg e n e r a ld e v e l o p i n gp r o c e s so ft e x tc a t e g o r i z a t i o n s y s t e m ,am o d a l i m p r o v i n gm o d e li s a d d e d i ti sa l li m p r o v e m e n tt ot h et e x t c a t e g o r i z a t i o n p u t t i n gf o r w a r dt h et e x ta b s t r a c tf r a m ei nt h ef e a t u r ec r e a t i o n ,i t c o n s i d e r st h ed i f f e r e n tl o c a t i o nt h a tt h ew o r di t e m sa r e b r i n g i n gf o r w a r dt h e c a n d i d a t em e c h a n i s mi nt h es t u d ya n ds e l e c tk n o w l e d g em o d a l ,g a i nac a n d i d a t ec l a s s l i s t ,w h i c hm a k et h es y s t e mc a l ls u p p l yt h es i m i l a rt o p i cc l a s sb e s i d e st h eb e s tc l a s s a n da l s oi n t r o d u c e st h ec l a s s i f i c a t i o nm o d a la d j u s t m e n tm e c h a n i s m ,w h i c hu s i n gt h e r e s u l ti nt h ec a n d i d a t ec l a s sl i s t ,t a k i n gt h ea d j u s t m e n ta l g o r i t h mt od ot h ea d j u s t c i r c u l a r l y , a n dm a k i n gt h em o d a li m p r o v i n gc o n t i n u a l l y b e f o r eg e t t i n gt h ee n dr e s u l t , i tw i l la p p l yt ot h em u l t i - p a r a m e t e rm a r km e c h a n i s ma n dv a l i d a t i o nt h ec l a s s i f yr e s u l t p r e c e p t t h em u l t i - p a r a m e t e rm a r km e c h a n i s mc a ng e taf i n a lc l a s s i f yr a n ka f t e r w e i g h t i n gt h r o u g hc a l c u l a t i n gt h es i m i l a r i t yb e t w e e nt h et e x t sa n dc o m b i n i n gt h e c a n d i d a t e c l a s sa n dc a n d i d a t e p l a c e t h ev a l i d a t i o nc l a s s i f yr e s u l tp r e c e p ts e l e c ts o m e t e x t sf r o mt h et r a i n i n gs e tr a n d o m l yt ov a l i d a t et h ec l a s s i f yr e s u l ta c c o r d i n gt ot h e c a n d i d a t ec l a s sl i s t i tm a k e st h er e s u l ti n d e p e n d e n to nt h ec l a s s i f i c a t i o nm o d a l p a r t l y t h ep a p e rr e a l i z e dat e x tc a t e g o r i z a t i o ns y s t e mb a s e do nt h ea b o v en e wc o n c e p t a n dt e c h n o l o g y i nt h ee n do ft h ep a p e rg i v e st h ee x p e r i m e n tr e s u l t r e s u l ti n d i c a t e s t h a tt h o s ec o n c e p ta n dt e c h n o l o g yw o r kp o s i t i v e l yt ot e x tc a t e g o r i z a t i o n k e yw o r d s :t e x tc a t e g o r i z a t i o n ;t e x tm i n i n g ;f e a t u r ee x t r a c t i o n i i 学位论文版权使用授权书 本人完全了解北京机械工业学院关于收集、保存、使用学位论文 的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和 电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、 缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以 及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向 国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目 的的前提下,学校可以适当复制论文的部分或全部内容用于学术活 动。 学位论文作者签名:游耀 2 刀d 年j 月日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 年月日年月日 硕士学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均己在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 签名:城洁 如d5 年月 第1 章引言 1 1 研究背景 第1 章引言 随着计算机技术及其应用的迅速发展,因特网( i n t e r n e t ) 的普及,从各 种媒介上获得的文本资源激增,网上庞大的数字化信息和人们获取所需信息能 力间的矛盾日益突出。传统的做法是对网上信息进行人工分类,并加以组织和 整理,以方便人们浏览,为人们提供一种相对有效的信息获取手段。比如,过 去y a h o o ! 就将网页放在一个巨大的层次分类结构中,通过组装、维护这些类别, 达到帮助人们查找知识和信息的目的“1 。但是,这种人工分类的做法存在着许多 弊端:一是周期长、费用高、效率低,往往需要具有专业知识的人员才能胜任。 二是存在分类结果一致性不高的问题。即使分类人员的专业素质较高,对于相 同的内容由不同的人来分类,其分类结果仍然是不尽相同的。甚至是同一个人, 在不同时间做相同的分类也可能会有不同的结果。这样文本资源信息的激增, 一方面增加了对于快速、自动文本分类的迫切需求,另一方面又为基于数据挖 掘技术的文本分类方法准备了充分的资源。 9 0 年代以后,众多的统计方法和机器学习方法应用于自动文本分类。文本 分类技术在业界引起了广泛的讨论和研究。目前英文自动分类已经取得了丰硕 的成果,提出了多种成熟的分类方法,如最近邻分类、贝叶斯分类、决策树方法 以及基于支持向量机( s v m ) 、向量空间模型( v s m ) 、回归模型和神经网络等方法。3 , 但对于中文文本的自动分类技术研究尚不尽人意。目前国内中文文本分类研究 主要集中在朴素贝叶斯。1 、向量空间模型“1 和支持向量机“1 等技术上。 现在的分类系统,由于对样本文档集的数量要求较大,从而造成系统效率 的下降,或是由于不能满足样本文档的数量,造成分类不全、含义不清、缺乏 学习能力等问题。因此,研究高效的文本自动分类就显得十分重要,并且它在 文本挖掘、文本检索、信息获取、信息过滤、数据组织、信息管理,乃至互联 网上的搜索都有十分广泛的应用,有效地提高了信息服务的质量。 5 第1 章引言 1 2 研究现状 文本分类的发展历史基本上可分为两个阶段,第一阶段是从二十世纪6 0 年 代到8 0 年代末,在这期间最有效的文本分类系统一直是由专家人工构建的基于 知识工程技术的分类系统,比如卡内基集团为路透社开发的著名c o n s t r u e 新闻 自动分类系统“1 ,就是由专家定义一系列逻辑规则,这些规则包括如何把某一给 定文本归类为某一预先指定的类别集合中的一种或几种类别;第二阶段是从二 十世纪9 0 年代开始进入文本分类的另一个发展阶段,形势发生了改变,基于机 器学习方法实现文本自动分类运行效果完全超过了基于知识工程的分类方法。 机器学习文本分类算法通常就是从一个预先分类好的文本集合中,去“学习” 出各个类别特性的分类方法。目前,这种自动分类方法所能达到的水平与人工 分类的水平相当。显然由于这种方法不再需要知识工程师和领域专家的介入, 节约了大量的专家人力资源,同时加快了分类系统的建立速度。 相对于国外文本分类的发展水平,国内文本分类技术的研究起步较晚,研 究工作始于8 0 年代初期,1 9 8 1 年,候汉清教授对于计算机在文本分类当中的 应用做了探讨,并介绍了国外计算机管理分类表、计算机分类检索、计算机自 动分类、计算机编制分类表等方面的概况。此后,我国陆续研制出一批计算机 辅助分类系统和自动分类系统。例如,清华大学吴军研制的自动分类系统、广 东省中山图书馆的莫少强开发的计算机辅助图书分类系统( c a b c ) 、广卅i 西风 公司研制开发的西风文本自动分类系统、山西大学刘开瑛等人开发的金融自动 分类系统、上海交通大学王永成等研制的基于神经网络优化算法的中文自动分 类系统等等。虽然中英文之间存在着较大差异而无法直接照搬国外的研究成 果,但是,随着中文信息处理技术,特别是中文自动分词技术的日渐成熟,以 此为基础的中文文本分类技术的研究得到了快速发展,在短短2 0 年中就已经完 成了从可行性探索到实用化阶段的转变。 目前,中文文本有以下两大分类方法: ( 1 ) 基于外延的分类方法。它不关心文本的语义,仅仅根据文本的外在特征 进行分类。例如上面提到的各种统计方法,它应用了机器学习理论。目前国内的 中文文本分类都倾向于这种方法。但是对不同题材的文本,其分类的正确率大打 折扣。 ( 2 ) 基于语义的分类方法。它采用全部或部分理解文本的语义进行分类,但 第1 章引言 此方法的进一步发展受到了自然语言处理技术的制约。基于概念的归类技术抽 取短语周围的文本和潜在的语义概念进行文本类别的确定,不需要理解全文的 语义,这在当前对中文自然语言的理解水平尚处于初级阶段的现状来说无疑是 一个较好的方法。 新近的文本分类技术还有一定的缺陷,如: 1 国内还没有标准、开放的分类测试文档集可供使用,训练文档集应该 能够广泛地代表分类系统所要处理的客观存在的各个文档类中的文档。一般 地,训练文档集应该是公认的经人工分类的语料库。国外文档研究都使用共 同的测试文档库,这样就可以比较不同分类方法和系统的性能,而就中文文 本分类而言,各研究者使用自己建立的训练文档库进行测试,测试结果没有 可比性,这一现状应当引起国内文本处理界的重视。 2 随着互联网和多媒体技术的进一步发展,文本分类技术将与图像识别、 语音识别融合,比如图像文本的分类、语音文本的分类、多媒体数据库索引 等,这就进一步要求文本分类技术在文本的处理方法、克服噪音干扰、分类 精度方面有进一步的提高。 3 现有文档分类技术基本上是基于词或词串信息,在中文处理中称作分词。 就中文文档分类而言,分词是一项非常复杂的工作,分类系统一般都比较复杂 和庞大,分词速度慢,且准确度不高,因此,研究无须词典支持、领域独立的 文本分类系统无疑具有重要价值,这使得文档分类系统成为真正意义上的通用 系统呲1 。 1 3 本文内容 本文描述了一个名为“b i m t m ”的文本分类系统。它主要针对目前文本分类 理论研究已经比较成熟,但是实际应用还不尽如人意,同时分类过程及分类结 果过于依赖分类算法、分类模型的情况,提出了一种模式改进方法,同时使用 训练测试集方法,运用文本分类的一般过程,采用文本摘要结构、候选机制、 多参数评分机制等新技术,构造了该系统,并利用图表方式,直观比较、分析 了该系统的最终分类结果。 本文第二章主要描述了文本分类及与其相关的一些基本概念:第三章主要 描述了文本分类的一般开发过程,并根据模式改进思想简单介绍了b i m t m 文本 7 第1 章引言 分类系统的设计思路:第四章则详细介绍了该系统中各个步骤的构造过程,及 采用的新技术、叛概念;第五章则从系统实现界面和最终实验结果出发,分析 了该系统的质量;最后第六章简单总结了本系统所采用的一些新概念、新技术, 并提出了一些未来可以改进的方向。 8 第2 章文本分类的基本概念 2 1 文本挖掘 第2 章文本分类的基本概念 文本分类是文本挖掘的核心技术之一。文本挖掘( t e x tm i n i n g ,简称t m ) 也称作文本数据挖掘( t e x td a t am i n i n g ) ,通俗地说,就是从文本或大量文本 的集合中发现有用信息和知识的过程。 文本挖掘必须从数据挖掘谈起。数据挖掘,又称为数据采掘、数据开采,相 近的术语有k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,数据库知识发现) 、数据分 析、数据融合( d a t af u s i o n ) 等。根据w j f r a w l e y 和g p s h a p i r o 等人的 定义,数据挖掘是指从大型数据库的数据中提取人们感兴趣的知识,而这些知 识是隐含的、事先未知的、潜在的有用信息。 数据挖掘的提出最初是针对大型数据库的,这些数据库容量可能达到g b ( 1 0 9 ) 字节,甚至t b ( i 0 “) 字节,最近i b m 提出其数字图书馆的数据将可能达 p b ( i 0 ”) 字节。从更广义的角度来讲,数据挖掘意味着在一些事实或观察数据 的大型数据集合中寻找某种模式的决策支持过程。因而,数据挖掘的对象不仅是 数据库,还可以是任何组织在一起的数据集合,如网络信息资源等。目前数据挖 掘工具能处理数值型的结构化数据,而文本、图形、数学公式、图像或网络信息 资源等半结构、无结构的数据形式将是数据挖掘的挑战之一。 文本挖掘作为数据挖掘的一个新的领域应运而生。文本挖掘是抽取有效、 新颖、有用、可理解的、散布在文本文件中的有价值知识,并利用这些知识更好 地组织信息的过程。文本挖掘是数据挖掘的一个研究分支,用于基于文本信息的 知识发现。文本挖掘是利用智能算法,如神经网络、基于案例的推理、可能性推 理等,并结合文字处理技术,分析大量的非结构化文本源( 如文档、电子表格、客 户电子邮件、问题查询、网页等) ,抽取或标记关键字概念,文字间的关系,并按 照内容对文档进行分类,获取有用的知识和信息。 文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、 信息抽取、信息检索、机器学习、自然语言处理、计算语言学、统计数据分析、 第2 章文本分类的基本概念 线性几何、概率理论甚至还有图论m 1 。 一般来说,文本挖掘和文本数据库中的知识发现( k n o w l e d g ed i s c o v e r yi n t e x t ,简称k d t ) 被认为是具有相同含义的两个词,最早由r o n e nf e l d m a n 等人 提出o : “t h ep r o c e s so fe x t r a c t i n gi n t e r e s t i n gp a t t e r n sf r o mv e r yl a r g et e x t c o l l e c t i o n sf o rt h ep u r p o s eo fd i s c o v e r i n gk n o w l e d g e 其含义为:文本挖掘即文本数据库中的知识发现,是从文本或大量文本的集 合中提取隐含的,以前未知的,有潜在使用价值的有用信息的过程。 研究表明文本挖掘技术可以应用于m 1 l 、基于内容检索:由于仅用几个关键词难以充分描述具有丰富内涵的信息, 而且关键词的选取也有很大的主观性,故文本挖掘技术采用区别于传统 检索手段的基于内容的检索技术。尽管目前基于内容的检索技术还很初 级,只能利用一些相对简单的特征来进行检索,但随着研究的深入,必将 可以从文本信息抽取一些更为详细的、经过特殊加工的特征信息,大大提 高检索的全面性和准确性。 2 、信息智能代理:主要为在分布式信息网络环境下的信息的查询服务。信息 智能代理使用户可以不知道所要检索信息的具体形式,存储于何处、何种 介质中,只要用户提出查找要求,文本挖掘技术会自动地把各种信息源中 各种形式的相关信息检索出来,供用户使用,使用户可以立即获得较为满 意的检索结果。 3 、信息过滤:根据用户需要,通过对多个不同信息集之间的比较,进行信息 过滤,产生适量的、合乎用户需求的信息。 4 、文本信息文摘:用包括题目和具有代表性的关键词( 字) ,进行抽取、计算 和表达,自动选择重要的句子,产生文本信息摘要。 5 、信息表现:信息挖掘技术关心的是信息的方方面面,力求从多角度表现信 息的本质和特征。文本挖掘技术能动态地、实时在线地表现信息的相关 属性,使用户及时发现信息,及时更新信息和及时地发现信息的演变方 向。 1 0 第2 章文本分类的基本概念 2 2 文本分类 文本分类是文本挖掘的核心。它按照预先定义的分类体系,为文档集合中的 每个文档确定一个类别( 即将文档集合中的每个文档归纳入某个类别) ,使得用 户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更为 容易。也就是说,文本分类指按照预先定义的主题类别c = c 1 ,c ,q ) ,根据文 档的内容或属性,将文档集合d = 翻。,d :,d 。 中的每个文档d ;,f = l 2 ,行, 归到一个或多个类别c 。,k = 1 2 ,f 的过程1 。 文本分类技术可以对大量文档进行快速、有效地自动分类。文本自动分类 就是用大量的带有类标志的文本集,对分类准则或模型参数进行训练,然后用训 练得到的结果对未知类别的文本进行识别。 当然,在对文档进行“学习”前,需要先对这些文本数据进行相应的预处理, 它将直接影响文本挖掘的效率和准确度以及最终模式的有效性。 ( 1 ) 文本信息的预处理。预处理是指抽取代表文本特征的元数据( 特征项) , 对元数据进行标记、语形学分析、词性标注、短语边界辨认等。主要包括英文 文档( 用空格作为分隔符) 的s t e m m i n g 处理( 从英文单词的多种形式中提取出其 基本词干的过程) 和中文文档的分词处理。因中文文档的句子中各词条间无固定 的分隔符( 空格) ,进行中文文档的词频统计前,需先对中文文档进行分词处理, 即在词条间加入分隔符,使之转换为分散的词流形式。 ( 2 ) 文档的特征表示与特征提取。文档特征是指关于文本的元数据,分为描 述性特征( 如文本的名称、日期、大小、类型等) 和语义性特征( 如文件的作者、 机构、标题、内容等) 。描述性特征较易获取,语义性特征获取较难。文档特征 表示是文本挖掘工作的基础,它是对从文本中抽取出的元数据( 特征项) 进行量 化,以一定的特征项表示目标信息。这些特征项作为文档的中间表示形式,在文 本挖掘时用这些特征项评价未知文本与用户目标的相关度。 特征表示模型有多种,常用的模型有向量空间模型( v e c t o rs p a c em o d e l , v s m ) 。v s m 把文档看作是由一组正交词条矢量所组成的矢量空间,每个文档表示 为其中的一个范化特征矢量、布尔逻辑模型( 是v s m 模型的一种简化,是一种严 格匹配向量模型,其实现简单,用于快速检索) 、概率模型、混合模型。近年来, 第2 章文本分类的基本概念 应用较多且效果较好的是v s m 。 特征项提取是指目标表示模型中词条及其权值的选取,主要是独立评估方 法。独立评估方法对元数据的权值评价采用多种标准:文本权重、信息收益、期 望交叉信息熵、文本证据权、互信息、几率、词频等。这些评价标准来自:神经 元网络法、决策树法、遗传算法、集合论法、统计法等。 ( 3 ) 特征匹配与分类。特征匹配是利用特征项评价未知文档与用户目标的相 关度,找到最大匹配文档。文本转换为向量形式并经特征提取后,便可以进行分 类挖掘,即特征匹配。由于一个训练文档集中的候选特征项通常很多,可高达几 十万个,即文本特征往往是高维的,且文档的许多信息往往又是高冗余的,所以 必须进行文本特征的提取( 缩减) ,这往往决定了文本挖掘的效率。缩减的常用方 法是设置权重阈值,还可利用粗糙集、神经网络法、决策树法、遗传算法、集合 论法等。 文本分类是一种典型的有教师的机器学习问题,一般分为训练和分类两个 阶段。文本分类器一般利用v s m 模型等对文本进行分词或词性标注、特征抽取 并据此对文本进行分类。文本分类的方法主要有统计法和非参数法、机器学习 法、神经网络法、矩阵变换等方法。 第3 章文本分类系统 第3 章文本分类系统 3 1 文本分类的一般过程 通过查阅大量的文献资料并对其分析归纳之后,发现文本分类有一个较为 统一的一般开发过程,只是在各个过程中涉及到的算法或采用的技术不同。一 般文本分类系统的构成如图3 1 所示: 图3 1 一般文本分类系统的构成 图3 1 中的五个模块是建立分类器的主要过程,主要功能如下: 1 、特征建立 使用分词技术,从训练集或测试集文档中获得词条集,并剔除掉无意义的 词条,如代词,虚词等等,最终获得的是一个具有实际意义的词条集,将这些 文档转化成比较规整且能反映文档内容特征的表示,统计词频,计算词条的权 重值,得到文本向量,从而实现文本的量化处理,建立起文档模型。 2 、特征提取 从上一过程得到的文本向量含有成千上万个词条,如果不进行处理,分类 第3 章文本分类系统 时需要使用的文档特征词条集将会达到一个惊人的数目,因此,依据一定的提 取规则,选定其中具有代表意义的、可以标识文档特性的相对少量的词条,组 成特征词条集,是非常必要的。 3 、学习与知识模式提取 根据训练集中,已经经过特征提取处理后的各文档的特征词条集,采取一 定的机器学习策略,进行不断的学习,最终得到一个可代表某一类别的模式。 此模式将用于文本的分类。 4 、分类 经过特征建立处理后的测试文档集,将按照3 中得到的分类模式,采取相 应的分类算法,得到分类结果。 5 、模型质量评价 依据一定的质量评价准则,衡量分类结果,来确定此分类模式的满意度, 从而确定该分类系统的分类质量。 具体分类系统的流程如下图所示: 图3 2 一般文本分类系统的流程 1 4 第3 章文本分类系统 3 2b i m t m 文本分类系统设计思路 本文中建立了一个b i m t f 文本分类系统,在该系统中,采用训练n 试集方 法,在遵循它的一般开发过程的基础上,将分类模块合进了另一个新增的“模 式改进”功能,进行分类器的构造。而且在具体的实现步骤中,进行了新技术 尝试,实现并验证了本文前述的观点。 本系统按照文本分类器的一般开发过程,使用一些新技术、新概念进行改 进,加入模式改进过程,实现了一个新的文本分类系统,如图3 3 所示,该系 统包括以下几个模块: 图3 3 系统模块示意图 l 、特征建立时,首先对训练集文档进行常规的分词处理,得到分词后的文 档;再利用该文档,剔除掉无意义的和对分类没有帮助的词条;统计词频,将 每个文档都转化为用词条表示的特征向量文档;计算每个词条的t f i d f 权值。 除了进行这些常规的处理外,还对文本进行了文本摘要提取及处理过程。 2 、特征提取时,结合文本摘要提取的结果,使用t f i d f 特征向量权值。同 时,依据两种不同的特征提取方式得到两个不同的特征词条集,它们不仅仅是 分类模式训练的基础,还是应用多参数评分机制产生最终分类结果的基础。 3 、学习与知识模式提取时,使用c o s 相似度计算公式,采用r o c c h i o 算法, 利用上一步得到的两个特征词条集,分别进行两次训练和分类,将会得到最初 第3 章文本分类系统 的两个分类模式和两个分类结果,其间还使用候选机制建立候选分类类别列表、 多参数评分机制综合处理后,得到初次综合分类结果。用户将对该分类结果进 行评价,若不满意则需要进行模式改进。 4 、模式改进时,利用初次综合分类结果,采用调整分类模型的方式,使得 分类模型不断精进,最后使用多参数评分机制综合处理后,得到最终的分类结 果。并将最终分类结果可视化的显示出来,以便用户直观的评价和使用。 5 、模型质量评价,采用普遍使用的查准率、查全率和f 1 指标值来衡量分 类器的质量。同时使用图表的形式将分类系统的质量直观显示出来。 事实上,在学习的过程中就是不断对训练文档集进行分类,评价,模式改 进的循环过程,直到得到了一个用户满意的分类结果。因此,学习与知识模式 提取模块、分类模块和质量评价模块是一直在穿插进行的。 如图3 4 所示,具体分类器的各个模块之间的关系及流程如下: 训练文档集和测试文档集都需要经过特征建立或特征提取的处理过程。之 后,训练文档集将用于学习并得到相应的分类模式。而测试集则利用该分类模 式,进行初次分类,之后用户将决定该次分类是否满意,如果满意,此分类模 式及分类结果将作为最终分类模式和结果;如果不满意,则进入模式改进调整, 然后再利用新的分类模式进行分类,直至用户满意。最终得到分类结果,并对 该模式进行质量评价。 蔓! 里苎查坌耋墨竺 图3 4 文本分类系统总流程图 1 7 第4 章b i m t m 文本分类系统的详细设计 第4 章b i m t m 文本分类系统的详细设计 4 1 特征建立 特征建立阶段实际上就是将文档向量化、特征化的过程。 文本的特征表示是指以一定特征项( 如词条或描述) 来代表文档。在文本分 类时只需要对这些特征项进行处理,即可实现对非结构化的文本的处理。这是 一个非结构化向结构化转换的处理步骤。特征表示方法有很多种,常用的有布 尔逻辑法、概率法、向量空间等。 现有的绝大部分的文本分类器都是使用向量空间模型中的“词袋法” ( b a g - o f - w o r d s ) 来表示文本。这种方法有一个关键的假设,就是文章中出现的 词条的次序是无关紧要的,不考虑词条的位置信息以及文本结构,把文本看成 是一系列无序词的集合。文本的特征就可以采用文本中的词条t ( t o k e n ) 作为 特征项。t 1 ,t 2 ,t n 就表示文档内容的特征项,可以看成是一个1 3 维的坐标系, 权值w 1 ,w 2 ,w n 为对应的坐标值。所以每篇文章d 可以映射为特征空间中的 一个特征向量v ( d ) = t 1 ,w 1 ;t 2 ,w 2 ;t n ,w n 。那么就要分别得到上式中的t 和w 5 1 。 4 1 1 获取词条 在本系统中,采用中国科学院计算技术研究所的i c t c l a s 分词系统,同时 在该系统中利用一级标注为文本进行词性标注。 当然,在一篇文档中含有众多的词条,有不同的词性,如动词、名词、数词、 量词,还有标点符号等等,显然并不是所有的词条都有助于文本分类,因此要 把对文本类别标识无意义的词条都剔除掉。 下面是一篇已经经过分词系统处理后的加上一级词性标注的文本: 第4 章b i m t m 文本分类系统的详细设计 美国m m 和美国摩托罗拉公 司1 月1 3 日宣布,两公司将 共建基于无线通信以及因特 网服务的联合开发体制,向 汽车行业提供终端用户情报 通信技术,为开发新一代汽 车产品及服务提供帮助。两 公司将和汽车厂商合作,将 各自的技术、商品以及服务 相结合,促进汽车厂商投入 新一代产品,以满足消费者 对车用通讯信息传输娱乐 的需要。 分词前 其中各标注的含义如下 美国ni b m n 和c 美国n 摩托,n 罗i 拉v 公 司,n1 月t1 3 日,t 宣布v ,两m 公司,n 将 d 共建,v 基于p 无线b 通信,v 以及,c 因特网 ,n 服务v 的,l l 联合,v 开发,v 体制,n ,向d 汽车,n 行业,n 提供,v 终端n 用户n 情报,n 通 信,v 技术,n ,为p 开:* k v 新a 一代,n 汽车 n 产品n 及c 服务,v 提供,v 帮助。 v 两m 公司,n 将d 和c 汽车n 厂商,n 合作,w 将 p 各自,r 的,u 技术n 、w 商品n 以及,c 服务 ,v 相d 结合,v ,w 促进v 汽车,n 厂商,n 投入 ,v 新a 一代,n 产品,w 以,p 满足v 消费者 n 对,p 车,n 用p 通讯n ,n 信息,n 传输v ,n 娱乐v 的u 需要n 。、v 图4 1 文本分词前后的对比 表4 1 标注含义表 分词后 代码名称代码名称代码 名称 a 形容词 简称略语 q 量词j b 区别词 m 数词 r 代词 c 连词 n 名词 t 时间词 d 副词p介词 u 助词 v 动词 w 标点符号 从图4 1 中两个表的对比可以看出,分词后标注为非名词的词条大多数对于 文本分类都没有意义,如“和、1 月”等等,这些词条可能出现在各个类别,也 就是说“和、1 月”这些词条对于该文本的分类没有帮助,推而广之,得出一个 假设,即剔除掉非名词的词条可以起到降维的作用。 当然并不是说所有的菲名词词条对分类都没有意义,例如根据文本中虚词 的使用频率来确定未知作者文章的真正作者等等。但在本系统中选择将所有的 非名词词条剔除掉以得到特征词条。 第4 章b i m t m 文本分类系统的详细设计 4 1 2 词条权重值 目前有多种方法确定每个特征的权值。常用的特征选择方法有:文档频率、 信息增益、互信息、x 2 统计量、期望交叉熵、文本证据权和几率比等。 1 、文档频率p f ,d o c u m e n tf r e q u e n c y ) 1 2 5 1 文档频率可表示为 o f , ;黑瓣 , 它是最简单的评价函数,计算量小是它最大的特点。d f 评价函数的理论假 设是出现频率小的特征所含信息量小,但这一假设显然是不全面的。因此, 在实际运用中一般并不直接使用d f ,而是把它作为评判其它评估函数的一 个标准。 2 、t f i d f 硐 对文档进行分类之前需要将文档表示为计算机能够处理的形式。向量 空间模型( v s m ) 是使用较多且效果较好的表示方法之一,在该模型中,文档 空间被看作是由一组正交向量张成的向量空间。若该空间的维数为n ,则每 个文档d 可被表示为一个实例特征向量y 似) = ( c 0 1 ,0 9 2 ,噱) ,v 的每一个分 量表示对应特征在该篇文档中的权值。计算特征权值m 的一种方法是 t f i d f 。词条t i 在文档d 中的t f i d f 值由下式定义: t f i d f , = t f , x l o g ) ( 4 2 ) ) 。i 其中匹是词条t i 在文档d 中出现的频数,n 表示全部训练文档的总 数,d 鼻表示包含词条t 的文档频数。为降低高频特征对低频特征的过分抑制, 在实验中计算权值时还对t f i d f 值进行r 规范化处理: 以:丝丝( 4 3 ) :。( t f i d f j ) 2 3 、信息增益( i gi n f o r m a t i o ng a i n ) 【2 6 】 i g 是一种在机器学习领域应用较为广泛的特征选择方法。它从信息论 角度出发,以各特征取值情况来划分学习样本空间,根据所获信息增益的多 少来筛选有效的特征。i g 可以用下式表示: 删_ p ( f ) p ( c 小灿g 黜+ p ( 西p ( c 。i ? ) l o g 锗 4 ) 式中,c f 表示第i 个文本类别;p ( e i f ) 表示文本中出现特征t 时,文本属于 第4 章b i m t m 文本分类系统的详细设计 c j 的概率;p ( c fi f ) 表示文本中不出现单词t 时,文本属于g 的概率;p ( c f ) 表 示类别出现的概率:p ( f ) 表示t 在整个文本训练集中出现的概率。 4 、互信息( m i ,m u t u a li n f o r m a t i o n ) t 2 0 j m i 是信息论中的概念,用于度量一个消息中两个信号之间的相互依赖 程度。在特征选择领域中,特征t 和类别e 的互信息体现了特征与类别的相 关程度。在某个类别e 中出现的概率高,而在其它类别中出现的概率低的特 征t 将获得较高的互信息。m i 可表示为 m i ( f ) :vp ( c ,) l o g 二竺上丛 ( 4 5 ) 。 尸( f ) 5 、x 2 统计量c n ( x 2s t a t i s t i c ) 2 6 】 c h i ( f ) = 罩p ( q 2 ( f ,c i ) = 罩p ( c l 面丽n 而( a d 两- b c 而) 2 ( 4 6 ) 式中a 是特征t 和第i 类文档共同出现的频度:b 是特征t 出现而第i 类 文档不出现的频度;c 是第i 类文档出现而特征t 不出现的频度:d 是第i 类文档和特征t 都不出现的频度;n 为总共的文本数。石2 方法认为特征t 与文本类别e 之间的非独立关系类似于具有一维自由度的j 2 分布。它基于 如下假设:在指定类别e 的文本中出现频率高的词语和在其他类的文本中 出现频率高的词语,对判断文章是否属于类别c 都有帮助。 6 、期望交叉熵( e 晓,e x p e c t e dc r o s se n 仃o p y ) 0 2 5 1 e c e ( t ) = p ( t ) 2 p ( c ri t ) l o g 箫导 7 ) 如果特征t 和类别c f 强相关,那么p ( c li t ) 就大,若p ( q ) 又很小,则说明该词 对分类的影响大。e c e 反映了文本类别的概率分布和出现了某种特征的条 件下文本类别的概率分布之间的距离。 7 、文本证据权( w e t , t h ew e i g h to fe v i d e n c ef o rt e x t ) 2 5 1 w e t ( t ) 卵 莩叫崦烈黼l s , w e t 比较了p ( c j ) 与p ( ei t ) 之间的差别。如果t 和类别强相关,即p ( ci t ) 大, 并且相应类别出现的概率小,说明t 对分类的影响大,计算出来的函数值就大, 可以选取作为特征项;反之,就不选其作为特征项。 8 、几率比( 0 r ,o d d sr a t i o ) 2 5 1 o r ( t ) = l o g p ( tc 一) ( 1 - e ( t i c , g ) ) ( 4 9 ) ,v i l 舭- p ( t i o m 式中,c ,表示正样本的情况;e 。表示负样本的情况。几率比法考察本类别 和其它所有类别的差异,将其它类别全部看作负样本,这是它的独到之处。 2 1 第4 章b i v l t m 文本分类系统的详细设计 法。 在这几种方法中,本系统选择了最常用、也是最有效的t f i d f 权值计算方 4 1 3 文本摘要结构 在本系统中还综合考虑了特征词条在文本中出现位置的因素。如果进行人 工文本分类,在中文文章的分类过程中,通常浏览标题,摘要,关键字,至多 再浏览第一段,和最后一段,就能得出较为准确的结论。显然,这些特殊段落 中,都明显的含有高代表性的词条。那么,从这些特殊段落中得到的词条要比 其他段落中得到的词条重要得多,也有效得多。由于它们很可能直接涉及到文 本主题,因此分辨性非常高。若能正确利用这部分词条,无疑会提高文本分类 结果的准确率。 为了更准确的描述这个结构,引入以下一些概念或属性: 定义一:摘要。文本内容的标题、摘要、关键词、首段、结尾段以及每个 段落的第一句话,统称为特殊段落。在本文中,称之为摘要。相对应的,文本 内容中剩余的段落,称之为普通段落。 定义二:词条属性。在本文中,词条属性共有两种取值,摘要词条和普通 段落词条。 定义三:摘要词条。它是指出现在摘要中的词条。当然,它也可能出现在 普通段落中。 定义四:普通段落词条。它是指那些仅出现在普通段落中的词条。 定义五:文本摘要结构。它是指截取文本的标题、摘要、关键词、首段、 结尾段以及每个段落的第一句话,同时将文本调整为摘要和普通段落两部分, 从而得到具有摘要结构的文本。 由于文本分类的任务是将文本划分到正确的类别中,因此摘要的准确性并 不是研究的重点。当然,摘要的准确程度或多或少会影响到最终的分类结果。 在此仅粗略的获取文本的摘要。 这样,本系统在特征建立过程中,增加一个新的处理过程,来构成系统所 需要的具有文本摘要结构的中文文本。 本系统使用了在文献 2 7 1 q b 提出的权值改进公式, 第4 章b i m t m 文本分类系统的详细设计 z f ( ) * l 0 9 2 ( 簧+ 。5 ) + z f ( ) + 。西k ,丑= 1 ; t f ( t k ) * l 0 9 2 ( n 簧+ 。5 ) + 。括m ,最2 。 ( 4 1 0 ) 珥( t k ) 一y 珥以)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论