![(计算机软件与理论专业论文)基于概念的文本分类研究.pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/14/f7ba9914-2cc7-410f-af0b-876e6c23eb37/f7ba9914-2cc7-410f-af0b-876e6c23eb371.gif)
![(计算机软件与理论专业论文)基于概念的文本分类研究.pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/14/f7ba9914-2cc7-410f-af0b-876e6c23eb37/f7ba9914-2cc7-410f-af0b-876e6c23eb372.gif)
![(计算机软件与理论专业论文)基于概念的文本分类研究.pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/14/f7ba9914-2cc7-410f-af0b-876e6c23eb37/f7ba9914-2cc7-410f-af0b-876e6c23eb373.gif)
![(计算机软件与理论专业论文)基于概念的文本分类研究.pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/14/f7ba9914-2cc7-410f-af0b-876e6c23eb37/f7ba9914-2cc7-410f-af0b-876e6c23eb374.gif)
![(计算机软件与理论专业论文)基于概念的文本分类研究.pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/14/f7ba9914-2cc7-410f-af0b-876e6c23eb37/f7ba9914-2cc7-410f-af0b-876e6c23eb375.gif)
已阅读5页,还剩56页未读, 继续免费阅读
(计算机软件与理论专业论文)基于概念的文本分类研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着i n t e m e t 网络信息的激增,使得人们在面对海量的信息时感到束手无策, 难以选择,而传统通过人工手段对庞大的原始文档集进行组织和整理的方法,不 仅费时、费力,效果也不理想。于是为使用户从繁琐的文档处理工作中解放出来, 更加便捷地认识和区分不同的文档内容,使大量的繁杂的文档条例化和系统化, 并能极大地提高信息的利用率,自动文本分类作为一项具有较大实用价值的关键 技术被提出,有着广泛的商业前景和应用价值。 在本文中,我们针对传统的基于关键字的向量空i 、日j 模型忽略了文本中语义信 息的不足,提出了基于概念的文本表示方法,并用于文本分类,实现了一个基于 概念的文本分类系统。 首先,我们说明了本文的研究背景及意义,分析了目前国内外自然语言处理 语义层的各种方法,以及利用w o r d n e t 来研究文本分类的研究现状和发展趋势。 然后,介绍了传统的基于关键字的向量空间模型的文本分类的几个重要阶段, 并着重介绍了其中的文本表示的相关技术和两种经典分类算法。 接着,本文利用w o r d n e t 进行词义消歧,提出了基于概念的文本表示方法, 并将该方法用于支持向量机( s v m ) 和k 近邻( k n n ) 分类器中,实现了基于概念的 文本分类系统。 最后,使用路透社r c v i 新闻文本集合,分别在s v m 和k n n 分类器上进行 基于概念的文本表示方法( c v s m ) 与基于关键字的向量空间模型( v s m ) 的2 组比较 实验。实验表明,前者在精确度、召回率和f l 测试值上都高于后者,显示出更好 的分类效果。 同时,我们也在相同的数据集和文本表示方法上进行s v m 和k n n 分类算法 的比较性实验,验证了s v m 在分类性能上更优于k n n 。 关键词:文本分类;w o r d n e t ;概念向量;s v m ;k n n 分类号:t p 3 9 1 a bs t r a c t t h ep r o l i f e r a t i n gw e bi n f o r m a t i o nm a k e sp e o p l eg e ti nt r o u b l ew i t hf i n d i n gw h a t t h e yw a n t h o w e v e r , t r a d i t i o n a la r t i f i c i a lm e a n s ,w h i c hah u g es e to fo r i g i n a ld o c u m e n t i so r g a n i z e da n dm a n a g e db y , a r en o to n l yt i m e - c o n s u m i n ga n dl a b o r i o u s ,a n da l s oh a v e b a dc l a s s i f i c a t i o ne f f e c t t h e r e f o r e ,a sat e c h n o l o g yf o ri n f o r m a t i o no r g a n i z a t i o na n d m a n a g e m e n t ,a u t o m a t i ct e x tc l a s s i f i c a t i o ni sb r o u g h tf o r w a r dt or e s o l v ed i s o r d e r l ya n d u n s y s t e m a t i cp h e n o m e n o ni ni n f o r m a t i o nr e t r i e v ea n dh a sb e e nw i d e s p r e a dc o n c e r na n d g r e a td e v e l o p m e n t i nt h i sp a p e r , at e x tr e p r e s e n t a t i o nm e t h o db a s e do nc o n c e p ti sp r o p o s e d ,a n dh a s b e e na p p l i e dt ot e x tc l a s s i f i c a t i o ni no r d e rt os o l v et h ep r o b l e mw h i c ht h es e m a n t i c r e l a t i o ni sn o tc o n s i d e r e di nt h ev e c t o rs p a c em o d e l ( v s m ) a n dw ea l s oi m p l e m e n tt h i s t e x tc l a s s i f i c a t i o ns y s t e m f i r s t l y , w ea n a l y z ev a r i o u sw a y sh o wn a t u r a ll a n g u a g ed e a l sw i t hs e m a n t i cl a y e r , a n dt h es t a t u sq u oa n dd e v e l o p m e n tt r e n do ft e x tc l a s s i f i c a t i o ni nv i r t u eo fw o r d n e t s e c o n d l y , w ei n t r o d u c es e v e r a li m p o r t a n ts t a g e so ft h et e x tc l a s s i f i c a t i o nb a s e do n t r a d i t i o n a lv s m ,a n df o c u so nt h et e x tr e p r e s e n t a t i o nr e l e v a n tt e c h n o l o g i e sa n dt w o c l a s s i c a lc l a s s i f i c a t i o na l g o r i t h m s t h e n ,t h i sp a p e re l i m i n a t e sa m b i g u i t yo fw o r dm e a n i n g si nt e x tb yw o r d n e t a r e p r e s e n t a t i o no ft e x tb a s e do nc o n c e p ti sp r o p o s e dl a t e r , a n dh a sb e e na l s oa p p l i e dt o c l a s s i f i c a t i o ni ns v ma n dk n n f i n a l l y , w em a k et w og r o u p so fe x p e r i m e n t ,w h i c ha r ec o m p a r a t i v ee x p e r i m e n t s a b o u tat e x tr e p r e s e n t a t i o nm e t h o db a s e do nc o n c e p t ( c v s m ) a n dv s mi nr e u t e r s r c v 1n e w st e x tc o l l e c t i o n s t h er e s u l t ss h o wt h a tp r e c i s i o nr a t e ,r e c a l lr a t ea n df i m e a s u r eo ft h ef o r m e ra r ea l lh i g h e rt h a nt h el a t t e r , w h i c hs h o w st h a tc v s ma c h i e v e sa b e t t e rc l a s s i f i c a t i o np e r f o r m a n c e a tt h es a m et i m e ,w ea l s om a k ec o m p a r a t i v ee x p e r i m e n to fs v ma n dk n ni n o r d e rt o v e r i f yt h e i rc l a s s i f i c a t i o np e r f o r m a n c eo v e rt h es a m ed a t as e t sa n dt e x t r e p r e s e n t a t i o n t h ee x p e r i m e n ts h o w st h a tt h es v ma c h i e v e sb e t t e rp e r f o r m a n c et h a n t h ek n n k e y w o r d s :t e x tc l a s s i f i c a t i o n ;w o r d n e t ;c o n c e p tv e c t o r ;s v m ;k n n c l a s s n o :t p 3 9 1 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 帑刍炙枸 导师签名: 桫司 - 签字日期:矽孑年易月厂日 签字r 期:1 吩年f , q j - 日 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:赣放橘 签字日期: 矽8 年乡月歹日 5 7 致谢 本论文的工作是在我尊敬的导师瞿有利副教授的悉心指导下完成的,从论文 的选题、撰写,一直到论文的最终定稿,瞿老师一直给予我悉心的指导和无尽的 关怀。瞿有利副教授以其渊博的学识、严谨的治学态度、忘我的工作作风、平易 近人的性格以及宽厚的处事态度,为我在工作、学习、做人等各个方面树立了榜 样,给了我极大的帮助和深刻的影响。在此衷心感谢这两年以来瞿老师对我的关 心和指导。 衷心感谢黄厚宽和田盛丰教授,两位教授宽广豁达的长者风范、以及严谨的 治学态度始终让我深深地敬仰他们在此期间对我的关心和鼓励让我深受感动。 在实验室工作及撰写论文期间,张俊三、孙吴良、吴学良等同学对我论文研 究工作给予了热情帮助,在此向他们表达我的感激之情。 感谢我的好朋友们的帮助与支持,陪我一起走过研究生生活,经历点点滴滴。 要特别感谢远在家乡的父亲、母亲和妹妹。无论何时何地,他们对我的期望 和鼓励永远是我前进的动力。 最后,衷心感谢评阅本论文而付出辛勤劳动的各位专家和学者。 1 1研究背景与意义 1 综述 随着以i n t e m e t 为主体的信息高速公路的不断普及和发展,信息技术已经渗透 到我们社会生活的各个角落,正以前所未有的速度和能力改变着人们的生活和工 作方式,人们正处于一个“信息爆炸”的时代。一方面,因特网上蕴涵的海量信 息远远超过人们的想象;另一方面,面对信息的汪洋大海,人们往往感到束手无 策,出现所谓的“信息过载”的现象。于是,一个极富挑战性的课题:如何帮助 人们有效地管理海量信息,快速地选择和利用所感兴趣的信息,成为学术界和企 业界所关注的焦点。 在线信息同益增多,其中包括新闻、电子杂志、电子邮件、技术报告、文档 以及网上图书馆等等。面对如此众多的信息,传统通过人工的手段对庞大的原始 文档集进行组织和整理的方法,不仅费时、费力,效果也不是很理想。相比之下, 如果能由计算机直接对文档信息进行过滤、分类,把用户真正感兴趣的部分提交 给用户,就能使用户从繁琐的文档处理工作中解放出来,更加便捷地认识和区分 不同的文档内容,使大量的繁杂的文档条例化和系统化,并能极大地提高信息的 利用率。因而,自动文本分类作为一项具有较大实用价值的关键技术,得到了广 泛的关注,取得了很大的发展。 文本分类( t e x tc a t e g o r i z a t i o n 或t e x tc l a s s i f i c a t i o n ,t c ) 是将一篇自由文档根 据其内容信息标记上一个或多个预先定义的类别标签的过程【i 引。对于计算机,由 于它不具有人类的智能,要正确地执行文本分类的任务,首先要将文本的有用信 息输入计算机中,为此应对文本进行科学的抽象,建立它的数学模型,用以描述 和代替文本。用简单而准确的方法将文档表示成计算机能够处理的形式是进行文 本分类的基础。 文本的表示方法借鉴了文本检索的许多表示方法和技术,这主要是文本检索 技术的发展历史久远、技术相对成熟的缘故。文本检索中常用的计算模型:布尔 模型【3 ( b o o l e a nm o d e l ) ,向量空间模型【4 ( v e c t o rs p a c em o d e l ,简称v s m ) ,概率模 型【5 ( p r o b a b i l i s t i cm o d e l ) 等。这些模型从不同的角度出发,使用不同的方法处理特 征加权、类别学习和相似计算等问题。向量空问模型和机器学习算法在文本分类 领域中的紧密结合和成功的运用,使得基于向量空间模型的文本表示方法迅速成 为文本分类研究领域中文本表示的主流方法。向量空间模型是由g e r a r ds a l t o n 在 上世纪6 0 年代提出的【4 1 ,最早成功应用于信息检索领域,后来又在文本分类领域 得到了广泛的运用。以向量空间模型为代表的分类模型都是用项频率逆文档频率 t f i d f ( t e r m f r e q u e n c yi n v e r s e d o c u m e n t f r e q u e n c y ) 将文档转化为向量形式,用倒 排文档进行索引,再进行文档相似度的计算。向量空间模型虽然能很好地解决文 本在计算机中的表示问题,但是,为了降低系统的复杂度,它一般都假设词和词 之间是相互独立的,这显然是与事实相矛盾的,因为文本中词和短语的语义信息 对由自然语言书写成的文本来说是至关重要的。于是,为了解决这一缺陷,从词 所表达的概念意义层次上来认识和处理文本,基于概念的文本分类方法逐渐成为 文本分类领域所追逐的热点。 1 2 自然语言处理语义层的方法 自然语言处理( n a t u r a ll a n g u a g ep r o c e s s ,n l p ) 是研究计算机如何处理人类语 言的学问,是一门跨越语言学、认知心理学、计算机科学的综合科学【6 】。目前,自 然语言处理语义层的研究方向有很多,与文本分类、信息检索关系密切且比较具 有代表性的方向包括w o r d n e t 、h n c 、h o w n e t 、l s a 、本体论等。w o r d n e t 是普 林斯顿大学认知科学实验室的gm i l l e r 教授设计的一种基于认知语言学的英语词 典1 7 j 。它不按照字母顺序排列单词的,w o r d n e t 以s y n s e t 表示概念。所谓s y n s e t 指在特定的上下文环境中可互换的同义词的集合。北京大学计算语言学研究所开 发了与w o r d n e t 兼容的汉语语义词典中文概念词典( c c d ) 【8 】。中科院声学研究 所的黄曾阳提出了概念层次网络( h n c ) 理论,采用概念化,层次化,网络化的形式 表达语义【9 ,m 】。h n c 理论认为,计算语言学界源于图灵标准而采用的句法分析和句 法语义分析所提出的标准各有偏低和偏高的不足,不是描述人的语言感知过程的 适当模式,因为“思维的机制绝不是语法或句法,而是概念联想网络的建立、激 活、扩展、浓缩与存储 ,从而提出计算机对汉语的处理不应该以图灵检验为标准, 而应该以对语言模糊的消解能力为第一标准。中科院计算语言信息中心的董振东 创建的知识库一知网( h o w n e t ) ,是一个以汉语和英语的词语所代表的概念为描述 对象,以揭示概念之间以及概念所具有的属性之问的基本内容的常识知识库【l l 眩】。 在h o w n e t 中,义原是h o w n e t 中不可再分的、表示语义的基本单元,每个词语的 语义由几个义原组合表示。来自b e l lc o m m u n i c a t i o n sr e s e a r c h 、u n i v e r s i t yo f c h i c a g o 和u n i v e r s i t yo f w e s t e r no n t a r i o 的s u s a nt d u m a i s 等五位学者共同提出了 潜在语义分析( l s a ) 自然语言处理的方法 1 3 , 1 4 】。l s a 利用截断的奇异值分解降维的 方法( 或者其它统计归纳、代数计算方法) 来达到信息过滤和去除噪声的目的。l s a 不同于v s m 中文档和词语的高维表示,而是将文档和词语的高维表示投影在低维 2 的潜在语义空间中,缩小了问题的规模,得到词汇和文档的不再稀疏的低维表示, 这种低维表示反而揭示出词汇( 文档) 之间语义上的联系。本体( o n t o l o g y ) 是源自哲学 上的一个概念,用于描述事物的本质。在近一、二十年来,本体论己被计算机领 域所采用,用于知识表示、共享及复用【i5 1 。n e c h e s 等人指出:“个本体定义了组 成主体领域的词汇的基本术语和关系,以及用于组合术语和关系一起定义词汇的 外延的规则,【1 6 】。一般情况下,o n t o l o g y 是面向特定领域,用于描述特定领域的概 念模型。 1 3研究现状与发展趋势 文本分类虽然已经是一项较为成熟的技术,但是,真正用于实践,与生活相 融的道路还是任重道远的,仍需要不断的研究和实践。 目前,对文本分类的研究主要集中在以下几个方面: ( 1 ) 文本表示,即如何才能更有效地把文本所蕴含的深层含义表示出来。包括特征 选取和权重计算。如用聚类的方法对词进行聚类,再用这些类别来表示文本【2 2 1 ; 或者由文档聚类后形成的簇的中心向量构成概念空间,把文本转换到概念空间 上来表示【2 3 2 4 1 ,等等。 ( 2 ) 自动文本分类方法,主要是把人工智能和机器学习等领域的先进知识引入到文 本分类中来,以提高分类的效果。例如把在模式识别中取得很好效果的支持向 量机( s v m ) 方法引入到文本分类中来,取得了很好的效果【2 单6 。 ( 3 ) 无标注语料的使用。由于在训练分类器的时候需要大量的人工标注的语料,这 是一项对人力、物力需求都很大的工程;同时互连网有大量的无标注的语料存 在。能否利用这些无标注的语料,而降低手工标注语料的规模,也是一个研究 的热剧2 7 1 。 目前,在文本分类领域处理很多问题上都已经将w o r d n e t 引入文本分类中了, 如:处理词与词之间的关系、引入语义关系和词汇语义计算相似度等,开始成为 现在研究文本分类的一大热点。 ( 1 ) 词与词之间关系的处理 传统的基于向量空间模型的文本表示不考虑词与词之间的关系。为了提高文 本分类的准确度,很多研究者使用了w o r d n e t 来处理词与词之间的关系。s e d d i n g 等提出了一个基于w o r d n e t 的文本聚类方法【0 7 1 。他使用w o r d n e t 的背景知识来处 理语料中的同义词和多义词,对传统的向量空间模型的文本表示进行改进,从而 在一定程度上实现语义聚类。该方法同时使用w o r d n e t 来对词语进行消除歧义处 理。类似地,r o s s o 等提出了一个基于w o r d n e t 的文本分类和信息检索方法【l 8 1 。 该方法利用w o r d n e t 的同义词库建立索引空间来处理多义词和进行概念消除歧义, 然后在此基础上实现了基于语义的k 一近邻方法。 ( 2 ) 基于概念的文本分类 文本的语义是建立在概念之上的,而词是构成概念的基本单位。为了利用文 本的语义信息,采用基于概念的文本分类方法,通过w o r d n e t 来抽取词所对应的 概念,然后用概念向量来代替词的向量来表示文本,并在此基础上进行文本分类。 这种方法并不需要理解全文的语义,这对于当前自然语言理解水平尚处于初级阶 段的现状来说是一个值得考虑的方法。 h o t h o 等提出了基于w o r d n e t 来提高文本分类准确度的方测1 9 】。该方法把基 于词的文本表示改进为基于概念的文本表示,提出了添加、替换、完全概念三种 可供选择的策略。y o k ol n o 等提出一种从w o r d n e t 中提取常识概念并在此基础上 进行文本分类的方法。该分类方法是基于支持向量机的,通过提取常识概念来提 供支持向量机所需的文本特征。 f 3 ) 词汇语义相似度计算 很多文本挖掘任务( 如文本分类和聚类) 都是建立在对文档相似度进行计算的 基础上的。基于语义的文档相似度能够提高文本挖掘的准确度。而词汇语义相似 度的计算又是基于语义的文档相似度计算的基础。a g i r r e 等提出了基于w o r d n e t 计算词汇语义距离的方法【2 0 1 。该方法把w o r d n e t 作为一部同义词词典,通过计算 节点间的距离来获取词之间的语义距离。刘群等提出了使用知网来计算词汇 语义相似度的方法【2 。 本文应用w o r d n e t 进行词与词之间的关系的处理,然后抽取词所对应的概念, 充分借鉴y 0 ) 和( 2 ) 的研究成果,提出了自己的研究方法。 1 4 论文的主要工作 目前的文本分类系统主要是以“关键词”作为特征,以关键词对应的概念作 为特征进行文本分类是近些年来人们研究的热点。然而“概念 本身比较抽象, 如何将直观的关键词映射到抽象的概念是问题的关键。本文利用w o r d n e t ,对多义 词、近义词进行词义消歧,将概念引入文本表示中,提出基于概念的文本表示方 法,并将该文本表示法应用于支持向量机( s v m ) 和k 一近邻( 州) 分类器分类。 本文具体的研究工作如下: ( 1 ) 提出基于概念的文本表示方法。传统的基于关键字的向量空问模型的文本表示 方法,没有考虑词之l 、日j 联系,尤其在训练文本集合较小时,其分类的精度很低。 为克服这种缺陷,我们将概念引入文本表示中,利用w o r d n e t ,把文本转换到 4 概念空间上来表示,提高文本分类精确。 ( 2 ) 提出并实现基于w o r d n e t 的词义消歧方法。在自然语言表达过程中,同义词、 多义词的出现是很频繁的。在基于关键词的文本分类中往往把这些词直接作为 特征项,不能起到很好的分类效果。我们根据词义的局域性和特征词之间的关 系,利用w o r d n e t 进行词义消歧,抽取词所对应的概念,建立文本的概念向量 空问。 ( 3 ) 提出基于概念的特征权重计算方法。针对我们提出的基于概念的文本表示方法 ( c v s m ) ,考虑概念间的上下位关系,提出概念的反类别频度和衰减因子来调 整特征向量的各维度的权值,既有效地降低向量空间的维度,也更体现出文本 中更抽象的语义信息。 ( 4 ) 实现基于概念的文本分类系统。本文选择在v i s u a ls t u d i o6 0 平台上实现该系 统。实验中需着重比较我们提出的基于概念的文本表示方法( c v s m ) 与传统的 向量空间模型( v s m ) 分别在s v m 和k n n 中的分类性能。 ( 5 ) 需实验比较s v m 与k n n 分类器用于我们提出的基于概念的文本表示方法在 精确度、召回率和f l 测试值上分类性能。 1 5论文的组织结构 本文主要研究并提出了基于概念的文本表示方法并将该文本表示法应用于文 本分类中,实现了基于概念的文本分类系统。最后实验对比并分析了我们提出的 基于概念的向量模型( c v s m ) 与传统的向量空问模型( v s m ) 的分类性能。 本文具体的组织结构如下: 第一章为“综述”。指出了本文的研究背景与意义,介绍了自然语言处理语义 层的方法以及利用w o r d n e t 进行文本分类的研究现状,然后列出本文的研究工作 和内容安排。 第二章为“相关技术的研究与论证 。首先是介绍了文本分类的基本概念,接 着较为详细地论述了文本处理任务中文本分类的几个阶段,其中较为重点阐述了 进行文本表示的相关技术以及与本文相关的两个经典分类算法。 第三章为“基于概念向量模型文本分类的设计与实现。本章从整体上着重介 绍了基于概念的文本分类流程及其主要模块。为解决传统的基于关键词的向量空 间模型的缺陷,本文先介绍了概念的优点,接着,详细介绍了如何将概念引入文 本表示中,即,依据词义的局域性和特征词之间的关系,利用w o r d n e t ,进行词义 消歧,建立概念特征向量。考虑概念问的上下位关系,提出概念的反类别频度和 概念衰减因子,利用这两个参数来调整特征向量空间的各维度的权值,既有效地 降低了向量空间的维度,也更体现出文本中更抽象的语义信息。最后,介绍了文 本的相似度计算,探讨了我们提出的基于概念的文本表示方法在两种经典的分类 算法的应用法。 第四章为“实验结果与分析”。本章首先对实验所用的评价标准、实验环境与 数据集等进行了说明,然后,着重对我们提出的基于概念的文本表示方法( c v s m ) 和传统的基于关键字的向量空间模型( v s m ) 在s v m 和k n n 分类器上进行了实验 对比。此外,还验证了s v m 在精确度、召回率和f l 测试值上比k n n 高。 第五章为“结论,首先总结我们先前的研究工作,然后介绍今后的研究工作。 最后是参考文献,以及致谢和声明。 6 2 相关技术的研究与论证 2 1文本分类的基本概念 2 1 1文本分类的定义 文本分类是一个有指导的学习过程,它根据一个已经被标注的训练文本集合, 找到文本属性( 特征) 和文本类别之间的关系模型( 分类器) ,然后利用这种学习 得到的关系模型对新的文本进行类别判蝌。 从数学角度来看【2 】,文本分类是一个映射的过程,它将未标明类别的文本映射 到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一 篇文本可以同多个类别相关联。用数学公式表示如下: f :a 寸b 其中,彳为待分类的文本集合,b 为分类体系中的类别集合。 文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结 出分类的规律性而建立的判别规则,确定文本相关的类别。 文本的分类是基于它的内容来分的,不是以文本所存在的数据模式来分的, 这就意味着文本与哪一类相关这个概念是主观意义上的。 2 i 2 文本分类的类型 文本分类有两种类型,根据需求的不同,可分为单类别分类和多类别分类。 在不同的情景需求下,分类的具体任务也各不相同。 在单类别分类中,是多个文本对应一个类别的关系,分类器的功能可用函数厂 来表示厂:d xc 一 0 ,1 ) ,l 表示文本d 属于类别c ,0 则反之。此时,文本分类的 任务是建立起分类器,尽量模拟逼近函数届在单类别分类中,分类未知文本时通 常会采取阈值的方法,在分类器的框架建立好之后,训练的过程就是根据训练例 来调整阈值的过程。分类时根据阈值判断,满足条件则判为1 ,否则判为o 。单类 别分类相对简单。 在多类别分类中,是多个文本与多个类别的对应关系,而通常一个文本只能 属于一个类别。在多类别分类中,分类时通常会采用投票法,即分类器会将文本d 放在所有的类别上完成一次分类过程,得到某种结果。这些结果通常代表了文本d 属于某个类别的可能性,可以是文本d 属于某类别的概率,或者是文本d 与某类 7 别的相似程度等,之后再由分类器从中完成抉择。多文本分类更为复杂,此时文 本分类的任务是建立起适用于多类别的分类器。 在本文中,我们仅研究了单类别分类。 2 2 文本分类的一般流程 从定义可知,文本分类的流程包括两大步:训练和分类。首先是训练过程, 给定训练集,然后把训练集的文本统一表示( 常用的是向量空问模型v s m ) ,再通 过特征提取降维,最后通过各种分类模型训练出一个分类器,训练过程结束;接 着是分类过程,给定一个新文本,同训练文本一样,经过向量表示、特征提取后 送入分类器,输出该文本所属类别( 一个或多个) 。 文本分类系统的流程如图2 1 所示:由文本预处理、文本表示、分类器训练和 评测器四个主要模块构成一个循环体系。反馈机制根据系统在测试文本集上的测 试结果,启发性地调整特征选择方法和分类器训练的参数,使得分类器显示更佳 的分类效果。 图2 - l 文本分类的基本流程 f i g u r e 2 - 1t h ep r o c e s so ft e x tc l a s s i f i c a t i o n 从前面的文本分类流程图中可以看出,文本分类的关键技术包括文本表示、 分类算法、分类器性能评估几个方面。这些技术是文本分类的基础知识,下面主 要就以上的文本表示问题,分类算法分别简要介绍。分类器性能评估将在第四章 再详细介绍。 2 3 文本表示 计算机并不具有人类的智能,我们人在阅读文章后,根据自身的理解能力可 以产生对文章内容的模糊认识,这种认识是对文本语义的理解。而根据当前的计 算机技术的研究水平,机器还不可能“读懂”人能够理解的自然文本,从根本上 说,它只认识0 和1 ,所以必须将文本转换为计算机可以识别的形式。计算机的发 展离不丌数学,因此,要想让计算机“读懂”文本,必须能够找到用于文本表示 的数学模型。 2 3 1向量空间模型 随着信息检索技术的发展,逐渐发展起来的几种文本检索模型主要有:布尔 模型( b o o l e a nm o d e l ) 、向量空间模型( v e c t o rs p a c em o d e l ,简称v s m ) 、概率模型 ( p r o b a b i l i s t i cm o d e l ) 等,这些模型从不同角度使用不同的方法处理特征加权、类别 学爿和相似计算等问题,而向量空间模型是最有效的文本表示模型4 1 。 在模型中,只考虑词的出现频率,不考虑文档中词出现的先后次序关系,并 且,词之问要求是互异的,这样文档空问被看作是由一组j 下交词条向量所组成的 向量空间,每个文档表示为其中一个范化的特征向量,表示如下: y ( d ) = ( t l ,h ( d ) ;t i ,w ( d ) ;0 ,( d ) ) 其中,f ,为词条项,w ( d ) 为f ,在d 在中的权值。可以将d 中出现的所有单词 作为f ,也可以要求i 是d 中出现的所有短语,从而提高内容特征表示的准确性。 w ( d ) 一般被定为在d 中出现频率斫( j ) 的函数,即:w ( d ) = q , ( t f ( d ) ) 。不同的函 数适用于不同的算法。常用的缈有: 布尔溅缈= l 黝兰毛; 平方根函数: 缈= 斫( d ) 对数函数: 缈= l o g ( t f ( d ) + 1 ) t f i d f 函数: 伊= t f , ( d ) l o g ( n n i ) , 其中,n 为所有文档的数目,n i 为含有词条疋的文档数目。 9 2 3 2特征项的粒度 通常,我们可以选择单词、短语、概念等作为特征词。英文的最小语义单位 是单词,且单词与单词之间以空格作为分隔符。所以从文本中最初提取出来的一 般是单词,单词再经过进一步的处理成为短语、概念等。下面分别讨论特征词的 粒度为单词、短语、概念时的情况。 ( 1 ) 以单词作为特征词。这是最简单的特征词表示。向量中的每个特征词对应于文 本集中的一个单词,一般会忽略大小写区别。实际操作中并不把所有的单词都 作为特征词处理,通常会去掉“停用词”( s t o pw o r d s ) 表中的词,“停用词 表中存放有不包含分类信息的介词、连词等词。同时为了不使同一词源的词多 次出现,常常还采用提取词干的方法去掉单词的后缀,比如“t e a c h ”、“t e a c h e r 、 “t e a c h i n g ”都被转化为其一般形式“t e a c h ”存放于特征向量中。 ( 2 ) 以短语作为特征词。以单词作为特征词,忽略了语法结构,段落、句子和单词 的顺序没有被考虑在内,因而原文本中相当数量的信息没有被有效地表示出 来。而单词在不同的短语中意义往往是不同的,采用短语作为特征词正是为了 保留更多的区分类别的特征信息。从文本集中抽取短语不外乎两种方法:其一 是统计方法,通过对词的共现概率统计而实现对短语的发现,这种机器学习的 方法能够适合于广泛的领域,但是需要大量的训练样例;其二是基于规则的方 法,通过标注词典以及组词规则来识别短语,但是该方法在语法上不够灵活, 而且很难解决词义的歧义性,同时词典中不可能包含所有的自然语言词汇,也 很难穷尽所有的组词规则。 ( 3 ) 以概念作为特征词。这种方法是通过将源文本中的单词根据某种联系进行合 并,最大化内部的相似度,最小化类间的相似度,并进而将词抽象到概念层次, 以此来生成特征词。这样产生的特征词包含较多的语义信息且因为相似的信息 被合并而具有较低的冗余。该方面所涉及的一些方法与与本文的研究有着很密 切的联系,因此本文将在第三章中详细讨论这些方法。 此外,还有些形式也可以作为特征词,比如n 元组、某种规律性的模式等【27 1 , 但主要还是以上三种用得较为广泛。这三中中后两种是在前种的基础上通过某 种方法组合或综合而成,d a v i dl e w i s 等一致认为在英文分类中采用优化合并后的 特征词比较合适【2 8 】;由于我们也希望将语义的因素考虑进来,故本文研究的方法 主要以概念作为特征词。 l o 2 3 3特征项的选择 特征选择是指在文本预处理的基础上,为了提高文本内容的类别区分能力和 减少计算复杂度而删掉了文本中不能贡献或贡献很少类别信息的词条。选取特征 项有以下几个原则:一是应当选取那些包含语义信息较多,对文本的表示能力较 强的语言单位作为特征项;二是文本在这些特征项上的分布应当有比较明显的统 计规律性;三是这种选取过程本身应当比较容易实现,其时间和空间开销都不应 当太大。 与字相比较而言,词汇能够比较完整地表达语义信息。然而,并不是所有词 都适合作为特征项,文献【2 9 】表明,高频词和低频词对文本的表示作用均小于中频 词。因为高频词在所有文章中都有相近的较高频率;低频词在文本中出现次数少, 不适合采用统计方法来处理;而中等频度的词和文本表达的主题比较相关,表示 能力最强【3 0 】。 常用的特征选择方法有文本频率法( d f ) 、信息增益( i n f o r m a t i o ng a i n ) 、互信息 【m u t u a li n f o r m a t i o n ) 、开方拟合检验( c h i ,力2 一t e s t ) 、术语强度( t s ,t e r ms t r e n g t h ) 。 根据不同的特征选择算法,同一篇文本会得到不同的特征表示,选择最优的特征 选择算法尤为重要。向量空间模型表达效果的优劣直接依赖于特征项的选取,以 及权重的计算。根据目前研究的成果,上述几种特征选择算法的优劣如下:c h i , i g d f t s m i 3 1 1 。 2 3 4特征项的权重计算 经典的t f i d f 3 2 】方法对于特征项权重的计算考虑以下两个因素: ( 1 ) 词语率i f ( t e r mf r e q u e n c y ) :词语在文档中出现的次数; ( 2 ) 词语倒排文档频率i d f ( i n v e r s ed o c u m e n tf r e q u e n c y ) : 该词语在文档集合中分布情况的一种量化,常用的计算方法是 l o g :( n n 。+ 0 0 1 ) ,其中为文档集合中的文档数目,n 。为出现该词语的文章 数。 根据以上两个因素,可以得出公式: = 娠l 0 9 2 ( n n + 0 0 1 ) ( 2 一1 ) 其中以为词语瓦在文档口中出现的次数,为词语瓦在文档口中的权值, k = l ,2 ,m ( m 为词的个数) 为了计算方便,通常要对向量进行归一化,最后有: 肾渺( f 一) l o g ( n n i + o 0 1 ) 7 厚纵f ,啪1 0 甙川”o 0 1 ) 2 ( 2 - 2 ) 以上公式的提出是基于这样一个考虑:对区别文档最有意义的特征词应该是 那些在文档中出现频率足够高而在文档集合中的其它文档中出现频率足够少的词 语。 r o b e r t ob a s i l i ( 19 9 9 ) 在这个算法的基础上,提出了t f * i w f * i w f 算法【3 3 】,实 验证明,t f * i w f * i w f 比t f 宰i d f 的分类效果有很大的提高。其算法公式如下: ( w ,d ) = t f ( w i ,d ) 木i d f ( w i ) = ( ) 木( 1 0 9 ( ( w ) ) ) 2 ( 2 3 ) 其中,( w ) 是训练语料库中出现w 的次数,是训练语料库中所有词出现次数 之和,( ) 是文本d 中出现w 的次数。 2 4分类器 分类器的实现原理因采用的分类算法而异。文本分类算法就是一个建立从文 本属性到文本类别空间的映射过程。国外对于文本分类算法的研究丌展的较早, 也较为完整。例如,对b a y e s 、k n n 、r o c c h i o 、s v m 、神经网络等算法都有较为 详细的研究和性能的比较3 3 3 4 1 。总体而言,这些算法在分类性能上差别不太大, 以k n n 和s v m 稍好。于是,本文重点讨论这两种算法。 2 4 1支持向量机 支持向量机( s u p p o r tv e c t o rm a c h i n e s ,s v m ) 3 5 3 6 3 7 】是统计学习理论中最年轻的 内容,它借助于最优化方法解决机器学习问题,是数据挖掘中的一项新技术。s v m 最初于2 0 世纪9 0 年代由v v a p n i k 提出,近年来在其理论研究和算法实现方面都 取得了突破性进展。s v m 是建立在统计学习理论的v c 维理论和结构风险最小原 理基础上的,根据有限的样本信息在模型的复杂性( 即对特定训练样本的学习精度 ( a c c u r a c y ) ) 和学习能力( 即无错误地识别任意样本的能力) 之间寻求最佳折衷,以期 获得最好的推广能力( g e n e r a l i z a t i o na b i l i t y ) 。其基本思想是首先通过非线性变换将 输入空间映射到一个高维特征空间,然后在这个新空间中求取最优线性分类面, 而这种非线性变换是通过定义适当的内积函数( 核函数) 来实现的。 在s v m 方法中,只要定义不同的内积函数,就可以实现多项式逼近、贝叶斯 分类器、径向基函数( r a d i a lb a s i cf u n c t i o n ,r b f ) 方法、多层感知器网络等许多现 有学习算法。 下面主要介绍一下该方法的原理。 1 2 s v m 是从线性可分情况下的最优分类面发展而来的,基本思想可用图2 2 的 两维情况说明。图中,实心点和空心点代表两类样本,h 为分类线,研,凰分别 为过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离叫做分 类问隔( m a r g i n ) 。所谓最优分类线就是要求分类线不但能将两类j 下确分丌( 训练错误 率为o ) ,而且使分类问隔最大。分类线方程为x o c o + b = 0 ,我们可以对它进行归一 化,使得对线性可分的样本集( 而,y i ) ,f = 1 ,2 , ,r l ,石r d , y + 1 ,- 1 ) ,满足 乃 ( 缈薯) + b 】- 1 0 ,f = l ,2 , ,刀 ( 2 - 4 ) 此时分类间隔等于2 川缈l i ,使间隔最大等价于忪1 2 最小。满足( 2 4 ) 且使去0 叫1 2 最 小的分类面就叫做最优分类面,凰,仍上的训练样本点就称作支持向量。 h t o 2 i ;w i 图2 - 2 线性可分情况下的最优分类面 f i g u r e 2 - 2s k e t c hc h a r to fs v mi n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度门窗行业技术标准制定合同
- 发廊翻新意向金合同样本
- 电子产品批发居间合同范本
- 食品加工居间合同格式
- 钢筋制作绑扎劳务分包合同
- 私人英语家教一对一教学服务合同协议
- 墨汁的粘度调节与应用考核试卷
- 人口结构变化对行业前景的长期影响考核试卷
- 成人高等教育电机与电力拖动考核试卷
- 实木切片美学设计与创意考核试卷
- 福建省泉州市晋江市2024-2025学年七年级上学期期末生物学试题(含答案)
- 2025年春新人教版物理八年级下册课件 第十章 浮力 第4节 跨学科实践:制作微型密度计
- 货运车辆驾驶员服务标准化培训考核试卷
- 财务BP经营分析报告
- 三年级上册体育课教案
- 2024高考物理二轮复习电学实验专项训练含解析
- 2024年全国统一高考英语试卷(新课标Ⅰ卷)含答案
- 高中英语:倒装句专项练习(附答案)
- 2025届河北衡水数学高三第一学期期末统考试题含解析
- 2024年山东省青岛市普通高中自主招生物理试卷(含解析)
- 2024信息技术数字孪生能力成熟度模型
评论
0/150
提交评论