(计算机应用技术专业论文)一个web本体分类系统的设计与实现.pdf_第1页
(计算机应用技术专业论文)一个web本体分类系统的设计与实现.pdf_第2页
(计算机应用技术专业论文)一个web本体分类系统的设计与实现.pdf_第3页
(计算机应用技术专业论文)一个web本体分类系统的设计与实现.pdf_第4页
(计算机应用技术专业论文)一个web本体分类系统的设计与实现.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一个w e b 本体分类系统的设计与实现 研究生:王可导师:瞿裕忠( 教授)东南大学 摘要 本体层是语义w e b 体系结构中的核心层,伴随着语义w e b 的研究热潮,对本体的理 论和应用研究越来越引起学术界和工业界的重视。本体的获取和构建是本体相关研究中 的一个基础性环节,而本体重用是降低本体构建的复杂性和成本的捷径。 w e b 本体指在w e b 上发布的本体文档,是现存本体的主要资源。可以预见w e b 本体 的数量会随着相关研究和应用的发展而持续快速增多。鉴于w e b 本体的分布性,需要 对其进行组织和管理。类似于文本自动分类,w e b 本体自动分类是指在给定的分类体系 下,根据w e b 本体的内容自动判别w e b 本体类别的过程。对w e b 本体自动分类有助于提 高w e b 本体的查询效率,有助于本体的有效管理和重用。但是,目前相关研究工作较少 涉及针对本体文档的自动分类,有些研究工作简单地将本体文档作为普通文档来处理, 忽略了w e b 本体具有的明显的图结构特征。 本文调研和归纳了传统文本分类的方法框架和关键技术,深入地解析了w e b 本体的 特性,在此基础上,针对w e b 本体的结构特征和语言学特征,提出了适用的基于向量空 间模型的w e b 本体分类方法。该方法引入本体虚拟文档的概念,以虚拟文档中的词项作 为w e b 本体用于分类的特征项。基于构造自r d f 图的本体的词汇依赖图,采用相关基 于图的排序算法,首先得到与构造本体虚拟文档相关的词汇对于该本体的重要性值,进 而计算特征项的权值。初步实验表明该方法对于w e b 本体自动分类具有可行性。 关键词:本体分类,本体重用,本体,语义w e b ,向量空间模型 t h ed e s i g n & i m p l e m e n t a t i o no f aw e bo n t o l o g yc l a s s i f i c a t i o ns y s t e m g r a d u a t e :w a n gk e s u p e r v i s o r :q uy u - z h o n g ( p r o f e s s o r ) s o u t h e a s tu n i v e r s 姆 a b s t r a c t a st h ec o r er o l eo f t h es e m a n t i cw 曲a r c h i t e c t u r e o n t o l o g yh a sa t t r a c t e dm o r ea n dm o r e a t t e n t i o no nt h er e s e a r c ho fi t st h e o r ya n dr e l a t e da p p l i c a t i o n s t h er e t r i e v a la n dc o n s t r u c t i o n o f o n t o l o g yi st h ef o u n d a t i o no f t h es t u d y , a n do n t o l o g yr e u s eg i v e sas h o r tw a y t or e d u c et h e c o m p l e x i t ya n dc o s to f t h ec o n s t r u c t i o no f o n t o l o g y w 曲o n t o l o g yi so n t o l o g yd o c u m e n tp u b l i s h e do nt h ew e b t h e y a r et h em a i nr e s o u r c eo f t h ee x i s t i n go n t o l o g i e s w i mt h ed e v e l o p m e n to f r e l a t e dr e s e a r c ha n da p p l i c a t i o n t h eq u a n t i t y o f w e bo n t o l o g i e sw i l lk e e di n c r e a s i n g t a k i n ga c c o u n to f t h ed i s t r i b u t e de n v i r o n m e n t ,i ti s i m p o r t a n tt oo r g a n i z ea n dm a n a g eo n t o l o g ye f f e c t i v e l y s i m i l a rt ot e x ta u t o m a t i c c l a s s i f i c a t i o n , a u t o m a t i cw e bo n t o l o g yc l a s s i f i c a t i o ni st oc l a s s i f yw e bo n t o l o g i e so nt h eb a s i s o f ag i v e nc l a s s i f i c a t i o ns y s t e ma c c o r d i n gt ot h e i rc o n t e n t s a u t o m a t i co n t o l o g yc l a s s i f i c a t i o n w i l ln o to n l yi m p r o v et h ee f f i c i e n c yo f w e bo n t o l o g i e sq u e r y , b u ta l s oo n t o l o g ym a n a g e m e n t a n dr e u s e a tp r e s e n t ,t h e r ea r ef e wr e s e a r c h e so no n t o l o g yc l a s s i f i c a t i o n s o m er e s e a r c h e s s i m p l yt r e a tw e bo n t o l o g ya sp l a i nt e x tw h i c hi g n o r et h eo b v i o u sg r a p h i cf e a t u r e so f w e b o n t o l o g y t h ea u t h o ro f t h i sd i s s e r t a t i o ns u m m a r i z e st h ef r a m e w o r k sa n dc e n t r a lt e c h n o l o g i e so f t r a d i t i o n a lt e x tc l a s s i f i c a t i o n ,a n da n a l y z e st h ef e a t u r e so f w e bo n t o l o g y b a s e do nt h a t ,t h e a u t h o rp r o p o s e dav e c t o rs p a c em o d e lb a s e da u t o m a t i cw e bo n t o l o g yc l a s s i f i c a t i o nm e t h o d w h i c ht a k e st h es t r u c t u r ea n dl i n g u i s t i cf e a t u r e so fw e bo n t o l o g yi n t oa c c o u n t i ti n t r o d u c e s t h ec o n c e p t i o no f v i r t u a ld o c u m e n to f t h eo n t o l o g ya n dt r e a t st h el e n l r n a so f t h ev i r t u a l d o c u m e n ta st h ef e a t u r e sf o rc l a s s i f i c a t i o n t h ew a yo f t e r mw e i g h t i n gi sb a s e do i lv o c a b u l a r y d e p e n d e n c yg r a p h , b ya p p l y i n gg r a p h b a s e dr a n k i n ga l g o r i t h m0 n i tt og e tt h ei m p o r t a n c e s c o r eo ft h er e l a t e dv o c a b u l a r i e sf i r s t l ya n dt h e nt oc a l c u l a t et h ew e i g h to fe a c ht e r m p r i m a r i l ye x p e r i m e n t sd e m o n s t r a t et h a tt h ea p p r o a c h t u r n so u tt ob eu s e f u li na u t o m a t i cw e b o n t o l o g yc l a s s i f i c a t i o n k e y w o r d s :o n t o l o g yc l a s s i f i c a t i o n , o n t o l o g yr e u s e ,o n t o l o g y , s e m a n t i cw e b ,v e c t o rs p a c e m o d e l i i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人谯导师指导。f 进行的研究丁作及取得的研究成果。 尽我掰絮,羧了文孛特剐热渡拣注窝致谢鹣缝方蛰,论文窜不包含萁德入e 经发表或撰写遂 的研究成果,也不包含为获得东南大学或其它教育机构的学位或证* i i j i 使用过的材料。岛我 一同工作的间志对本研究所做的任何贡献均已在论文中作了明确的说明弗表示了谢意。 一 研究生签名; 乏当 日期: z 峭f 3 东南大学学位论文使鼹授权骞嘤 东南犬学、中国科学技术信息研究所、图家酗书馆有权保留本人所送交学位论文的复印 释秘逛子文糍,霹鞋采爰影潮、辖窜或其氇复裁手爱保存沧文。本人电于文档豹肉察纂| 缓蘑 论文的内容相一致。除在保密期内的保密论文外,允许论文被夼阅和借阅,可以公布( 包括 刊登) 论文的企部或部分内辩。论文的公布( 包括刊登) 授权东南人学研究生院办理。 蹶:毋。一j j 东南大学硕士学位论文第一章前言 1 1 研究背景 1 1 1 语义w e b 的兴起 第一章前言 1 9 8 9 年,时任p a r t i c l e p h y s i c s 欧洲实验室( c e r n ) 研究员的t i m b e m e r s l e e 和m d e r s b e r g l u n d 创建了h t m l ,实现了信息与信息之间的连接,成为互联网成功的关键性技术。 1 9 9 0 年,t i mb e m e r s l e e 在h t m l 技术的基础上,发明了万维网( w w w ,w 曲) ,作为 i n t e r a c t 上的应用最广泛的一种应用架构,w e b 的首要任务就是向人们提供信息和信息服 务。由于,w e b 使用的简便性,十多年来,w e b 越来越广泛地应用在社会生活的各个领 域,不断影响和改变着人们生活和工作方式。 然而,在伴随着w e b 成功的同时,呈指数级增长的海量信息使得来自各领域的用户对 信息的查找、访问、表示以及维护变得越来越困难。所谓“丰富的数据和贫乏的知识”问 题越来越突出,主要原因在于目前的w e b 的设计目的是面向用户直接阅读与处理,没有提 供计算机可处理的语义信息,因而限制了计算机在信息检索中进一步发挥智能化分析处理 的能力。当前w e b 的关键技术- - h t m l 语言有着先天性的不足,它仅能用于数据显示, 面向用户直接阅读,没有将信息的表现形式、内在结构和表达内容相分离,因而非常不利 于计算机的直接阅读和自动处理。对于信息之间的联系,它也仅仅提供了按“网页的地址” 的链接关系,而非以“内容的语义”来定位信息资源的,网上所有信息都是由不同的网站 发布的,相同主题的信息有可能分散在全球众多不同的服务器上。这些缺陷的存在,导致 了机器在采集、分解和组合w e b 中的信息时,显得力不从心。同时,语言文字本身存在的 语义模糊性和歧义性也增加了机器分析的难度。如何更有效地组织、管理和维护海量信息 并为用户提供有效的服务己成为一项重要而迫切的研究课题。 针对目前因特网在信息表达、检索等方面存在的缺陷,w w w 的缔造者t 吼b e m e r s l e e 于2 0 0 0 年1 2 月在x m l 2 0 0 0 会议上,提出了下一代万维网的概念语义网( s e m a n t i cw e b , 语义w 曲) 并给出了其对未来语义w e b 的体系结构的构想。此后,b e m e r s l e e 于2 0 0 1 年5 月在 “s c i e n t i f i c a m e r i c a n ”杂志发表文章“j “t h es e m a n t i cw e b ”,给出了语义w e b 的定义,并 对其进行阐释,为人们勾勒出一幅语义w e b 的美妙前景。语义w e b 的思想基于利用元数据语 言对w e b 信息资源进行语义上的描述,使计算机能够利用这些语义信息对资源进行“理解” 和处理,并在此基础上,实现更高级的、基于知识的智能应用。如果说,今天的w e b 只是一 个巨大的信息的“容器”,没有揭示信息本身的内容和特性。相对而言,未来的语义w e b 是 懂得信息内容的w e b ,是真正的“信息管理员”。 语义w e b 的构想一经提出,即在世界范围内掀起了学术界和工业界的研究热潮。 寒南大学硕士学位论文第一章前害 1 。l 。2 语义w e b 与奉薅 l 。1 2 1 语义w e b 煞定义与落系绥橡 t i mb e m e r s l e e 等人将语义w e b 定义为翻“语义w e b 是当翦w e b 鲍扩震,其上的僖 患被赋予定义赵好的语义,使得计算机和人之间能够更好地协作。” 程t u n b e m e r s l e e 的构想中,语义w e b 被袋承为如图1 - 1 所示的层次结构: 图1 - 1 语义w e b 的体系结构 1 、第一层由u r i 和u n i e o d e 构成,是整个语义w e b 层次结构的基础。其中u n i c o d e 负责处理资源的编码,保证使用的是国际通用字符集,实现网上信息的统一编码;而u r i ( u n i f o r mr e s o u r c ei d e m i f i e r ,统一资源标识符) 支持对话义w e b 上的对象和资源统一的 耱绷标识,觚嚣馕精确藩惠检索成为可旋。 2 、第二嫠由x m l + 套名空翔+ y d y ls c h e m a 稳戏,主要解决数摇交换孛懿语法闯题。 运j 璧难,标 芒语言将w e b 资源整意静缝秘、内容号数据的表瑗形式进幸亍分离,著支持与 箕宗旗子x m l 的标准迸行无缝集成。 3 、第三层由r d f + r d fs c h e m a 构成。用以撼述信息资源及其类型,为w e b 资源描述 掇供一种通用框架和实现数据集成的元数据解决方寨。 4 、第四层为本体词汇层,用以提供一个对元数据进行描述和表示的通用模型,以便对 攀物以及他们的相互关系进行更深入的描述。 5 、第五层为逻辑层,在本体层之上提供一个描述推理规则的互操作语言,通过所描述 的搿嬖和推理规则对元数据和数据进行某种逻辑推理,从而得出一些潜在的结论。 6 、第六层为证明层,主要是提供一个用来描述推理步骤的证明语言。通过该层,我们 可以对所得到的结论豹正确性进行验证。 7 、第七层为信任层,主要解决推理结论的w 僚性翊题,以保证用户代理a g e n t 在w e b 上遂符个性纯服务秘彼此闻合捧对更为安全可纛。数字签名( d i g i t a ls i g n a t u r e ) 跨越了多屡, 鼓然公共藏钥技本存在魏薅闻鞍长,毽还没囊燕褥澍广泛应嗣,螽采在语义w e b 上吾屡在 帮予豁支持,使一个函俸在一定莛嚣蠹孬戳蘩镁,藏突瑷了信 壬爱( t r u s t ) 静基礁。 2 东南太学硕士学毽论文第一颦前言 以w 3 c 的长远目标来看,语义w e b 最终要实现的是信息在知识层次上的麸窜和语义 上的互操作。在上述层次结构中,第二、三、四层用于表示w e b 信息的语义,是语义w e b 的核心层,也熙目前语义w e b 研究的热点所在。 1 1 ,2 。2 语义w e b 发展与本舔憨笑系 要在语义艨次上实现信息的互撩作憔,需要对信息的禽义脊一致的、共两的璃擀,为了 适应这些需求,本体( o n t o l o g y ) 作为在语义和知识层次上对客观世界的概念建横,自打从 哲学领域引入计算机理论和应用研究领域以来就引起了众多研究人员的关注,并谯知识工 程、自然语言处璎、智能系统集成等许多领域得到了广泛威用。在上节提到的语义w e b 层次 结构中,本体屡位子知识表示与推理屡次的转折点。本体提供的暇语不仅用于描述概念模型, 嚣显还是艇莰攘瀵验证熬基礁。蠢澎碍熙,语义融b 可班簧体楚在奉嚣论基臻g 上辩瑗毒w e b 熬扩展,叠标是傻w e b 上瓣信息美蠢计算梳可良理解豹语义,在本俘黔支持下实现软件a g e n t 对w e b 信息资源进行智能访问和检索。 将本体技术弓l 入w e b 技术中,将从根本上解决目前w e b 襻在的信息格式的异构性、信 息语义的多莺性以及信息关系的匮惹和非统一性等问题。因此,对本体技术的研究是实现语 义w e b 的关键所禚。 1 。i 。3 本诲瓣磷究热患 正是由于与语义w e b 的研究相绪念,本体的研究自2 0 0 0 年也得至i 了广泛地关潍,2 0 0 2 年上半年以前的相关研究集中在对本体的概念、相关理论殿萁相关领域的系统性阐述。自 2 0 0 4 年上半年甄今,出现了新一轮的研巍热潮,对于本体的研究热点具体体现在兰个方面 3 1 : 1 、理论深化研究; 2 、本体在偿惠系统中的应用研究,主要雹括姓理信息缀织、信息检索彝异构偿息系统 互掇终| 瓣麓; 3 、本体份为一种髓在知识层提供知识共事帮复用静z 箍程语义w e b 中瓣瘟用。 本体论研究和语义w e b 研究经常赢相伴而行。i 2 0 0 4 年以后,本体论的理论研究已由单 纯的概念研究辅展为本体构建( o n t o l o g yg e n e r a t i o n ) 、本体映射( o n t o l o g ym a p p i n g ) 、本 体进化( o n t o l o g ye v o l v i n g ) 等方面。本体构建、本体映射和本体进化研究,都涉及到查找 和复用现有本体。 在绩息系统中,壹接基于关键词蕊翳静信息检索技术已不能溱是瑁户在语义和赠识层次 上斡检索露求。露我薪静方法成为研究热点。奉薅蓉予买毒鑫好瓣概念层次结梅器l 对递辑难 理的支持,在傣息检索特别是在基于知识的检索中有着美好的应用前景。创建基予本体的信 息检索系统的蒸本思路可以总结如下: 1 )在领域专家的帮助下,建立相关领域的本体。 2 )收集信息源中的数据,并参照已建立的本体,把收鬃米的数据按规定的格式存储在 元数援艨( 关系数据库、知识库等) 中。 3 ) 对爱产捡索赛瑟获取豹查谤诲袋,奁谗转换器摄据场荣鞠过程痿患,按照零镕把鲞 询请袋转化或瓶定的格式,在零体的帮助下跌元数攒簿中匹配出符合条僚豹数据集 合。 4 )检索的结果经过格式定制处理后,返回给用户。 语义w e b 中和本体相关的研究与戚用主要包括以下几个方颇: 3 东南大学硕士学位论文第一章前言 1 ) 元数据和本体形式化语言的研究。通过标记语言( r d f s 、d a m l 、o w l 等) 形式 化表达领域的元数据和本体。 2 ) 基于逻辑的断言机制的研究。断言引擎根据本体的规则和公理以及本体内部概念关 系的逻辑表达进行推理,处理并得出符合用户语义查询的事实和知识。这包括语义 逻辑的研究和人工智能领域的相关研究工作。 3 ) 查询语言的研究。定义满足基于本体形式化模型建立的语义查询语言,如r d q l 、 o w l q l 和s p a r q l 等。 4 ) 支持r d f 等元数据和本体表达语言的软件接d a l a i 。 5 )软件建设应用。包括本体编辑器的研究。 6 )本体互操作的研究。着重研究不同本体之间共享和互操作的实现机制。 7 ) 智能主体( a g e n t ) 研究。基于语义的智能主体将根据语义和逻辑动态地装配用户 所需的数据并提供对用户透明的服务机制。 8 )语义服务。结合w e b 服务技术和标准,通过提供服务本体描述语言,试图为基于语 义的服务提供相应的机制。 1 2 本文研究工作的目的、意义及主要内容 由上节关于研究背景的介绍可见,在众多与本体相关的研究与应用中,获取和构建本 体是无法回避的基础性环节。由于本体的特性,本体的构建需要丰富的领域背景知识,是 一项耗时费力、极富挑战性的工作。对于千差万别的基于本体实际应用而言,所用本体之 间的差异会直接影响应用的结果,本体构建无疑成为相关应用中的控制性环节。产生于面 向对象思想的本体重用( o n t o l o g yr e u s e ) 为特定应用中本体的构建提供了一条捷径。 本体的充分重用需要创造一些条件和工具1 4 j ,例如,为满足搜索和定位本体的需要, 本体的注册机制将能提供许多便利;为满足给重用本体提供更广泛的选择空间,主动的 w e b 本体搜索和采集将提供重要支持;为了保证和提高w e b 上本体重用的效率,共享本体 应当被分解为足够小的高聚合单元,等等。如何面对众多研究与应用中对于本体的依赖和 需求,改善目前本体构建中本体重用程度不高的实际状况,为本体重用提供丰富和权威的 参考与重用资源,是进一步推进本体和语义w e b 技术发展、促进应用所迫切需要解决的问 题。 各类研究机构以及众多的本体开发人员在w e b 上已经发布了大量的本体文档,成为现 存本体的重要资源,本文将此类在w e b 上发布的本体文档称为w e b 本体,可以预见,随 着对语义w e b 以及本体技术的研究和应用的不断深入,w e b 本体将持续快速增多。w e b 本体作为一类特殊的w e b 文档同样具有分布性的特质,因此需要被有效管理。自动分类是 信息组织和管理的有效方式,类似于文本自动分类,w e b 本体自动分类是指在给定的分类 体系下,根据w e b 本体的内容自动判别w e b 本体类别的过程。对w e b 本体自动进行分类有 助于提高w e b 本体的查询效率,有助于用户更快速而准确地定位到目标本本体,有助于本 体的有效管理和重用。 本文的目的在于构建一个有效的w e b 本体的自动分类系统。本文研究的重点在于:针 对w e b 本体的语言学特性和存在的结构特性,确定恰当的w e b 本体表示模型,并在此基 础上应用传统的分类算法,对性能加以比较和分析,最终实现分类系统。本文研究的立足 点在于w e b 本体不同有普通文本的特殊性。 4 东南大学硕士学位论文第一章前言 1 3 相关的研究现状 本文研究工作主要针对w e b 本体这一类特殊的w e b 文档基于内容的自动分类。 目前各种领域对w e b d o c u m e n t s 自动分类的研究很多,但针对w e b 本体分类的专门研究很 少。 1 3 1w e bd o c u m e n t s 的自动分类 对于w e bd o c u m e n t s 分类的研究主要有以下四种方向 ( 1 ) 只考虑w e b p a g e 本身包含的文本信息和结构信息,直接移植和改进传统 的文本分类的过程和算法; ( 2 )依靠w e bp a g e s 之间的超链接,通过计算新的w e bp a g e 与已分类的p a g e s 之间基于链接特征的相似度,进行分类; ( 3 )提取w e bp a g e s 的元数据信息作为分类特征项 ( 4 ) 更多地考虑分类体系的层次结构信息,如采用基于本体的分类方法。 实验结果显示,将上述方法进行有机地组合,可以明显地提高分类的精度和效率, 如何有机组合这几种方法,是目前研究的方向之一。 w e b 本体( 这里特指以标准本体语言o w l 、r d f s 等编码的,含有本体元素的x m l 文件) 可以看作是一类特殊的w e bd o c u m e n t s i 3 2 本体库系统( o n t o l o g yl i b r a r i e s ) 作为未来本体服务器基础的本体库系统( o n t o l o g yl i b r a r ys y s t e m ) 哪,为本体的 注册、存储和管理提供了不少工具,为本体的重用提供了重要支持。一些有名的本体 库系统,如d a m ll i b r a r y 、s h o e 、i e e es u o 、o n i o n s 都从不同角度对收集到的 本体进行了分类存储和显示,但都没有实现自动分类。 1 3 2 o n t o k h o j as e m a n t i cw e bp o r t a l u n i v e r s i t yo fm i s s o u r i k a n s a sc i t y 开发的o n t o k h o j m ,对采集到的本体进行了分 类,其采用的方法是将w e b 本体看作是普通的平面文本,从而将问题简化为文本分 类( t e x tc l a s s i f i c a t i o n ) 应用传统的分类算法和工具( r a i n b o w ) 。w e b 本体被归类到 o p e n d i r e c t o r y 相应的目录下。 o n t o k h o j 采用了四种分类算法,分别是n b ,r o e c h i o ,k n n ,p r i n d ,用t r u e p o s i t i v e , t r u en e g a t i v e s f a l s ep o s i t i v e s ,f a l s en e g a t i v e s 四种参数来计算精确度( p r e c i s i o n ) 和召 回率( r e c a l l ) 实验结果表明,其中n b 对于o n t o k h o j 来说,分类效果相对最好。 o n m k h o j 的缺陷在于,需要手工地将待分类的文档输入到现有的分类工具。另外, 没有通过有效的实验证明其对高交叉性的领域本体的分类效果,而就本体是对概念的 形式化描述这一本质来说,在高交叉性的情况下能够正确的被分类对于缺乏领域知识 背景的用户找到其所需要的本体是非常重要的。 5 东南大学硕士学位论文第一章前言 1 4 本文的内容安排 本文共分六章,后续各章节内容安排如下: 第二章,概括和总结文本分类的原理、方法框架和相关关键技术。 第三章,概括和总结本体相关的基础知识。 第四章,详述构建w e b 本体的特征向量的具体方法,是本文的重点。 第五章,具体介绍w e b 本体分类系统的设计和实现。 第六章,总结本文的研究工作并展望后续的研究工作。 6 东南大学硕士学位论文第二章文本分类的原理及相关技术 第二章文本分类的原理及相关技术 长期以来对于文本分类的研究已经形成了一套相对成熟的方法论,本文所要研究的是 w e b 本体的自动分类问题,w e b 本体可以看作是一类特殊的w e b 文本,针对其的分类方法应 该依然落在传统的文本分类大的方法框架下。基于此,本章对文本分类的相关基础知识作一 个概述。 文本自动分类采用分类思想组织文献,符合人们的思维习惯和应用习惯,目前已成为最主 要的文本自动处理技术之一。采用文本自动分类可以提高用户进行网上信息搜索的效率,通 过对搜索结果进行分f i n 类,帮助用户快速的对目标知识进行定位,并且能够从中抽取有价 值的知识。文本自动分类最早可以追溯到2 0 世纪6 0 年代初,早期采取词汇匹配法,根据文献 和类名中共现的词汇来决定文献的归属类别。由于分类规则过于简单机械,效果不理想。至 2 0 世纪8 0 年代后期,在文本分类方面占主导地位的是基于知识工程的分类方法,由知识工程 师手工编制决策树等推理规则或专家系统。进入9 0 年代至今,基于机器学习的文本分类逐渐 取代了基于知识工程的方法,成为文本分类的主流技术,并得到了广泛研究,已经形成了一 套相对成熟的方法论。本章的以下内容,将系统简述文本分类的定义,基于机器学习的一般 流程以及关键技术。 2 1 文本分类的定义 简单地说,文本分类是按照预先定义的分类体系,根据文本的内容和属性,自动将待分 类的每个文本归入一个或多个类别中【7 j 。从数学定义角度来说:文本分类是一个映射过程, 它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的 映射。用数学公式表示为: f a ba = ( d 1 d 。d 0 r b = | ,c 2 c 南 其中,a 为所有待分类的文本的集合;b 为给定分类体系下,所有类别的集合。a 可以 为无限集合,而b 必须为有限集合。映射规情文本分类的关键,它是根据训练集的样本信 息总结出来的分类规律,来建立的判别公式和判别规则。 2 2 文本分类的一般流程 文本分类面对的是非结构化的数据。目前文本分类最普遍的技术就是将文本数据结构化 以后,再对结构化的数据施加传统的分类方法。基于机器学习的文本分类方法是指运用从已 经建立分类标记的训练集中学习到的分类知识来判断新文本的归属类别。根据分类结果,机 器学习方法分为独立二元分类和多元分类两种类型。独立二元分类是指对每篇待分类文档都 独立地判断该文档是否属于该类,各个类别互不影响。多元分类则计算待分类文档与所有预 定义类别的相似度,然后根据设定的阈值,输出候选类列表。基于机器学习的文本分类的一 般流程如图2 1 所示: 7 东南大学硕士学位论文第二章文本分类的原理及相关技术 2 3 文本表达: 图2 - 1 文本分类的一般流程 计算机不具备类似人类的智能,人在阅读完文章后可以产生自身对文章的理解,而计算机 却没有这样的能力,为了便于计算机的处理,文本必须表示为计算机可以识别的格式。为了 解决文本自动分类而进行的文本表达是为了自动抽取出能够表达文档主题的特征元素,通常 分为文本预处理,文本表达和特征选择,抽取三个部分来处理。 2 3 1 预处理 文本非结构化或者有限机构化的特性使得传统的针对结构化数据类型的数据挖掘技术 无法直接应用其上,因此需要对文本进行预处理和表示,抽取其特征并用结构化的形式保存, 作为文本的中间表示形式。在对文本进行特征提取和表示前,需要先进行文本信息的预处理。 预处理主要包括两个部分,即分词和去除停用词和高频词。 对于英文文本来说,由于其每个单词之间有空格,所以分词的主要工作是去除单词的前 后缀( w o r ds t e m m i n g ) ,即将同词根的单词映射到一个特征词属性,以减少特征词的个数。 对于中文文本来说,由于中文的表示中词和词之间并没有明显的间隔符号,分词过程是将大 字符集上的连续字串分隔成词串。自动分词问题是中文信息处理的首要问题和难点。目前, 中文分词的方法主要有:机械分词、基于理解的分词、基于统计的分词。由于本文研究的 w e b 本体只考虑以英文描述的,本章对中文分词算法不做详细介绍。 分词后,一般要引入停用词表和高频词表剔除对分类影响不大的词语。其中停用词指的 是那些语法词以及一些虚词、感叹词、连词等,高频词汇是那些在所有的文本中出现的频率 都基本相同的词,如“的是”,高频词的区分性差,也不能作为文本类别的特征。 8 东南大学硕士学位论文第二章文本分类的原理及相关技术 2 3 2 文本的表示 为了使计算机能够真正的处理文本,必须将文本表示成计算机可以处理的数学模型。用 简单而准确的方法将文本表示成计算机能够处理的形式是进行文本自动分类的基础。目前文 本模型主要有g e r a r ds a l t o n 和m c g i l l ”j 于1 9 6 9 年提出的向量空间模型( v s m ) ,d u m a i s , f u m a s ,l a n d a v e r s q h a r s h m a r l t g 于1 9 9 0 年提出隐性语义索引( l s d 模型,b e l k i n 和c r o f t b o l 于 1 9 9 2 年提出概率模型。这些模型从不同角度出发,使用不同方法处理特征加权、类别学习和 相似度计算问题。向量空间模型和机器学习算法在自动文本分类领域中的紧密结合和成功运 用,使得基于向量空间模型的文本表示方法成为文本分类研究领域中文本表示的主流方法。 本章重点介绍向量空间模型。 2 3 3 向量空间模型 向量空间模型( v e c t o rs p a c em o d e l ,简称v s m ) 是s a l t o n 等人于上个世纪 6 0 年代首先提出的,并在著名的s m a r t ( s y s t e mf o rt h em a n i p u l a t i o na n d r e t r i e v a lo f t e x t ) 系统得到成功的应用。近年来v s m 已经成为最简便、高效率、 应用最广泛的文本表示模型之一。 2 3 3 1v s m 的基本思想 v s m 的基本思想是:使用词袋法( b a go fw o r d ) 表示文本,这种表示法的一个 关键假设,就是文章中词条出现的先后次序是无关紧要的,每个特征词对应特征 空间的一维,将文本表示成欧氏空间的一个向量。 2 3 3 2v s m 的基本概念 v s m 的基本概念包括: i 项( t e r m ) :文本的内容特征常常用它所含有的基本语言单位( 字、词、词组或短 语) 来表示,这些基本的语言单位被统称为文本的项,即文本可以用项集( t e r m l i s t ) 表示为d r 屯如d ,其中d 表示文本,“是项,1 k n 。 i i 项的权重:对于含有n 个项的文本d ( t l , 如,常用一定的权重舷表示项如 在文本d 中的重要程度,即庐( t 吼如腑屯鼢,简记为庐( 硝。 1 1 i 向量空间模型( v s m ) :忽略如在文档d 中的先后顺序并要求t k 互异,将文档d 简 化以特征项的权重为分量的向量表示:庐( 吼w e , 耽) 。即把“t 2 , 乙看成一个 n 维的坐标系,两鸭瞄为相应的坐标值,因而庐( w e , 动被看成是n 维 空间中的一个向量。称庐( 吼鸭础为文本d 的向量表示。 i v 相似度( s i m i l a r i t y ) :对两个文本西和西之间的内容相关度( d e g r e eo f r e l e v a n c e ) 的度量被称为相似度s i m ( d , , ,d 。对于文档d 。( w i i , w 。一w 。) 和文档 d 2 ( w 2 l ,w 2 2 ,w 2 一,我们可以借助向量之间的某种距离来表示它们之间的相似 度,常用向量之间的内积公式进行计算: 9 东南大学硕士学位论文第二章文本分类的原理及相关技术 n s i m ( d 1 ,d 2 ) = w l i + w 2 t t t l 或用夹角余弦值来表示: s i m ( d i ,d 2 ) = c o s 0 = 2 3 3 3 权重计算 隔 ( 2 1 ) ( 2 2 ) 一篇文本经过预处理和分词工作后,抽取出能够表示文本特征的特征项,给特征项赋以 权重是为了综合反映了该特征项对标识文本内容的贡献度和文本之间的区分能力,即文本中 越重要的项权重越大。最初的特征权重计算方法是0 、l 赋值法,即,如果文本中出现了该特 征项,那么文本向量的该维为1 ,否则为0 。得到的文本模型就是多元变量伯努利模型 ( m u l t i v a r i a t eb e r n o u l l im o d e l ) ,适合小规模样本,在这种模型中,各个特征在文档中 的相互位置,以及同一个特征在同一文档中出现次数等信息都忽略不计。这种方法无法体现 特征在文本中的作用程度,所以逐渐被更精确的词频代替。词频分为绝对词频和相对词频: 绝对词频,即用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主 要运用t f i d f 公式“: k = 吮溉 ( 2 3 ) 以( t e r mf r e q u e n c y ) 表示项t t 在文本d 。中出现的次数,坝( i n v e r s ed o c u m e n t f r e q u e n c y ) 表示项t i 的反比文本频数,较常用的计算公式为: 坝:1 。g 拦+ 0 0 1 ) ( 2 4 ) 其中,n 表示全部训练集的文本数,n 表示训练集中出现气的文本数。 考虑到文本长度对权值的影响,还应该对公式( 2 3 ) 做归一化处理,将各项的权值规 范到 0 ,1 之间: k = t f , t l o g 喏+ o 0 1 ) ( 2 5 ) 由上述公式计算出的权重,往往有少数项的值远远大于其它项。权值过高的个别项在 分类过程中往往会抑制其它项的作用,因此在计算权重时,应对统计出的词频做适当的均 1 0 扑 w im 。m 东南大学硕士学位论文 第二章文本分类的原理及相关技术 衡处理。经过词频均衡处理的权重计算公式如下: w 出= ( 2 6 ) 多年的实验证明,t f - i d f 公式是文本处理中的一个有效工具。但是t f - i d f 公式只是一种 经验公式,并没有坚实的理论基础。 需要强调的是,权重的计算只能视具体情况而定,至今仍没有普遍使用的“最优公式”。 2 3 3 4v s m 的优、缺点分析 向量空间模型的最大优点在于它在知识表示方法上的巨大优势:文本被形式化为多维 空间中的向量,把对文本内容的处理简化为向量空间中的向量运算,大大降低了问题的复 杂度。并且也正因为把文本以向量的形式定义到实数域中,才使得模式识别和其它领域中 的各种成熟的计算方法得以应用,极大提高了自然语言文本的可计算机性和可操作性。所 以说,文本的形式化表示方法一向量空间模型是基于文本处理的各种应用得以实现的基 础和前提。 同时,向量空间模型是一种忽略了特征项之间顺序的词袋文本表示模型,它虽然带来 了计算和处理上的方便,但却损失了大量的文本结构和语义信息。另外向量空间模型是建 立在所有项两两正交这一假设的基础上的,没有考虑特征项之间的相关性。对于有着丰富 语义的自然语言来说,这种假设过于严格,不能很好地反映自然语言的特征。总之,用简 单的初等运算来代替语义,误差势必存在。 2 3 4 特征选择和特征抽取 构成文本的词的数量非常之大,导致了表示文本的向量空间的维数也相当多,可以达到 几万维,造成计算时间过长,分类效率低,因此需要对文本进行降维。维数削减的根本任务 就是将分散在各个原始特征中的有关模式类别的统计信息有效的集中起来,以达到提高统计 分类器的识别能力和降低分类器训练和分类工作量的目的。特征选择和特征抽取可以降低特 征空间的维数,从而达到降低计算复杂度和提高分类的准确率的目的,并为分类器的设计提 供参数。 特征抽取( f e a t u r ee x t r a c t i o n ) :依据某一原则构造原始特征空间到新的低维特征空间 的一个变换,从而将分散在众多原始特征中的分类信息或鉴别信息集中到少量的新的特征上 来。特征抽取可以看作从测量空间到特征空间的一种映射或变换,一般是通过构造一个特征 评分函数,把测量空间的数据投影到特征空间,得到在特征空间的值,然后根据特征空间中 的值取值最高的若干个特征。常用的特征抽取方法可以分为三类:主成分分析、潜在语义标 引和非负矩阵分解“。 特征选择( f e a t u r e s e l e c t i o n ) :依据某个准则从众多原始特征中选择部分最能反映模 东南大学硕士学位论文第二章文本分类的原理及相关技术 式类别统计特性的相关特征。简单的说,特征选择是从一组特征中选出一部分最有代表性的 特征。文本分类中,用于特征选择的统计量大致有:常用于特征选择的评估函数有文档频率 d f 、互信息m i 、信息增益i g 、期望交叉熵c e 、c h i 统计、特征强度等“。这些统计量从不同 的角度度量特征对分类所起的作用,以下作简单介绍: 1 文档频率 词条的文档频率( d o c u m e n tf r e q u e n c y ,简称d f ) 是指在训练集中出现该词条的文档数。 采用d f 作为特征选择基于如下基本假设:d f 值低于某个阈值的词条是低频词,它不含或 含有较少的类别信息。将这样的词条从原始特征空间中移除,不但能够降低特征空间的维 数,而且还有可能提高分类的精度。d f 是最简单的特征选择技术,由于其具有相对于训练 样本规模的线性计算复杂度,它能够容易地被用于大规模样本统计。但是在信息抽取研究 中却通常认为d f 值低的词条相对于d f 值高的词条具有较多的信息量,不应该将它们完全 移除。一般它并不直接被应用于特征选择,而是常把它作为评判其它评估函数的基准。 2 互信息 互信息( m u t u a li n f o r m a t i o n ,简称m i ) 在统计语言模型中被广泛采用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论