已阅读5页,还剩56页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着互联网的发展,网络成为人们获取自己需要的信息的重要途径,w e b 信息抽取 是一种可以从w e b 页面信息中抽取出结构化的信息的技术,为人们从浩瀚如海的i n t e m e t 网上获取信息提供了便利,包装器技术就是其中的一种。然而现在w e b 页面上的信息变 得越来越密集,一个页面可能会提供具有不同含义的数据块信息,这种页面被称作多个 信息块w e b 页面。在以往的w e b 信息抽取技术中,包装器大部分针对只含有一个信息块 的w e b 页面,而不适用于这种多个信息块w e b 页面。因此针对以往包装器的适应性缺点, 本文提出了一种对应信息块的子树模型的表示方法,在这个子树模型的基础上提出了一 种基于树模型的多包装器生成算法,并设计了基于树模型的多包装器信息抽取系统。 基于树模型的多包装器信息抽取系统首先将多信息块w e b 页面解析为d o m 树,然后 通过一种基于d o m 树的页面分块方法将多信息块w e b 页面分块形成多个子树模型,每个 信息块均对应一个子树模型,提出一种k e y - s u b t r e e 的表示方法用来表示子树模型,为 每个子树模型赋予k e y - v a l u e 值用来区分彼此,因此可以根据k e y - v a l u e 值划分形成以 k e y - v a l u e 值为区别关键词的k e y - s u b t r e e 集合。最后在多包装器生成过程中,根据 t r e e a l i g n 算法的思想提出一种基于树模型的多包装器生成算法m u l t i 娟哟p p 耐算法, 并用它以k e y - s u b t r e e 集合为对象生成各个信息块对应的包装器,使得页面中的每个信 息块对应一个包装器,生成了多个包装器。将这多个包装器放入一个包装器集合中,以 k e y - v a l u e 值作为区别关键词来区分每个包装器。 设计信息抽取实验,将基于树模型的多包装器信息抽取方法和另外两种多信息块 w e b 页面的信息抽取方法进行比较,基于树模型的多包装器信息抽取方法在准确率和召 回率上都有了很大的提高。通过k e y - s u b t r e e 中的k e y - v a l u e 值来选择包装器来抽取信息 块的结构化信息时,抽取效率也非常高。 关键词:多信息块,信息抽取,子树模型,多包装器 r e s e a r c ho f m u l t i p l ew r a p p e r si n f o r m a t i o ne x t r a c t i o ns y s t e m b a s e d0 nt r e em o d e l f e n g l i n ( c o m p u t e rs c i e n c ea n dt e c h n o l o g y ) d i r e c t e db ya s s o p r o f s u oh o n g g u a n g a b s t r a c t w i t ht h ed e v e l o p i n go ft h ei n t e r n e t ,t h en e t w o r kh a sb e c o m e st h em a i nw a yo fg e t t i n g i n f o r n l a t i o nf o rm a n ,t h ew e bi n f o r m a t i o ne x t r a c t i o ni so n et e c h n o l o g yt h a te x t r a c t ss t r u c t u r e d i n f o r m a t i o nf r o mt h ew e bp a g e s ,w h i c hp r o v i d i n gm u c hc o n v e n i e n tt ou s e r s ,a n dt h e w r a p p e r si n f o r m a t i o ne x t r a c t i o nt e c h n o l o g yi so r et y p eo ft h i st e c h n o l o g y b u tw i t ht h e a m o u n tg r o w i n go ft h ei n f o r m a t i o no n l i n e ,t h ei n f o r m a t i o no fw e bp a g eb e c o m e sm o r ea n d m o r ei n t e n s i v e l y ,t h a ti ss a i dt h e r ea l em a n yd i f f e r e n tm e a n i n gd a t ab l o c ki nt h es a m ep a g e , t h i st y p ep a g ec a l l e dt h em u l t i p l ei n f o r m a t i o nb l o c k sw e bp a g e i nt h ep r e v i o u si n f o r m a t i o n e x t r a c t i o nt e c h n o l o g y ,t h ew r a p p e r sa r em o s t l ys e tf o rt h ew e bp a g ew h i c hh a so n e i n f o r m a t i o nb l o c k , s ot h e ya l eu n a b l et od e a lw i t ht h em u l t i p l ei n f o r m a t i o nb l o c k sw e bp a g e b e c a u s eo ft h ea d a p ta b i l i t yo ft h ea b o v em e n t i o n e ds h o r t c o r n i n g s ,t h i sp a p e ra l s op r o p o s e sa r e p r e s e n t i o nm e t h o df o re a c hs u b - t r e em o d e ,a n db a s i n go nt h i ss u b - t r e em o d e l ,t h i sp a p e r p r o p o s e sam u l t i p l ew r a p p e r si n f o r m a t i o ne x t r a c t i o nm e t h o d ,a n dd e s i g n i n gt h em u l t i p l e w r a p p e r si n f o r m a t i o ne x t r a c t i o ns y s t e mb a s e do nt r e e - m o d e l f i r s t l y , t h ei n f o r m a t i o ne x t r a c t i o ns y s t e mb a s e do nt r e e m o d e lw i l lp a r s e st h em u l t i p l e i n f o r m a t i o nb l o c k si n t od o mt r e e s ,a n dt h e nt h r o u g ho n ed i v i d et e c h n o l o g yt od i v i d et h ew e b p a g ei n t om a n yb l o c k s ,a n do n eb l o c kw i l lc o r r e s p o n d i n gt oo n es u b - t r e em o d e l t h i sp a p e r p r o p o s e sar e p r e s e n t i o nm e t h o df o re a c hs u b - t r e em o d e l ,i ti s c a l l e dk e y - s u b t r e e ,t h e k e y - s u b t r e es e tw i l lb eg i v e nak e y - v a l u et od i f f e r e n tf r o me a c ho t h e r t h ek e y - v a l u ew i l l b eu s e dt of o r mt h es e to ft h ek e y - s u b t r e es e t i nt h ef o u n d a t i o no ft h ea l g o r i t h mo f t r e e - a l i g n , t h i sp a p e rp r o p o s e s am e t h o do f g e n e r a t i n g m u l t i p l e w r a p p e r s s a l g o r i t h m - m u l t i - w r a p p e ra l g o r i t h m ,w h i c hb a s e do nt h ek e y - s u b t r e es e tt og e n e r a t et h e w r a p p e rf o re v e r yb l o c k s oo n ew r a p p e ri sc o r r e s p o n d i n gt oo n eb l o c k ,t h ew r a p p e r sw i l lb e c o l l e c t e di n t oaw r a p p e r ss e ta tt h ee n d ,a n dt h ek e y - v a l u ei sa st h ed i f f e r e n c ei t e mb e t w e e n t h ew r a p p e r s t h i sp a p e rd e s i g n st h ei n f o r m a t i o ne x t r a c t i o n e x p e r i m e n t s ,w h i c he o m p a r s i n gt h e m e t h o do fm u l t i p l ew r a p p e ri n f o r m a t i o ne x t r a c t i o na n dt h eo t h e rt w oi n f o r m a t i o ne x t r a c t i o n m e t h o d sf o rt h em u l t i p l ei n f o r m a t i o nb l o c k sw e bp a g e s ,t h ea c c u r a c ya n dt h er e c a l lr a t eu s i n g t h em u l t i w r a p p e ra l g o r i t h mh a si m p r o v e dg r e a t l y i ft h r o u g hc h o o s i n gt h ek e y - v a l u eo ft h e k e y - s u b t r e et og e tt h ew r a p p e rf o rt h eb l o c k , a n de x t r a c t et h ei n f o r m a t i o no fo n eb l o c k ,t h e r e s u l t sa l s oe x p r e s st h em e t h o dh a sah i 曲e f f i c i e n c y k e yw o r d s :m u l t i p l e - b l o c k s ,i n f o r m a t i o ne x t r a c t i o n ,s u b - t r e em o d e l ,m u l t i p l e - w r a p p e r s 关于学位论文的独创性声明 本人郑重声明:所呈交的论文是本人在指导教师指导下独立进行研究工作所取得的 成果,论文中有关资料和数据是实事求是的。尽我所知,除文中已经加以标注和致谢外, 本论文不包含其他人已经发表或撰写的研究成果,也不包含本人或他人为获得中国石油 大学( 华东) 或其它教育机构的学位或学历证书而使用过的材料。与我一同工作的同志 对研究所做的任何贡献均已在论文中作出了明确的说明。 若有不实之处,本人愿意承担相关法律责任。 学位论文作者签名:晷互耻 日期:7 汐9 年岁月;。 日 学位论文使用授权书 本人完全同意中国石油大学( 华东) 有权使用本学位论文( 包括但不限于其印 刷版和电子版) ,使用方式包括但不限于:保留学位论文,按规定向国家有关部门( 机 构) 送交学位论文,以学术交流为目的赠送和交换学位论文,允许学位论文被查阅、 借阅和复印,将学位论文的全部或部分内容编入有关数据库进行检索,采用影印、 缩印或其他复制手段保存学位论文。 保密学位论文在解密后的使用授权同上。 学位论文作者签名:z 马巫翻 指导教师签名: 搴丕三之2 日期:h 矽年岁月乡0 日 日期:加厂。年r 月乡。日 中国石油大学( 华东) 硕上学位论文 第一章绪论 i n t e m e t 的飞速发展使其成为最具潜力的新的信息资源,并为计算机软硬件领域新技 术的产生的资源开辟了新的领域,同时也为传统技术的研究提出了新的方向。滤除信息 垃圾从而获得自己感兴趣的信息已经成为人们面对巨量信息急待解决的问题,w e b 信息 抽取技术的研究就是围绕这个目的展开的。 1 1 课题的背景与意义 为了更加有效的组织和获取网上的数据资料和信息,高效地发现和利用i n t e m e t 上的 资源,从而产生了w e b 信息抽取这个研究领域。w e b 信息抽取技术的主要任务就是将网 页中用户感兴趣的结构化的信息准确地抽取出来,因此它可以帮助人们快速获取信息, 即能够从特定的网页提取出用户感兴趣的信息点,并且将提取出来的信息点以统一的形 式集成在一起,即将信息点转变为更具有语义、更结构化的形式,最后将信息存入到数 据库中或者以w e b 静态页面的形式展示给人们,这样人们可以方便比较和选取自己想要 的信息,例如比较不同的招聘和商品信息。 随着信息量的日益增长,w e b 页面提供信息的密集程度也不断的增强,很多页面都 希望能在有限的空间中提供尽可能多的信息,因而变得越来越复杂,因为同一个页面中 有可能提供不同含义的数据块信息,因此这些数据块信息都可能是人们所关心的信息 块,这种页面即为多个信息块w e b 页面。 针对只含有一个主要信息块的w e b 网页,目前已有的信息抽取技术中,可以手工编 写w e b 网页对应包装器,或者自动生成包装器来完成信息抽取工作。包装器是一种软件 程序,它可以将数据从w e b 页面中抽取出来,进而将它们还原为结构化的数据。不过对 于i n t e m e t 中多信息块网页类型,目前的包装器将不再适用。针对上述包装器的适应性缺 点,本文提出了基于树模型的多包装器信息抽取方法,主要思想是首先将多信息块w e b 网页解析为一棵d o m 树,并对其进行分块最后得到各个信息块的子树模型,基于这些 子树模型来生成各个信息块对应的包装器,让包装器变得更加细化,这样可以更有效的 抽取多信息块网页中的各个信息块结构化信息,抽取效率会有很大的提高,而且在抽取 过程中也可以通过区别关键词选择包装器来抽取感兴趣的信息块中的信息,解决了以往 包装器只针对只含有主要信息块的单信息块网页而不能抽取多信息块网页信息的适应 性问题。这一研究课题有着重要的意义: 】 第一章绪论 1 不局限于单个信息块网页的抽取,多包装器的生成可以高效、方便的抽取出多 信息块网页中的各个信息块中的结构化信息,也同样适用单个信息块的网页, 因此总体抽取效率非常高。 2 生成多包装器后通过区别关键词选择包装器来抽取感兴趣的信息块中的信息, 即可以有选择性的去抽取所需要的信息,因此当只需要页面中某个信息块中的 信息时,则不需要对整个页面进行抽取获得,可以减少不必要的抽取工作,大 幅度提高了信息抽取的效率,对以后的多信息块网页的信息抽取的后续研究工 作有着重要的意义。 3 以多个包装器的生成这一信息抽取技术来抽取多信息块网页信息,为w e b 信息 抽取技术的发展开辟了新的领域,对于在以后的工作中开展面向主题的信息收 集和多信息块w e b 页面的数据重组的研究有重要的指导意义。 1 2 国内外研究现状 ( 一) 国外研究现状 信息抽取技术始于国外,不过开始时间不长,在2 0 世纪6 0 年代的最开始的信息抽取 技术以两个信息抽取项目为代表,这两个项目维持时间都很长。 有一个就是纽约大学的信息抽取研究项卧,它从6 0 年代一直延续到8 0 年代,是通 过对大规模计算语法的建立来应用到医疗领域,例如x 光和医院出院记录,从这些资料 中能够得到信息格式。还有一个项目团是耶鲁大学r 0 9 e rs c h a n k 开展的,开发t f r u m f 系统,这个系统主要是一个以s t o r ys c r i p t 为基础的系统,这个信息抽取系统采用的方法 结合了两种方法,一是r e q u e s td r i v e 方法,另外一个是d a t ad r i v e 方法,将这个系统应用 于新闻网页中,抽取效果不错。 在国外的信息抽取技术的研究比较成熟,并且w e b 信息抽取逐渐成为信息抽取研究 领域中的一个热点,因此国外已经有了不少w e b 信息抽取技术产品。 l m a r l i n 3 】研究了一种信息抽取方法,它通过机器学习来总结待抽取网页中的结构 模式,在抽取时只需要模式匹配即可以得到结构化的信息。w h i s k 系统【4 】实用性强,应 用也比较广泛,各种类型的文本均能适用,而且它的工作原理是:输入一些样本网页, 样本网页由人工标识,抽取规则的生成需要经过很多次的重复学习归纳,在每次操作中, 使用者都要标识网页,经过多次的标识识别后,从而归纳出匹配模式,进而可以抽取出 信息,多槽的特点让这个系统从网页中一次性抽取多个结构化信息。 2 中国石油大学( 华东) 硕上学位论文 w 4 f 系统【5 】的原理是通过解析w e b l n 页中的文档结构,将其转换为d o m 树,d o m 树可以反应网页的层次结构,然后采取一种方式产生匹配模式规则,这种方式可能是自 动化的也可能不是完全自动化的,如果引入一些启发式的规则,那么该系统的信息抽取 过程将非常容易。 s r v t 6 系统是由d f r e i t a g 开发,采用的算法是t o p d o w n 形式的,联系性比较强,在 信息抽取的时候,使用者应该事先给出一些标有待抽取信息块和特征的网页,网页中的 特征是以字符的形式存在的,最后算法会输出针对待抽取区域的匹配模式。 美国s 对组织的f a s t u s 系统【7 1 针对对象主要是自由文本,系统会将抽取出来的信息 放入数据库中,它的抽取原理也是规则匹配,并且有一系列的模板的操作,这种模板的 操作是一些没有确定性的状态机的自动操作,系统可以处理和分解文本,因此非常成功 分析和完成了即使与自己的领域毫无关系的文本的工作,这种灵活方法在以后的信息抽 取工作的研究中都有了很好的应用。 信息抽取的一个典型模型是c y m f o n y 公司开发的i n f o x t r a e t 系统【引,它是一种引擎方 式下的信息抽取系统,它的主要特点是针对领域比较专一,即一对一的形式,不过抽取 方式比较灵活,将语法的使用规则和如何全自动学习这两种方式在这个系统里面融为一 体,并且支持在其他领域的一些问和答的形式。 s 0 f i m e a l y 系统【9 】中有穷状态机有着很重要的作用,主要是用有穷自动机来生成包装 器来进行信息抽取。在这个系统里面的有穷状态机比较特别,它为了应对结构的变化加 了很多出边,在抽取过程中,w e b 页面被解析后的字符串被分解,然后通过这些w e b 页 面结构的h t m l 标签的分割标签来推导出信息抽取规则,并且通过这一种分割标签来得 到自动机的下一步状态信息,从而完成转变。 总结了以上所提到的w e b 信息抽取技术以及方法,国外的信息抽取水平目前已经达 到了很高的水平了,有很多都是半自动的信息抽取技术,不过这些信息抽取技术基本上 都是针对于单个信息块网页的,所以也很难适应现在的多个信息块网页。 ( 二) 国内研究现状 在国内,中文信息提取系统的研究中目前在命名实体方面的研究比较多,符合m u c ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 规范的中文信息提取系统还有待发展。 一个基于命名实体的抽取系统,是由张一明等人【1 0 l 开发完成的,这一系统已经在 a c l - 2 0 0 0 会议上成功演示。另外中文信息抽取系统在m u c 的第六届和第七届会议上, 参加了评测,国立台湾大学和新加坡肯特岗数字实验室【1 l 】参加了m u c 第七届会议,在 3 第一章绪论 会议上评测了中文信息抽取系统的识别中文命名实体这一性能,结果比较显著,然而真 正的中文信息抽取工作并没有开始,还在探索阶段。 利用一种二元关系获取方法【1 2 1 1 3 1 用来进行实体提取,这是由姜吉发提出的一种信息 抽取方法,它根据用户初始给出的属于某个类别的几个种子二元关系,从特定的类别集 合中获取更多的二元关系来进行信息抽取;哈尔滨工业大学的车万翔1 1 4 】等人利用2 0 0 4 年的a c e 会议的训练数据并结合两种著名的算法来完成抽取实体关系的任务,抽取后经 过评测,f m e a s u r e 值达到了理想的效果。 袁毓林【1 5 】主要对如何通过对真实的汉语文本来语义标注做了研究,首先可以为抽取 汉语文本中的指定信息提供语义知识来源,并在研究中明确了知识资源是需要有语义知 识来建设成的,表明了语义知识是三个层面构成的。第一个从宏观上来说,篇章知识可 以预测各个段落或者小节等之间是否存在关系以及存在什么关系;第二个是从中观上来 说,建立各种词性之间的相互扶持关系;第三个则是从微观上来说,可以确定句子中各 种词语的逻辑结构状态和各种约束成分状态。 随着目前w e b 信息的页面越来越密集,目前也出现了少数的针对多个信息块网页的 信息抽取技术,有文献【1 6 l 研究了基于扩展d o m 树的信息抽取方法,主要思想是通过扩 展d o m 树的形式来将页面分析成为一个有视觉信息的语义树,然后将树中的节点联系 起来形成了抽取规则。王庆一等则提出了一种针对多信息块网页的抽取规则【1 7 1 ,它通过 描述抽取范围和信息条展示格式来完成多信息块网页的信息抽取,这种抽取规则对多信 息块w e b 网页信息抽取效果不错。 目前国内的信息抽取技术基本上都集中在命名实体的研究上,并且在逐渐完善,而 且分析了上面提到的现有的研究可以总结,现有的很多w e b 页面信息抽取技术对于单个 信息块网页的信息抽取效率很好,有针对多个信息块网页的信息抽取技术很少,而且也 存在一些缺点,基于扩展d o m 树的信息抽取方法在分离信息条的过程是通过页面分割 标记来完成的,因此在分割精度上存在着不足。针对多信息块网页生成的抽取规则技术 也存在着不足,在生成抽取规则之前,并没有通过一些技术区识别重要信息块,这样会 影响以后信息抽取工作中的准确率,在抽取信息时可能会出现误判等。 】3 研究目标及研究内容 i n t e m e t 的飞速发展增强了w e b 页面提供信息的密集程度,让越来越多的w e b 页面更 注重于在页面上有限的空间中来提供更多的有效信息,w e b 页面中的信息交的越来越密 4 中国石油大学( 华东) 硕士学位论文 集,页面中的信息也不再局限于一个信息块中,页面中的每个信息块都可能含有人们所 关注的信息,这种w e b 页面即为多信息块w e b 页面。本文以多信息块w e b 页面为研究对 象来进行信息抽取,主要有以下研究目标: 1 分析含有多个信息块w e b 页面,利用已有的信息分块技术得到多信息块网页各个信息 块所对应的独立的子树模型集合。 2 提出一种表示分块后的信息块对应的子树模型的表示方法,可以较准确的表示子树模 型的层次结构以及各个节点的关系。 3 提出一种基于树模型的多包装器生成算法,它利用t r e e a l i g n 算法的思想,将这种思 想应用到子树模型集合中来为各个信息块生成各自对应的单独包装器,每个包装器均有 各自的区分关键词。 4 把生成的多个包装器存入一个包装器集合中,用多个包装器匹配w e b 页面抽取多信息 块网页中的结构化信息,也可以选择包装器来抽取对应信息块的信息,根据一定的评测 办法来评测抽取信息的效率 我们的研究工作主要集中于以下内容: 在多信息块网页被解析成为d o m 树后,通过分块算法后生成了多个信息块对应的数 据子树模型,并在子树模型集合上来生成多个包装器。在对多个样本网页进行页面分块 和生成子树模型后,提出了k e y s u b t r e e 模型这一概念用来表示每个子树模型,并且每 个子树模型分别对应一个k e y - v a l u e 值,以k e y v a l u e 值为区别将各个w e b 页面中具有 相同k e y v a l u e 值的k e y - s u b t r e e 集合在一起组成了子树模型集合。对于各个子树模型集 合,通过多包装器的生成算法来应用到子树模型集合,即通过多个相似网页的信息块的 对应子树模型- k e y s u b t r e e 的比较来生成信息块所对应的包装器。 用多包装器来抽取结构化信息时,通过多个包装器匹配的方式抽取对整个网页进行 信息抽取得到结构化信息,也可以灵活选择包装器来抽取所需要的对应信息块结构化的 信息,减少了不必要的信息的抽取工作,最后设计和实现了基于树模型的多包装器信息 抽取系统来完成这一信息抽取系统方法的研究。 1 4 论文组织结构 本文分为五章,各章的内容如下: 第一章,阐述了本课题的研究背景,w e b 信息抽取的研究现状,并简要分析了本课 题的研究意义,并概述了主要研究内容。 5 第一章绪论 第二章,主要介绍了w e b 信息抽取的定义,关键任务和应用,并且介绍了w e b 信息 抽取技术的分类,以及分析和总结了各个信息抽取技术的优缺点,分析了w e b 信息抽取 中的包装器技术和介绍了本文要用的d o m 树技术以及它的应用领域。 第三章,主要介绍了本文研究所需要的w e b 页面分块方法以及用到的具体技术的相 关知识,分析了目前针对单信息块w e b 页面的信息抽取方法和已有的多信息块的信息抽 取方法,最后提出了本文中的基于树模型的多包装器的信息抽取的主要研究思想,并对 它进行了简单的概述。 。 第四章,本章节详细描述了基于树模型多包装器方法的系统设计与实现,介绍了系 统抽取流程以及各个流程中所用到的算法,并详细介绍了本文的两个创新点。创新点之 一是在生成子树模型集合时,提出了一种用k e y - s u b t r e e 来表示分块后的子树模型的方 法k e y s u b t r e e 。创新点之二是在k e y s u b t r e e 的基础上,根据t r e e a l i g i i 算法的思 想提出了一种基于树模型的多包装器生成算法,最后生成子树模型集合各自对应的包装 器,并形成包装器集合。在最后给出了具体的实验以及结果,并对结果进行了分析。 第五章,结论与展望,即对本文所做工作进行了总结并对未来的研究工作进行了展 望。 6 中国石油大学( 华东) 硕士学位论文 第二章w e b 信息抽取及相关技术介绍 随着网页上信息的快速增加,w e b 信息抽取技术变得越来越重要了,本章将会对目 前的w e b 信息抽取技术进行概述,也对目前的w e b 信息抽取技术进行了分析从而总结出 各种技术的优缺点,并介绍了本文在研究中会用到的包装器技术以及d o m 树技术。 2 1w r e b 信息抽取概述 2 1 1w e b 信息抽取的定义 w e b 信息抽取的抽取对象主要是w c b 网页上的信息,因此可以将其定义为从w e b 页 面包含的信息块中抽取用户感兴趣的信息,然后将其转化为结构性更强,语义更清晰的 格式,最后存入到信息数据库或者以静态w e b 页面的方式展现出来的一种技术。 2 1 2w e b 信息抽取的关键任务 信息抽取的研究涉及了自然语言处理、人工智能的很多学科,而现在的w e b 页面的 信息组织方式又有着一定的特点。而且它变得越来越不规范,目前很多w e b 页面中为了 吸引用户会插入一些不规范的动作,并且由于h t m l 协议不是特别严格,导致实际应用 中的网页的结构也有很多标签不全的情况,因此各种各样的情况应该都要考虑到,才能 开发出健壮性的信息抽取系统。 现在越来越多的人依赖于网页,都习惯于从网上获取知识或者相关信息,因此信息 抽取技术变的越来越重要,而网上的信息则主要以信息文本的形式存在。w e b 信息抽取 的主要工作就是把信息从不同类型的w e b 文档中抽取出来,可以存入指定的数据库中或 者以静态页面的形式展示给用户,从而方便了用户的查询,也就是说,好的信息抽取系 统可以将互联网变成巨大的数据库。因此,构建一个成功的信息抽取系统其实并不容易, 它需要解决以下几个关键任务。 1 命名实体识别 命名实体识别是信息抽取中正确理解文本,并从这些文本信息中分离得到命名实体 的过程。通俗的说,命名实体其实就是客观世界中存在的实体,并用语言表示出来,每 个实体都有对应的名字,例如可以用人名来代表人。其实命名实体不仅以具体的或者抽 象的形式存在,也可以加入一些与实体有关信息来诠释这个命名实体的含义,因此在进 行命名实体识别时,首先进行命名实体对象的检测,然后再进行其类别的判断。 7 第二章w e b 信息抽取及相关技术介绍 2 句法分析 句法分析的作用可以将输入的页面结构化,因此一般一个页面可以表示为一个树或 者一个树的片段组合在一起。一般需要抽取的信息只是领域中出现的部分事件以及它们 之间的关系。一般文档中经常会在一些固定的地方出现这些句子,只要总结出这些规律 就可以得到模式,再理解出句子中的含义即可完成句法分析工作。 3 篇章分析与推理 分析与推理篇章中的语义关系这一工作挑战性比较大,每篇文章中各个地方都可能 含有用户感兴趣的信息。在这些信息中,相同的命名实体在不同情况下不是同一个含义, 并且有些重要信息也隐藏在文章中,以一个个的片段来存在,因此,这一过程比较难。 目前的信息抽取系统达到的效果只能分析得到一些分散型的文本信息,因此会容易漏掉 用户所关心的重要信息。 4 知识获取 知识获取在信息抽取中也比较难,很多信息知识都是需要预先知道信息的组成方式 和语义信息等,如果有一个语言库可以提供这些信息就容易的多了。词典和信息抽取模 式库的结合可以提供这个作用,普通的词汇以及一些专业词汇被存放在词典中,固定领 域的词汇和普通领域的词汇都在抽取模式中有对应的抽取模式,因此比较有针对性。但 是如果想应用到另外的领域,抽取模式可能很难再被使用,这就指定了信息抽取系统一 般只能对应一个特定领域,如果想去抽取别的领域,则需要重新研究出对应的新的信息 抽取系统才可以。 2 1 3w e b 信息抽取的应用 w e b 信息抽取应用比较广泛,目前最为直接的一个应用就是可以帮助人们在复杂的 w e b 网页中的信息海洋中快速而准确的得到自己所需要的信息,从而能够加快人们获取 信息的速度,提高了效率。在不少领域的实际应用也比较多,例如一些超市为了提高营 业额,会通过分析已经交易过的数据来调整货物的摆放位置;另外公司也可以通过分析 新老客户记录决定哪些客户是潜在客户;还有一些医生通过分析病人患病历史和目前用 药情况来诊断药物效果及评测潜在的问题。 随着信息抽取技术的不断发展,还有一些全新的应用领域出现,例如遥感信息抽取, 它的应用主要是从得到的遥感图像中获取所需信息,并且运用实践的经验和知识来从遥 感影像来识别目标的,并抽取了一些图像目标中的分布信息,还有结构,功能等,抽取 8 中国石油大学( 华东) 硕士学位论文 这些信息比较容易,并将抽取过的信息表示在地图上。 w e b 信息抽取技术也应用到为一些后续的研究中,例如,在搜索引擎、数据挖掘、 机器翻译和文本摘要研究后加入信息抽取技术将会有很广阔的应用价值和前景。 2 2w e b 信息抽取技术 w e b 信息抽取的研究是一个具有挑战性的工作,研究人员也在不断的努力,因此 w e b 信息抽取方法也有了很大的发展,从原理出发将目前的信息抽取方法分为基于正则 表达式的信息抽取、基于自然语言理解的信息抽取、基于本体的信息抽取、基于包装器 归纳的信息抽取以及基于h t m l 结构的信息抽取这五类信息抽取方法。 2 2 1 基于正则表达式的信息抽取 在计算机科学中,正则表达式是指一个用来描述或者匹配一系列符合某个句法规则 的字符串,对单纯字符串数目多的字符串,也能通过正则表达式匹配的方式来完成抽取。 因此在信息抽取中,可以将网页上的信息分解成为一个个的字符流,通过模式匹配来完 成信息抽取,模式匹配的含义就是为待抽取信息来编写相对应的正则表达式,这种方式 比较适用那些正文内容较多的新闻网站等。只要编写了正确的正则表达式,则很容易抽 取出想要的信息,因此在搜索引擎中,就用到了这一信息抽取方法,可以将抽取出来的 文本信息作为索引项,从而很容易的搜索出所想要的信息所在的网页,这些都是同时进 行的,因此也节省了存储空间,提高了搜索引擎的效率。表2 1 则列举了一些w e b 信息抽 取的常用的正则表达式。 表2 1w e b 信息抽取中常用的正则表达式 t a b l e 2 - 1t h er e g u l a re x p r e s s i o no fw e bi n f o r m a t i o ne x t r a c t i o n 正则表达式匹配内容 ( ? d 3 ,4 ) ? - ? k l 7 ,8 常用的电话号码( 格式为3 位或4 位区号,7 位或8 位号码) 如:0 5 4 6 8 7 9 0 3 4 5 6 w 一- 】+ ( 、明? 卜 电子邮件地址,如:s o m e b o d y 1 6 3 c o m ( ? ) w e b 页面标题如: 石油大学 】+ ( ? ) 文章题目,如: 学习使用正则表达式 h t m l 标记,例如 、 、 等 9 第二章w e b 信息抽取及相关技术介绍 表2 1w e b 信息抽取中常用的正则表达式( 续) t a b l e 2 - 1t h er e g u l a re x p r e s s i o no fw e bi n f o r m a t i o ne x t r a c t i o n ( c o n t i n u e d ) ( h r e f l s r c ) s = s 代表网页中文字的超链接或者图片的超链 接,如: 【,】【 柳+ 【,】 h r c f = - “h t t p :w w w u p c c d u c n ( p s 木 木 ( 木? ) 新闻网页正文中的各段落 文献 1 8 】通过正则表达式分析w e b 页面站点上的网页内容,并通过规则匹配抽取栏 目标题来完成语料库的建设工作。文献 1 9 贝l j 在分析中国知网的机构后,构建了一组匹 配其内容的正则表达式,可以精确的抽取中国知网的全部检索内容信息。 如果已知网页特征,那么用基于正则表达式的信息抽取方法抽取效率会非常好,因 为只要知道待抽取网页的特征后则很容易抽取感兴趣的信息,来编写网页对应的匹配规 则会变得非常容易,不过这一方法对于未知特征的网页却力不从心了,因为合适的正则 表达式本来就是要在已知网页信息特点的基础上编写,如果未知网页信息特征,正则表 达式也就没法编写。另外编写人员编程水平的高低也影响正则表达式的水平,因此正则 表达式的编写不成功或者质量不好则会直接影响到信息抽取系统的效率。 2 2 2 基于自然语言理解的信息抽取 基于自然语言理解的信息抽取无论对针对于文法规则较好的文本,还是对于没有文 法规则的文本都有很好的抽取效果,它的操作步骤和自然语言处理的步骤非常相似,主 要经过以下过程: 1 首先将网页中的自由文本被自然语言技术分解为一个个的句子,每个句子中的成 分都要标注。 2 将编好的规则来对应标注后的句子,可以获得待抽取的句子。这些抽取规则是利 用文本中语义联系,短语与短语联系,以及句子之间联系来总结归纳。 通过手工编写抽取规则,也可以通过标注网页后反复总结来得到规则,这种信息抽 取方法比较适用于含有大量文本的w e b 页面。r a p i e r l 2 0 j ,s r v f 2 ,w h i s k l 2 2 1 这三种信 息抽取系统就采用了这种方法来实现。 这里介绍下r a p i e r 系统的信息抽取的原理,r a p i e r 系统通过分析文本中旬子之间 的语义关系来得到抽取规则,即可以通过语句中的这些语义来总结出抽取规则,并且对 一些系统中的词性进行标注,这些词性连接后就形成了句子,句子按照语义关系进行连 接后最后形成所要抽取的文本信息。 1 0 中国石油大学( 华东) 硕士学位论文 w e b 页面信息在自然语言处理技术看来就是自由文本,因此这一方法主要适用于大 量信息,每个句子都比较完整并且语法合理的w e b 页面,不过它也存在着缺点: 1 由于在整个过程中会人为来标注一些网页,并需要不断学习,因此减缓了信息抽 取过程。 2 这一抽取方法针对性比较强,对于含有大量文本的网页抽取效果好,然而w e b 文档是半结构化的,所以方法适用性比较弱,所适用的范围较窄。 3 w e b 页面的超链接和带有页面标签的文本则不会呈现为自由文本的形式,这样就 不符合自然语言处理的处理文本信息特点,抽取信息的正确性就会降低。 2 2 3 基于本体( o m o l o g y ) 的信息抽取 本体起源于哲学,其实就是对世界上客观存在物系统的描述。在计算机科学中的人 工智能界,它被赋予了新的定义,并具有三个特点。“概念化 是指是抽取定义上的概 念化,即它只能够赋予一些客观现象的相关解释;“明确化 是指明确定义了概念使用 和概念类型,形式化是指只需要计算机抽象上来处理;“共享性”是指o n t o l o g y 体现的 是都认可的信息,反映的是相关领域中公认的概念集,它所针对的是团体而非个体。 o n t o l o g y 口- 7 被当作计算机领域内部不同主体之间进行交流的一种语义基础。 b y u e z 3 信息抽取小组开发的信息抽取工具就是把本体应用到w e b 信息抽取中。下图 为b y u 开发的信息抽取系统结构图。 第二章w e b 信息抽取及相关技术介绍 a p p l i c a t i o n w e bd o c u m e n t o n t o l o g y 1rk e y w o r dr u l e s 卜l n 叫p 纛 墨! ! 罂! 兰l 上 l i s to fo b j e c t s , ls q ls c h e m a d i s c r i p t o r s t r i n g p o s i t i o n r e l a t i o n s h i p s t a b l e f 图2 - 1b y u 的基于本体的抽取系统 f i 9 2 - 1 t h ei n f o m a t i o ne x t r a c t i o ns y s t e mb a s e do no n t o l o g yo fb y u 从图2 1 看,系统的输入为w e b 文档和人工编写的某个应用领域的本体,输出为抽取 后的结构化的信息,并被存放在数据库中。该系统中首先需要由专家来手工编写特定领 域的本体,在定义好本体后,系统会将这些w e b 页面中的信息进行分割,得到多个文本 块,文本块可以用来描述同一个对象不同的表现方式的文本信息。通过分析这些描述方 式总结归纳出抽取规则,从而完成模式匹配得到信息抽取结果,并将其放入数据库。 基于本体的信息抽取方法的优点是对网页结构的依赖较少,在任何应用领域中,只 要本体编写比较好,可以对各种网页进行信息抽取。因此它也有缺点: 1 需要某对应领域的专家专门编写,工作量比较大,并且信息抽取的效率依赖于本 体的编写的好坏; 2 对于w e b 页面来说,这一抽取方法使网页的数据结构变得重要了,即对它的要求 更高了; 2 2 4 基于包装器归纳的信息抽取 基于包装器的信息抽取一般通过编写好抽取规则后来进行信息抽取的,因此抽取规 则的确定比较重要,抽取规则需要不断学习待抽取的样本网页来完成,它可以通过一些 1 2 中国石油大学( 华东) 硕士学位论文 分界标签符来完成整个页面中的语义信息项的定位。一般如果从不同的信息源中抽取信 息,需要有一系列的包装器程序库,并且每一类w e b 页面对应一个包装器,其对应的关 系可以表示如下图2 2 所示。 w e b 信息抽取系统 t| | 号叫掣劳 = | 孓蠢t。:! f 论文摘要1 n 天气预报n产品目录1 w c b 页面卜 w e b 页面 、 w e b 页面卜 刊 、叫 图2 - 2 不同的包装器 f i 9 2 - 2 d i f f e r e n tw r a p p
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 脱靴器市场分析及投资价值研究报告
- 废物的运输和贮藏行业相关项目经营管理报告
- 农业作物虫害生物防治行业市场调研分析报告
- 不锈钢冰块产业链招商引资的调研报告
- 手动磨利器具产品供应链分析
- 医疗器械物流行业营销策略方案
- 电子蜂鸣器市场分析及投资价值研究报告
- 竹帘市场发展前景分析及供需格局研究预测报告
- 底裤服装产业链招商引资的调研报告
- 老茧锉刀市场发展前景分析及供需格局研究预测报告
- 细胞工程学:第9章 植物离体受精
- 山东省菏泽市2023年八年级上学期期中数学试题(附答案)
- 统编版高一语文必修上册主题写作:“生命的诗意”作文+课件19张
- 中餐菜单菜谱
- 二十四节气立冬
- MORA-Super技术与功能(完整版)
- 第一单元劳动编织美好生活(教案)四年级上册综合实践活动劳动教育通用版
- 外墙铝格栅施工方案
- 医院家庭病床工作流程及注意事项学习培训课件
- 部编小学语文单元作业设计五年级上册第四单元
- 读书分享-《倾听幼儿-马赛克方法》
评论
0/150
提交评论