(计算机软件与理论专业论文)基于结构和内容的web数据抽取技术研究.pdf_第1页
(计算机软件与理论专业论文)基于结构和内容的web数据抽取技术研究.pdf_第2页
(计算机软件与理论专业论文)基于结构和内容的web数据抽取技术研究.pdf_第3页
(计算机软件与理论专业论文)基于结构和内容的web数据抽取技术研究.pdf_第4页
(计算机软件与理论专业论文)基于结构和内容的web数据抽取技术研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 目前的互联网已经发展成为拥有上亿用户和几百万个站点的巨大的分 布式信息空间,而且其信息量仍在飞速增加,因此查询网上信息变得日益 重要。大多搜索引擎采用的方法是用户提出需要查询内容的关键词,搜索 引擎根据关键词确定查寻的内容。由于这种方法不能对网页中较细节的信 息进行查询,所以研究人员希望借鉴一些数据库技术进行互联网上信息的 查询,因此如何从w e b ( 环球网) 页面,特别是从h t m l ( h y p e rt e x tm a r k u p l a n g u a g e :超文本标识语言) 文档中抽取有用信息,已经成为基于w e b 页面 的信恳检索系统迫切需要解决的问题。基于上述背景,本文做了以下几个 方面的工作。 首先,对目前抽取准确度和完整程度最好的e x a l g 方法进行了深入分 析,指出e x a l g 系统中存在着成对标签不一致,模板中的文字节点出现多 个出现向量,等价类识别错误等问题。 其次,提出了一个改进的数据抽取方法,即e x a l g + :给出有关定义 和抽取流程;提出等价类的近似顺序性和近似嵌套性概念。采取具体的标 签技术解决e x a l g 存在的问题:进行标记的角色区分时,将配对的标签放 在一起加以处理;通过合并文字节点,使标签满足系统设定的最小支持度; 利用d o m 树的路径和等价类的区间位置差异来区分正确等价类:选择加入 到与标记相近的等价类中的方法,来处理等价类分割时产生的问题。使用 每种标签技术时都给出了实例,并给出了e ) 已址g + 算法描述。 最后,利用e x a l g 作者给出的数据源和实验结果,在添加了部分新的 页面实例后,验证e x a l g + 系统在准确度和完整程度方面的优势;同时对 e x a l g + 系统和现有的其它数据抽取系统在性能方面进行比较,验证了改 进方法的有效性和先进性。 关键词数据抽取;h t m l ;e x a l g ;等价类;e x a l g + 燕山大学工学硕士学位论文 a b s t r a c t c u r r e n t l yt h ei n t e r a c th a sb e c o m eah u g ed i s t r i b u t e di n f o r m a t i o ns p a c e s w h i c ht h e r ea l eb i l l i o n so fu s e r sa n dm i l l i o n so fw e b s i t e s a n dw i t ht h ei n o r - e m e n to fi n f o r m a t i o n , t h ei n f o r m a t i o nq u e r yb e c o m e sm o r ei m p o r t a n t t h e m e t h o d sw h i c hm o s ts e a r c he n g i n e sb e i n gi nu s er e l yo nt h ek e yw o r d sw h i c h h a v eb e e np r o v i d e db yu s e r s t h e nt h ed e f i n i t ec o n t e n tc a r lb ec o n f i r m a b l e u s i n gt h ek e yw o r d s h o w e v e rt h er e a ld e t a i li n f o r m a t i o nw h i c hu s e r sm a y b e r e q u i r ec a nn o tb eo f f e r e d r e s e a r c h e r sh o p et h a tt h eq u e r yc a l lb ep r o c e s s e db y u s i n gd a t a b a s et e c h n o l o g y s oi th a sb e c o m ea l lu r g i n gp r o b l e mw h i c hh a su s e d t h ei n f o r m a t i o ni n d e x i n gs y s t e mb a s e do nt h ew e b ,a n dt h ep r o b l e mw a sh o wt o g e tt h ev a l u a b l ei n f o r m a t i o nf r o mt h ew e bp a g e s ,e s p e c i a l l yf r o mt h eh t m l ( h y p e rt e x tm a r k u pl a n g u a g e ) p a g e s u n d e rt h i ss i t u a t i o n , s e v e r a lp r o b l e m s h a v e b e e nr e s o l v e db yt h i sp a p e r f i r s t l y , e x a l gs y s t e m ,t h eb e s tm e t h o d w h i c hi st h em o s te x a c t l ya n di n g r e a ti n t e g r a l i t yb yn o ww a sd e e p l ya n a l y z e d a n dt h ef o l l o w i n gf l a w sw e r e p r o p o s e d t h ep a k e dt a g si nt h ee x a l gs y s t e mm a y b en o tb e l o n gt ot h es a m e p a i r , t h e r ew i l lb es o m eo c c u r r e n c ev e c t o r si nt h et e m p l a t ew o r dn o d e s ,a n d t h e r ea r es o m ef a u l t si nt h ee q u i v a l e n tc l a s sr e c o g n i t i o n s e c o n d l y ,e x a l g + ,t h ei m p r o v e de x a l gs y s t e mw a se s t a b l i s h e d ;a n d t h er a d i c a lp r o c e d u r eo ft h et e c h n i q u ea n dt h ee s s e n t i a ld e f i n i t i o nw e r ep r o - v i d e d t h e nt h ed e f t n i t i o n so fa l m o s t - o r d e r e da n dn e a r l y n e s t e dw e r ep u t f o r w a r d t h ee m b o d i e dt e c h n i q u e so f t a g sw e r et a k e nf o rr e s o l i n gp r o b l e mo f e x a l g :t h ep a i r e dt a g sw e r et r e a t e dt o g e t h e rw h e nt h es y s t e md i f f e r e n t i a t e d t h er o l eo ft o k e n s t h et a g sw e r em e tt h em i n i m a l - s u p p o r to ft h es y s t e mb y u n i t i n gt e x tn o d e s t h ec o r r e c te q u i v a l e n tc l a s s e sw e r ed i f f e r e n t i a t e db yu s i n g p a t ho fd o mt r e ea n dd i f f e r e n tp o s i t i o no ft h ee q u i v a l e n tc l a s s e s a n dt h e p r o b l e mo fp a r t i t i o nf o re q u i v a l e n tc l a s sw a sd i s p o s e db yj o i n i n gt h es i m i l a r e q u i v a l e n tc l a s s e s s o m ee x a m p l e sw e r eg i v e nw h e nw eu s e de a c ht e c h n i q u eo f t a g s t h ep a p e ra l s op r o v i d e dt h ea l g o r i s mo f t h ee x a l g + f i n a l l y , s o m en e wi n s t a n c e so fp a g e sw e r ea d d e di nw h i c hd e p e n d e do n t h eo r i g i n a ld a t aa n de x p e r i m e n tr e s u l t so ft h ee x a l g s y s t e m t h ed i f f e r e n c e b e t w e e nt h ei m p r o v e ds y s t e ma n dt h eo r i g i n a lo n ei nt h ea s p e c to fa c c u m c v a n di n t e g r i t yw e r ep r o p o s e d t h ed i f f e r e n c eo fp e r f o r m a n c eb e t w e e nc u n - e n t o t h e rd a t ae x t r a c t i o ns y s t e m sa n dt h ee x a l g + s y s t e mw a sa l s op r o v i d e d s o t h ee f f i c i e n c ya n da d v a n t a g eo f t h ei m p r o v e d t e c h n i q u ew e r ep r o v e d k e y w o r d sd a t ae x t r a c t i o n ;h t m l ;e x a l g ;e q u i v a l e n tc l a s s ;e x a l g + 燕山大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文基于结构和内容的w e b 数据抽取技术研究,是本人在导师指导下,在燕山大学攻读硕士学位期间 独立进行研究工作所取得的成果。据本人所知,论文中除已注明部分外不 包含他人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的 个人和集体,均已在文中以明确方式注明。本声明的法律结果将完全由本 人承担。 作者签字萎每薛 日期:如辞朔日 燕山大学硕士学位论文使用授权书 基于结构和内容的w e b 数据抽取技术研究系本人在燕山大学攻读 硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归燕 山大学所有,本人如需发表将署名燕山大学为第一完成单位及相关人员。 本人完全了解燕山大学关于保存、使用学位论文的规定,同意学校保留并 向有关部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人 授权燕山大学,可以采用影印、缩印或其他复制手段保存论文,可以公布 论文的全部或部分内容。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密曰。 ( 请在以上相应方框内打“4 ”) 作者签名 导师签名: 善两砗 婚 日期:锌岁月f 日 日期跏号月| 日 第1 章绪论 1 1 研究背景 第1 章绪论 随着i n t e m e t 应用的日益普及,万维网已经发展成为拥有上亿用户和几 百万个站点的巨大的分布式信息空间,而且其信息量仍在飞速增加。因此, 万维网已经成为目前为止世界上最丰富和最密集的信息来源。无论对企业 还是个人,w e b 逐渐成为最主要的信息来源。然而由于网站数量过多以及 由此带来的信息泛滥,使得有用信息的获取变得越来越困难。 为解决以上问题,首先出现的是各类搜索引擎。现在广泛使用的有 g o o g l e ,y a h o o ,百度这样的综合搜索引擎,也有m a r k e tg u i d e 等用于财经 或其它特定用途的专用搜索引擎。但是,搜索引擎只是部分的缓解了信息 搜索的问题,结果并不能令人满意。 搜索引擎仅能给出相关结果页面的链接,用户仍需要手动浏览,返回 结果数量巨大,格式固定,产生了大量的无用信息:并且每次只能浏览同 一个页面的各项相关数据。同时,其面向用户的检索模式也很简单,无法 制定复杂的查询,也导致其结果信息往往不精确。 更理想的情况是,作为信息集散地的互联网可以象一个数据库一样被 查询。由于h t m l 或x m l ( e x t e n s i b l e m a r k u p l a n g u a g e 可扩展标识语言1 是 目前互联网上文本信息的主要形式,其携带信息往往是非结构化或半结构 化的,无法直接利用和分析。因此,有必要提供一种网页内容的自动抽取 以及使网页数据结构化的方法,来简化信息获取的过程,并方便信息分析 处理。在此背景下,w e b 数据抽取技术应运而生。 w e b 数据抽取方法是将网页中的数据抽取出来并以结构化或需要的形 式存放到相应的数据库或其它特定的数据存储系统中,使抽取出来的数据 可以象通常数据库一样进行检索和处理。这样,无论企业或个人都可以利 用w e b 信息抽取技术从互联网上准确高效的获得相应信息,而无需由用户 燕山大学工学硕士学位论文 自己进行繁琐冗长的手动数据检索和分析提取工作。 1 2w e b 数据抽取技术的发展历史 w e b 数据抽取技术源于信息抽取( i n f o r m a t i o ne x t r a c t i o n :i e ) 技术。最 初信息抽取技术的目的是从自然语言文本中获取结构化信息,其主要使用 的技术是基于自然语言理解的技术。 从自然语言文本中获取结构化信息的研究最早开始于2 0 世纪6 0 年代 中期,这被看作是信息抽取技术的初始研究。它以两个长期的、研究性的 自然语言处理项目为代表【l 】。 第一个项目是美国纽约大学开展的l i n g u i s t i cs t r i n g 项目。该项目开始 于6 0 年代中期并一直延续到8 0 年代。它的主要研究内容是建立一个大规 模的英语计算语法,与之相关的应用是从医疗领域的x 光报告和医院出院 记录中抽取信息格式( i n f o r m a t i o nf o r m a t ) ,这种信息格式实际上就是现在 通常所说的模板( t e m p l a t e l 。 第二个相关的长期项目是由耶鲁大学r o g e rs c h a n k 及其同事在2 0 世 纪7 0 年代开展的有关故事理解的研究。由他的学生g e r a l dd ej o n g 设计实 现的f r u m p 系统是根据故事脚本理论建立的一个信息抽取系统。该系统 从新闻报道中抽取信息,内容涉及地震、工人罢工等很多领域或场景。该 系统采用了期望驱动( t o p d o w n ,脚本) 与数据驱动( b o t t o m u p ,输入文本1 相结合的处理方法【2 】。这种方法被后来的许多信息抽取系统采用。 信息抽取的目标是将文本中的信息抽取出来并表示为结构化、自描述 的数据结构,从而将难以操纵的文本数据转化为容易处理和分析的结构化 数据。随着互连网的出现,人们逐渐将目光投放于网络上的各类网页集合。 这些网页与传统的自然语言文本差别很大,由此衍生了专门用于网页的数 据信息抽取技术【3 j 。 由于网页与传统文本相比有很多不同的特性,因此带来很多挑战。首 当其冲的就是w e b 页面中的文本通常不是结构完整的句子,所以很难用传 统的自然语言的处理方式进行处理【4 】。与此同时,网页的层次特性,以及 2 第1 章绪论 网页结构本身的变动特性都使得传统的数据抽取方式变得无法适用。 w e b 数据抽取技术承接了传统信息抽取技术研究的成果,其核心是将 分散在i n t e m e t 上的w e b 页面中的隐含的信息点抽取出来,并以更为结构化、 语义更为清晰的形式表示,为用户在w e b 中查询数据、应用程序直接利用 w e b 中的数据提供便利。 传统的数据抽取技术通常由w r a p p e r ( 包装器) 完成的。所谓包装器就是 一个能够将数据从h t m l 网页中抽取出来并且将它们还原为结构化的数据 ( 例如v i l 数据) 的软件程序【5 】。w r a p p e r 方法能够代替人或者其它的软件自 主地工作,能够将一种格式的数据或检索结果转换为另一格式的数据。编 写包装器的方法经历了手工编写、半自动化生成和现在正在研究的全自动 化生成三个阶段。 早期的包装器是由手工编写的,由专门的具有一定知识的专业人员首 先对网页进行分析,然后写出包装器【6 j 。手工编写包装器的个主要问题 在于这种方式是一个既困难又耗费人力的工作。在这个阶段中,对于这样 的专业人员的要求非常高,并且编写出的包装器脆弱,难以维护。 随着人工智能技术的使用,采取了机器学习【7 1 、数据挖掘8 ,9 烽方式, 在一定程度上使得包装器的生成工作能够自动地进行。但是,在这些技术 中都要求不仅要由用户提供标识样本集,还要有一定的先验知识,因此, 还需要进行改进。 目前已经有了一些完全自动化的不倚赖包装器的抽取方法。这些方法 只要输入相应的网页就能够自动进行分析相应的抽取规则,并且将数据从 网页中抽取出来。采取这样的全自动方式,大大减轻了用户的工作量,使 得网页信息的抽取工作有了较大的进步。 在网页数据抽取技术的发展过程中,出现了包括利用自然语言处理方 式,基于w r a p p e r 归纳方式,基于o n t o l o g y 的抽取方式以及针对网页自身结 构层次特征的方式,诸如针对h t m l 和x m l 文档的数据抽取方式。其抽取 方式也经历了由人工到半自动化、自动化的发展。 w e b 信息抽取的一个直接应用就是帮助人们在纷繁复杂的w e b 信息海 洋中快速准确地查找所需信息,加快人们获取信息的速度,从而提高生产 燕山大学工学硕士学位论文 效率。数据抽取所得到的结构化信息可以直接被其它的应用程序利用,进 一步完成诸如信息检索( i n f o r m a t i o ns e a r c h ) 、数据挖掘( d a t am i n i n g ) 、机器 翻译( m a c h i n et r a n s l a t i o n ) 、文本摘要( t e x td i g e s t ) 等后续w e b 信息处理,具 有广阔的应用价值和前景【l 。 1 3 国内外研究现状 从2 0 世纪8 0 年代末开始,信息抽取研究蓬勃开展起来,这主要得益于 消息理解系列会议( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e :m u c ) 的召开。正是 m u c 系列会议使信息抽取发展成为自然语言处理领域一个重要分支,并一 直推动这一领域的研究向前发展。 从1 9 8 7 年开始至u 1 9 9 8 年,m u c 会议共举行了七届,它由美国国防高级 研究计划委员会资助【1 1 】。 在每次m u c 会议前,组织者首先向各参加者提供样例消息文本和有关 抽取任务的说明,然后让各参加者开发能够处理这种消息文本的信息抽取 系统。在正式会议前,各参加者运行各自的系统,处理给定的测试消息文 本集合。由各个系统的输出结果与手工标注的标准结果相对照得到最终的 评测结果。最后才是所谓的会议,由参与者交流思想和感受。后来,这种 评测驱动的会议模式得到广泛推广。 1 9 9 3 年8 月举行的m u c - 5 的一个重要创新是引入了嵌套的模板结构。信 息抽取模板不再是扁平结构 1 2 ( f l a ts t r u c t u r e ) 的单个模板,而是借鉴面向对 象和框架知识表示的思想,由多个子模板组成。 m u c 系列会议对信息抽取这一研究方向的确立和发展起到了巨大的推 动作用。m u c 定义的信息抽取任务的各种规范以及确立的评价体系,已经 成为信息抽取研究事实上的标准。 近几年,信息抽取技术的研究与应用更为活跃。在研究方面,主要侧 重于以下几方面:利用机器学习技术增强系统的可移植能力、探索深层理 解技术、篇章分析技术、多语言文本处理能力、w e b 信息抽取( w r a p p e r ) 以及对时间信息的处理等等【1 3 1 4 】。至今,已经有不少以信息抽取技术产品 4 第1 章绪论 为主的公司出现,比较著名的有:c y m f o n y 公司、b h a s h a 公司、l i n g u a m a t i c s 公司、r e v s o l u t i o n s 公司等。 国内迄今为止的研究基本上是处于包装器的半自动生成阶段,尚未见 到自动识别网页并产生包装器的数据抽取方法的有关研究资料。国内较为 典型的系统和算法主要有如下几种。 f 1 ) 中国人民大学提出的基于预定义模式的包装器采用的方式是由用 户定义模式并给出模式与h t m l 网页的映射关系,接着由系统推导出规则, 同时生成包装器【l ”。 ( 2 ) 中科院软件所提出的基于d o m 的信息提取算法该算法以文档对 象模型( d o c u m e n to b j e e tm o d e l :d o m ) 为基础,把所要提取的信息位于 d o m 层次结构中的路径作为信息抽取的“坐标”,并以这个基本原理为基 础,设计了一种归纳学习算法来半自动化地生成提取规则,然后根据提取 规则生成j a v a 类,将该类作为w e b 数据源包装器组成的重要构州1 6 1 。 ( 3 ) 河北大学提出的基于样本实例的w e b 信息抽取用户首先选定样本 页面和预先定义模式( 基于0 r ) 模型【i ”,然后对样本页面和其中的样本记 录进行标记学习,形成规则( 包含抽取规则和关联规则) :并将规则放入知 识库中,最后利用知识库对其它同类页面自动抽取信息,存放在对象关系 数据库中。 ( 4 ) 中国科大提出的基于多层模式的多记录网页信息抽取方法基本思 想是h t m l 网页信息抽取只是利用多层模式来加以描述,以便能够利用各 层模式之间相互联系的特点,用以动态获取各层中与h t m l 页面内容具体 描述( 格式) 密切相关的信息识别模式知识;并最终再利用所获得的多层( 信 息识别) 模式知识,完成相应各个h t m l 网页的具体信息抽取工作【1 8 】。 ( 5 ) 北京大学提出的d a e ( d o mb a s e da u t o m a t i ce x t r a c t i o n ) 算法其核 心思想借鉴t o n t o l o g y r 9 的a l i g n 算法,并进行了改进。d a e 利用h t m l 的d o m 树特性解决可选项的问题。基本思想是比较不同页面间的相似和不 同之处,得出一个公用的包装器,然后对包装器进行语义分析;产生数据 模式后,利用包装器将数据抽取出来并连同数据模式存放到x m l 数据集当 中0 9 。d a e 系统相对于先前的技术在自动化程度上有了很大提高。 5 燕山大学工学硕士学位论文 这些算法有一定的局限性。首先,需要有较多的人工干预。由于需要 较多的先验知识,并且不同的系统使用的描述语言不同,所以不仅要求进 行干预的人员需要对网页的结构分析和生成等方面较为熟悉,并且还要对 系统使用的描述语言较为了解,因此对人员的要求比较严格。 其次,根据一定的先验知识产生包装器的方法造成了系统的适应性较 差,也就是说,根据特定情况产生的包装器只能适用于特定情况:当网页结 构发生变化时,需要重新进行人工干预和标识,因此很难较好地适应变化, 对抽取工作造成一定的困难。 1 4 目前网页抽取技术存在的问题 当前使用的网页抽取技术有基于自然语言理解方式的信息抽取方法、 基于w r a p p e r 归纳方式、基于o n t o l o g y 的抽取方式以及针对网页自身结构层 次特征的数据抽取方式 2 0 2 3 1 。 目前比较流行的方式是w r a p p e r 自动生成方式和针对网页结构的数据 抽取方式。常见的系统相应的有s t a l k e r 和r o a d r u n n e r 等【2 4 1 。 已有的网页数据抽取技术存在着很多缺点,而且在抽取准确率和自动 化程度之间很难找到个较好的平衡点。 ( 1 ) 数据抽取规则难以确定在数据抽取过程中,抽取数据所利用的抽 取规则是一个非常重要的关键环节。目前各类信息抽取技术中的规则生成 方式都存在不同的缺陷,如何将基于结构和基于文本方式有效地结合起来 是信息抽取需要解决的一个问题。 ( 2 ) 效率与健壮性之间的矛盾难以解决机器学习往往通过大量的样本 学习来提高获取规则的自动化程度,这意味着系统需要经过较长时间的学 习才能获得较好的查准率。抽取规则的适应性较差,缺乏健壮性是现有信 息抽取技术所面临的难点。现有的技术均采用定制的语言表达抽取规则, 缺乏通用性,系统不易升级,且不易与其他基于w e b 的应用集成。 ( 3 ) 自动化程度与实用性之间的矛盾难以解决性能较好的信息抽取技 术需要用户的大量参与,自动化程度不高;而自动化程度高的信息技术其 6 第1 章绪论 准确率和适应性较低,实用性较差。 因此,如何使得数据抽取有更强的适应能力和可扩展性,如何最大程 度地利用已有的资源,通过最小程度地改造来适应新的信息源、增强系统 的可扩展性,是现有数据抽取系统所面对的问题。 1 5 本文研究内容及意义 首先,本文分析网页数据抽取的各种技术,总结了w e b 数据抽取的特 点,指出e x a l g 这种抽取方法的不足;并在此基础上着重作了补充和改进, 给出数据抽取所基于的页面生成模型,提出等价类的近似顺序性和近似嵌 套性概念及e x a l g + 这种改进的数据抽取方法。 其次,具体说明e x a l g + 利用的标签技术。对于e x a l g 方法中存在 的成对标签不一致的问题,在进行标记的角色区分时将每一对成对的标签 放在一起加以处理;对于模板中文字节点出现多个向量问题,通过合并文 字节点使其满足系统设定的最小支持度:对于等价类识别错误,利用d o m 树的路径和等价类的区间位置差异来区分:对于e x a l g + 提出近似顺序性 和近似嵌套性概念时产生的具有多个相同出现向量的等价类集合问题,采 取选择与标记相近的等价类加入的办法,以确保生成的模板的正确性和完 整性;并给出e x a l g + 的整体算法描述。 最后,通过与原方法进行对比试验,验证了改进方法的先进性。 本文的研究成果指出了e x a l g 这种w e b 数据抽取方法的不足,并在此 基础上做相应地改进,提出了e x a l g + 这种改进的数据抽取方法,使新方 法在抽取页面数据时具备更高的效率和准确性。 1 6 本文结构 第2 章对现有的数据抽取方法做了概述,对基于不同方式的数据抽取 方法作了详细比较,归纳了相应方法的优缺点。 第3 章给出了数据抽取所基于的页面生成模型,给出了e x a l g 十方法 , 燕山大学工学硕士学位论文 的流程,并给出了相关定义。 第4 章通过e x a l g + 对成对标签不一致等e x a l g 方法固有的问题给 出相应具体解决办法,以及在改进中产生新问题时所采取的处理方法,说 明e x a l g + 解决了数据抽取所依赖的关键技术,即标签技术。 第5 章是通过对比试验验证改迸方法的优势所在,并对e x a l g + 和原 方法做了性能分析。 最后总结本文工作,提出对下一步工作方向的设想。 8 第2 章数据抽取方法概述 2 1引言 第2 章数据抽取方法概述 w e b 数据抽取,就是从半结构化或者非结构化的w e b 页面中抽取数据的 技术 2 “。数据抽取技术的关键在于抽取规则,即网页中所包含数据的格式, 也就是现在通常所说的模板。 因此,各种信息抽取技术问根本区别在于:通过抽取系统,模板知识 是如何得到的。早期的信息抽取技术使用一种w r a p p e r 的人工方法。这种 方法通过人工训练将模板知识编码成一个程序,然后抽取数据。人工抽取 数据不但耗费人力和时间,而且当数据量十分庞大时,人工训练产生的模 板知识经常出现很大程度的错误和遗漏,并且由于思维惯性,一些不明显 的模板知识几乎被忽略掉。随着数据抽取技术的发展,人工参与将变得越 来越少,自动化程度越来越高,抽取结果也随之越来越精确。 网页抽取技术的分类角度可以有很多种。例如;根据自动化程度分为 手工、半自动以及完全自动化的方式;根据其原理可以分为基于自然语言 理解等方式:还可以根据结果是否是x m l 形式的,以及是否可以抽取复杂 数据等角度进行区分 2 7 , 2 s 。 2 2 基于自然语言理解的抽取方法 基于自然语言理解的方法采用了过滤、词性和词汇语义标识来建立短 语和语句元素间的关联,通过给定的例子学习抽取规则1 。这些规则通过 语法和语义上的约束来定位元素:把文本分割成多个句子,对一个句子的 句子成分进行标记,然后将分析好的句子语法结构和事先定制的语言模式 匹配,从而获得句子的内容。规则可以由人工编制,也可从人工标注的语 料库中自动学习获得。这类信息抽取主要适用于源文档中含有大量文本的 9 燕山大学工学硕士学位论文 情况,特别是针对于合乎语法的文本。 常见的系统主要有r a p i e r 、s r v 和w h i s k 等1 3 “。下面以w h i s k 系统 为例作简单介绍。 w h i s k 系统适用于结构化、半结构化的文本,同时也能适用于自由文 本【3 1 ( f r e et e x t ) 。结构化和半结构化的文本,由于完整的句子常被h t m l 标记所分割,一般不符合语法,所以系统根据语义项的上下文实现感兴趣 信息的定位。此时基本上没有利用到自然语言处理技术,对这种情况这里 不做详细分析。 对于自由文本,文档中包含了多个不被h t m l 标记分割的完整句子, 此时系统首先根据分割符,将源文档分割成多个实例。每个实例是一个主 题相关的文本块,如一个网上书店的页面中,一个图书信息的介绍称作一 个实例。用户在可视化的环境下根据系统提供的实例,标记出感兴趣的信 息并定义模式【3 2 j 。系统使用语法分析器和语义类( 如人名、机构名) 分析器, 分析出用户标记信息的语法成分和对应的语义类,生成基于语法标记和语 义类标记的抽取规则,实现信息抽取。 w h i s k 中所用的抽取规则主要是建立在词或词类间句法关系的基础 上。对于结构化和半结构化的文本,规则采用正则表达式的形式描述了感 兴趣语义项( 文本中的短语) 的上下文及语义项间的分割符,利用这些信息 达到识别感兴趣语义项的目的。 对于自由文本,在一定程度上利用了自然语言处理技术的思想。信息 抽取的实质是根据语义项对应的语义类、语义项的上下文和所处的句子成 分实现信息的定位。例如,某个语义项只能出现在句子的关系从句中,即 根据语义和语法的双重约束实现信息抽取 3 3 】。 基于自然语言的信息抽取技术是将w e b 文档视为文本进行处理的,主 要适用于含有大量文本且句子完整、适合语法分析的w e b 页面。其缺点也 较为明显。 第一,抽取的实现没有利用w e b 文档与普通文本的层次特性区别,抽 取规则表达能力有限,缺乏健壮性;获得有效的抽取规则需要大量的样本 学习,达到全自动的程度较难,而且速度较慢,对于操作互联网上海量数 1 0 第2 章数据抽取方法概述 据来说,这是一个大问题。 第二,只支持记录型的语义模式结构,不支持复杂对象的抽取。 第三,由于w e b 页面中的文本通常不是结构完整的句予,所以其适用 范围较窄。 2 3 基于包装器归纳方式的信息抽取 包装器是将模板知识,也就是抽取规则,编码成为一个自动化的程序。 通常,一个包装器只能处理一种特定的信息源。从几个不同数据源中抽取 数据,需要一系列的包装器程序库。因此,不同类的w e b 页面就对应了不 同的包装器。 包装器能够自动分析出待抽取数据在网页中的结构特征,并实现抽取。 其主要思想是用归纳式学习方法生成抽取规则。基于归纳学习的数据抽取 模型的对应关系如图2 1 所示,是p h n i c h o l a sk u s h r n e r i c k 于1 9 9 6 年首次提出 这种方法。 广 网页广 黼1 竺h ! 三竺兰r 械 图2 - 1基于归纳学习的数据抽取模型 f i g u r e2 - 1m o d e lo f d a t ae x t r a c t i o nb a s e do l li n d u c e dk n o w l e d g e 与自然语言处理方式比较,包装器较少依赖于全面的句子语法分析和 分词等复杂的自然语言处理技术,而是更注重于文本结构和表格格式的分 析。使用这一方法的工具主要有三种。w i e n 、s o f t m e a l y 和s t a l k e r 。下 面对前两种方式进行分析,找出它们存在的问题。 2 3 1w i e n w i e n ( w r a p p e ri n d u c t i o ne n v i r o n m e n t ) ,意即“包装器归纳生成环境”。 该系统寻找标记信息点开始和结尾的统一分隔符,以及那些把表格信息与 其他周围信息分开的分隔符。符合这一规则的页面几乎都是搜索数据库所 得到的结果页面【3 4 1 。 燕山大学工学硕士学位论文 为了尽可能的提高自动化程度,该系统因此开发了一系列自动标记的 方法。标记算法需要输入特定领域的启发式学习规则,目标是找到待抽取 属性的值。系统虽然需要输入学习规则,但却不管这些规则是如何获得的, 可以手工编制。 由于w i e n 只考虑与待抽取数据紧相邻的分隔符,因此不能包装那些 数据不全或信息项次序不固定的网页。系统采用的是多栏( m u l t i s l o t ) 规则, 这就意味着能把相关的信息联在一起,而单栏规则只能抽取孤立数据。例 如,若一篇文档包含多个姓名和地址,使用单栏规则不能辨认出哪个地址 是属于某人的。 2 _ 3 2 s o f t m e a l y 该系统从训练实例中归纳上下文规则。训练实例提供一个有顺序的数 据实例列表以及数据实例间的分隔符。归纳生成包装器时,把一系列带标 记的元组作为输入。这些元组提供了分隔符的位置和内容次序变化的信息。 这些信息被归纳为上下文规则,作为结果输出【3 5 】。 归纳生成的包装器是一个“非确定有限自动机”。其状态代表待抽取的 数据实例,状态的转换代表定义分隔符的上下文规则。状态的转换由上下 文规则的匹配结果来确定。包装器通过识别内容周围的分隔符来抽取数据。 与w i e n 类似,s o f t m e a l y 必, 须依靠紧挨着数据前的分隔符来定位数据, 而且不能抽取复杂格式的数据。而s t a l k e r 通过引入e c t 树的方式来表示 复杂格式的数据,相对前两者而言有了一定的改进。 采用包装器方式的数据抽取方法具有以下缺点。 ( 1 ) 包装器的针对性强、可扩展性较差由于一个包装器只能处理一种 特定的信息源,所以如果从几个不同的信息源中抽取信息,就需要一系列 的包装器集,这样使得信息抽取的工作量巨大。 ( 2 ) 可重用性差包装器对页面结构的依赖性强,当出现一类新的w e b 页面或者旧的页面结构发生了变化后,原来的包装器就会失效,无法从数 据源中获得数据或得到错误的数据。这样就出现了一个新的问题,即包装 器的维护问题。 1 2 第2 章数据抽取方法概述 ( 3 ) 缺乏对页面的主动理解 目前的包装器主要依赖于原网页或其后 台数据库的模式,基本上是一种数据模式的还原,因此缺乏对数据语义的 主动理解。 2 4 基于o n t o l o g y 的数据抽取方法 基于o n t o l o g y 的方法主要依赖一个完全的知识库【3 6 1 。知识库定义了各 个元素的抽取模式,还有它们之间的联系。在抽取之前,需要将包含数据 的纪录块分隔开来,然后依次对每个记录块进行信息抽取。抽取模式没有 使用依赖于特定文档的分隔符或者词性这样的自然语言理解技术,而是主 要使用通用的词法模式。这种方法不依赖于任何结构和表现形式。它使用 o n t 0 1 0 9 y 来定位关键信息并使用这些元素构造对象【3 7 。 采用该方法,事先要由领域内的知识专家采用人工的方式书写某一应 用领域的o n t o l o g y ,包括对象的模式信息、常值、关键字的描述信息。其 中常值和关键字提供了语义项的描述信息。这种方法根据o n t o l o g y 中常值 和关键字的描述信息产生抽取规则,对每个无结构的文本块进行抽取,获 得各语义项的值。 另外,系统根据边界分隔符和启发信息将源文档分割为多个描述某一 事物不同实例的无结构的文本块【3 8 】,将抽取出的结果放入根据o n t o l o g y 描述信息生成的数据库中。 基于o n t o l o g y 方式的最大的优点是对网页结构的依赖较少,只要事先 创建的应用领域的o n t o l o g y 足够强大,系统可以对某一应用领域中各种网 页实现信息抽取【3 。主要缺点分为以下几个方面。 第一,需要由领域内的专家创建某一应用领域的详细清i 拘o n t o l o g y , 工作量相对较大。 第二,由于是根据数据本身实现信息抽取,因此在减少了对网页结构 依赖的同时,增加了对网页中所含的数据结构的要求,比如,要求内容中 包含的时间、日期、i d 号码等有一定的格式。 第三,从大量异构的文档中提取公共模式工作量繁重,并且不支持对 1 3 燕山大学工学硕士学位论文 超链接的处理。而且,针对网页中的某些信息很难给出对应的o n t o l o g y 。 2 5 基于h t m l 结构的信息抽取 由于h t m l 页面自身结构的特点,出现了基于h t m l 结构的信息抽取 方式。该方法具有非常强的自动化能力,也是目前自动化性能比较高的数 据抽取方式1 4 0 j 。 这种方法在信息抽取之前通过解析器将h t m l 页面文档解析成语法 树,通过自动或半自动的方式产生抽取规则,将信息抽取转化为对语法树 的操作实现信息抽取 4 1 , 4 2 1 。采用这种技术的系统有很多,如商业化的l i x t o , 非商业化的x w r a p ,以及r o a d r u n n e r 、i e p a d 、w 4 f 、s g w r a m 和a n d e s 也采用了该技术【4 3 】。下面分别进行介绍。其中,r o a d r u n n e r 和i e p a d 是属 于完全自动化的抽取方法。 2 5 1 非完全自动化的抽取方法 在如l i x t o ,w 4 f ,x w r a p 等系统中,都提供了相应的图形界面,使 用户可以用交互的方式来帮助系统生成抽取规则,需要用户的参与;因此 不属于完全自动化的抽取方法。而且,由于需要人为参与,在简化用户行 为的情况下,无法生成可以描述复杂数据的模板,因此使得生成的模板需 要改写1 4 4 j 。下面分别予以介绍。 ( 1 ) l i x t o 系统在该系统中,用户以可视交互的方式对样本页面中的信 息进行标记,系统通过记录用户标记的信息,采用“系统默认”或“用户 定制”的方式生成抽取规则,实现对同类页面的信息抽取。l i x t o 系统中语 义信息是在样本学习阶段由用户加入的,用户事先在可视化的用户界面上 定义模式,而且可以表达复杂的语义模式结构,抽取出的数据最终以x m l 文档的形式存放。l i x t o 在一定程度上简化了信息抽取的步骤,增强了信息 抽取技术的实用性【4 5 1 。该系统在实现和优化方面比较难于实现。另外,抽 取规则中对抽取信息的描述也不够丰富。其生成抽取规则的两种方式各有 不同的局限。自动化程度较高的“系统默认”方式,生成的规则缺乏健壮 1 4 第2 章数据抽取方法概述 性;而“用户定制”方式自动化程度较低,但对用户有一定要求,用户的 操作不当可能直接影响生成规则的健壮性。 ( 2 ) x w r a p 系统x w r a p 是一个半自动化的w r a p p e r 生成器,它具备将隐 含在w e b 页面中相关信息的元数据抽取出来并转换为x m l 包装文档中的 x m l 标记的能力1 4 6 。该系统将建立特定数据源包装器的任务和适合于任何 数据源的重复任务明确分开,提供了友好的用户接口程序,由一组交互机 制和启发式集合就可以生成信息抽取规则。x w r a p 首先获取相应w e b 页面 的树状结构,随后利用h t m l 语言中的特定标记( 比如 ) 以及 它们被用作数据表现时的含义作为启发式。通过启发式集合,它会帮助系 统自动寻找关键信息,生成i 扫j a v a 代码写的w r a p p e r ,自动化程度很高。但 是,该系统实际生成的w r a p p e r 效果并不理想。因为很多站点并不符合那些 特定的推导规则,因此,使其仅适用于那些含有明显的区域式结构的网页。 而且,对于大部分定制的信息抽取任务,其较为简单的推导规则根本无法 满足用户的需求。 ( 3 ) w 4 f 系统 由m b a u e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论