(计算机应用技术专业论文)基于本体的web信息抽取的研究与实现.pdf_第1页
(计算机应用技术专业论文)基于本体的web信息抽取的研究与实现.pdf_第2页
(计算机应用技术专业论文)基于本体的web信息抽取的研究与实现.pdf_第3页
(计算机应用技术专业论文)基于本体的web信息抽取的研究与实现.pdf_第4页
(计算机应用技术专业论文)基于本体的web信息抽取的研究与实现.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 w e b 已成为了网络信息的主要平台,是人们获取信息的重要来 源。但是,由于w e b 页面的无结构性、超链接的自由无序以及w e b 内容的海量性、多样性和动态变化,人们从w e b 上搜索真正想要的 信息其实并不容易。w e b 信息抽取技术的研究,可以帮助人们更快更 准确的获取信息。 语义w e b 提倡的资源管理框架( r d r 0 和本体( o n t o l o y ) 技术,提供 了以本体技术解决w e b 信息抽取的方案,由于不同学科各自的领域 特性,建模过程需要领域专家的有效参与,导致领域本体建模的困难。 定义w e b 页面信息项本体可以简化基于本体的w e b 信息抽取建模的 过程,其缺陷是不能有效地划分页面的信息抽取区域,影响抽取规则 生成的准确性。因此,论文基于w e b 页面信息项本体定义,把所要 提取的信息在文档对象模型d o m 层次结构中的路径作为信息抽取 的“坐标,设计了一种生成提取规则的归纳学习方法。 在自动生成的w e b 页面中,待抽取的目标信息以相似结构的信息 块子树形式存在于w e b 页面d o m 树中。论文通过对单个样本页面信 息项路径进行启发式学习和对所有样本页面集中信息块路径进行归纳 学习,识别出相似结构的信息块子树的位置,准确的划定信息抽取区 域,降低页面噪声;然后,利用w e b 页面解析技术,将经过噪声处理 的样本页面自动解析成页面的结构本体。最后,将w e b 页面信息项本 体和页面的结构本体进行对比,通过归纳学习算法生成抽取规则。 论文设计了一个基于本体的w e b 信息抽取器。实验结果表明, 以w e b 页面信息项本体为基础,结合文档对象模型d o m 对网页路径 结构的分析,降低了页面噪声,提高了w e b 信息的抽准率。 关键词信息抽取,本体,归纳学习,x m l ,d o m a bs t r a c t w 色bh a sb e c o m et h em a i ni n f o r m a t i o nr e s o u r c e h o w e v e ri ti sn o t e a s yf o rp e o p l et og e tt h ei n f o r m a t i o nt h e yr e a l l yi n t e r e s t e di no n t h ew 曲, s i n c ew | e bp a g e sa res e m i - s t r u c t u r eo rn o n - s t r u c t u r e ,t h eh y p e r l i n k sa r e d i s o r d e r e da n dt h ed a t aa r em a s s i v ea n dd y n a m i c t h ea p p e a r a n c eo fw e b i n f o r m a t i o ne x t r a c t i o np r o v i d e sag o o ds o l u t i o no ft h i sp r o b l e m ,w h i c h c o u l dh e l pp e o p l eg e tt h ek n o w l e d g em o r eq u i c k l ya n dm o r ea c c u r a t e l y r e s o u r c e d e s c r i p t i o n f r a m e w o r ka n d o n t o l o g yt e c h n o l o g y a d v o c a t e db yt h es e m a n t i cw e ba r ep r o v i d i n g aw e bi n f o r m a t i o n e x t r a c t i o np r o p o s a lb a s e do nt h eo n t o l o g yt e c h n o l o g y b e c a u s eo ft h e s e p a r a t ec h a r a c t e r i s t i c so fe a c hs u b j e c t ,t h em o d e l i n gp r o c e s sr e q u i r e sa n e f f e c t i v ea s s i s t a n c eo fd o m a i ne x p e r r s ,w h i c hm a k e si td i f f i c u l tt os e tu pa m o d e lf o rt h ed o m a i no n t o l o g y d e f i n i n ga ni n f o r m a t i o ni t e mo n t o l o g yo f 既6p a g ec a ns i m p l i f yt h em o d e l i n gp r o c e s so fo n t o l g y - b a s e d 彬曲 i n f o r m a t i o ne x t r a c t i o n b u tt h ei n f o r m a t i o ni t e mo n t o l o g yo fw 曲p a g e c a nn o ta c c u r a t e l yp a r t i t i o nt h ea r e a so fi n f o r m a t i o ne x t r a c t i o n ,w h i c h r e d u c e st h ea c c u r a c yo fg e n e r a t i n gi n f o r m a t i o ne x t r a c t i o nr u l e s s ob a s e d o nd e f i n i n ga ni n f o r m a t i o ni t e mo n t o l o g yo fw r e bp a g e ,t h i sp a p e ru s e s t h ep a t ho ft h et o p i ci n f o r m a t i o nw h i c hs h o u l db ee x t r a c t e do nd o m t r e e a st h el o c a t i o no fi n f o r m a t i o ne x t r a c t i o n , a n dd e s i g n st h ei n d u c t i v e m e t h o do fi n f o r m a t i o ne x t r a c t i o n i nt h ea u t o m a t i cg e n e r a t i n g 耽6p a g e ,t h et o p i ci n f o r m a t i o nt ob e e x t r a c t e di sp r e s e n ti nt h ef o r mo ft h es i m i l a rs t r u c t u r eo fi n f o r m a t i o n b l o c k ss u b t r e eo nd o mt r e e t h r o u g hh e u r i s t i cl e a r n i n ga r i t h m e t i c i d e n t i f i e dt h ep a t ho fi n f o r m a t i o ni t e m si ns o l es a m p l ew 色bp a g ea n d i n d u c t i v el e a r n i n ga r i t h m e t i cl o c a t e dt h ep a t ho fi n f o r m a t i o nb l o c k si n w h o l es a m p l ew e bc o l l e c t i o n ,t h ep a p e rp r o p o s e sam e t h o dr e s e a r c h i n g t h ep a t ho fd o m t r e e u s i n gt h i sm e t h o dw e c a ng e tt h el o c a t i o no ft h e s t r u c t u r e d - l i k ei n f o r m a t i o nb l o c ks u b t r e e s ,a c c u r a t e l yp a r t i t i o nt h ea r e a s o fi n f o r m a t i o ne x t r a c t i o n ,a n dr e d u c en o i s e so fs a m p l ew r e bp a g e t h e ni t c r e a t e st h e c o n s t r u c t i o no n t o l o g yb ya u t o m a t i cp a r s i n gt h ew 色bp a g e f i l t e r e dt h r o u g ht h en o i s e b yc o m p a r i n gi n f o r m a t i o ni t e mo n t o l o g yw i t h c o n s t r u c t i o n o n t o l o g y , i tg e n e r a t e si n f o r m a t i o ne x t r a c t i o nr u l e sb y r e c o n s t r u c t i n gi n d u c t i v el e a r n i n ga r i t h m e t i c t h ep a p e rd e s i g n sas y s t e mt h a ti m p l e m e n t so n t o l o g y b a s e dw e b l n f o r m a t i o ne x t r a c t i o n t h er e s u l to fi n f o r m a t i o ne x t r a c t i o np r o v e st h a t t h em e t h o db a s e do nd e f i n i n ga ni n f o r m a t i o ni t e mo n t o l o g yo fw e b p a g e i m p r o v e st h ep r e c i s i o no fi n f o r m a t i o ne x t r a c t i o nt h r o u g ha n a l y s i so n d o mt r e e k e yw o r d s i n f o r m a t i o ne x t r a c t i o n ,o n t o l o g y ,i n d u c t i v el e a r n i n g , x m l ,d o m i i i 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特另, l j m 以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:日期:墨翌2 年卫月座日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 日期:! 年旦月旦日日期:_ 年旦月旦日 硕士学位论文第章绪论 1 1 研究的背景和意义 第一章绪论 互联网己成为经济、社会、文化、教育以及娱乐等各个方面的重要组成部分, 并正在成为人们工作和生活中不可或缺的一员。随着互联网的迅速发展,互联网 上流通的信息也在爆炸性的增长。面对浩如烟海的信息,人们已经很难精确到找 到自己所需要的信息。尤其是进入九十年代后期,互联网开始步入正常的发展阶 段,仅靠搜索引擎已经越来越难满足人们对互联网信息服务的需求。因为它们所 能覆盖的网页占整个互联网总数的比例越来越小。更主要的问题是,随着互联网 搜索引擎所覆盖的网页的不断增加,互联网用户发现越来越难以有效的利用这些 搜索引擎来帮助自己发现所需要的互联网信息资源 i i 。传统的搜索引擎经常会返 回大量的数据,远远超出了用户所能互利的范围。想要快捷方便的查找利用这些 信息,必须把w e b 上的数据处理为一种更加结构化的并且可以表达语义的形式。 然而,互联网上w e b 数据大都缺乏对数据本身的描述,不含清晰的语义信 息,模式也不太明确。同一主题的信息通常分散存放在不同网站上,表现形式也 各不相同,这使得应用程序无法直接解析并利用w e b 上的海量信息。为了增强 w e b 数据的可用性,出现了w e b 信息抽取技术。w e b 信息抽取技术的核心是识 别w e b 页面中隐含的信息点,将这些信息收集在一起,用结构化形式存储,即 相当于把结构不规范的w e b 信息转换成数据库记录,方便用户的检索和使用。 w e b 信息抽取是承接传统信息抽取技术研究的成果,以w e b 页面为研究对 象的一类信息抽取技术。信息抽取技术是近十年来发展起来的,起源于文本理解。 信息抽取的目标是:在一定领域范围的多个文本里识别和提取出用户感兴趣的信 息点,将信息以统一的形式集成在一起。信息以统一的形式集成在一起的好处一 是方便比较例如比较不同的招聘和商品信息;二是能对数据作自动化处理。西方 发达国家都十分重视信息抽取技术的研究和应用,把它列为与信息检索、文档归 类和摘要等并重的语言工程项目,开展了有计划的、长期的、系统的信息提取研 究与应用工作。 w e b 信息抽取为许多w e b 信息处理应用领域包括w e b 信息检索、w e b 数据 挖掘等提供了有益的基础。比如w e b 信息抽取使用户在w e b 信息检索中能直接 定位到感兴趣的信息点,加快了人们获取信息的速度。还有,w e b 信息抽取为 w e b 数据增加了语义和模式信息,极大地方便了w e b 数据挖掘。总之,w e b 信 息抽取为海量的w e b 信息的再利用提供了可能,因此有着明显的优势和广阔的 1 硕士学位论文 第一章绪论 应用前景,是当今多个领域的研究热点。 1 2 论文的研究目的和研究内容 万维网之父t i mb e r n e r s l e e 提出语义w e b l 2 】己成为目前w e b 的一个延伸, 目标是使网络中信息具有语义,能够让计算机理解和处理,以便于人和计算机之 间的交互,并且能够为人们提供各种智能服务。其基本出发点是:将机器可读的 信息加入w e b 页面,采用本体( o n t o l o g y ) 技术精确定义w e b 资源中所共享的词汇, 利用知识表示技术实现w e b 资源的自动推理。因此以本体论为基础来研究w e b 信息的抽取技术比传统的抽取技术有着更深远的意义。 本体的构建是一个工程性的过程,但是目前业界没有形成统一的原则、条例 或步骤对本体构建的具体工作流程加以解释、控制和规范;由于各学科结构和内 容具有其自己的特性,所以在构建过程中,领域特殊性这一特点表现得极其明显; 并且构建领域本体的一个很重要过程是需要领域专家的有效参与。但是由于领域 专家大多不熟悉本体的构建技术和方法,往往由于各自的专业背景和研究目的不 同而难以与领域本体构建者达成统一协作。 为了解决领域本体建模存在的问题,论文的研究目的是从建立w e b 页面信 息项本体的方法来研究本体建模的理论,简化本体建模的过程,缩短建模周期, 为w e b 信息抽取建模提供新的思考方法。 论文的主要研究内容有: 1 、改善w e b 页面信息项本体对w e b 信息抽取区域划定方法 w e b 页面信息项本体建模过程简单、周期短,但需要寻找一种合理的w e b 页面信息抽取区域的划定方法。为了完善页面信息项本体对w e b 页面信息抽取 区域划分不准确、功能不完全的问题,必须从新的角度进行深入研究来提高信息 抽取的准确率。 2 、w e b 页面d o m 树层次路径归纳学习的研究 w e b 页面中的信息通常是分布在由网页源码标记分隔成的数据容器当中,同 一网站的同一类w e b 页面内的信息布置通常具有相似的组织结构。待抽的目标信 息就以这种相似结构的子树形式存在于w e b 页面d o m 树中。通过对w e b 页面的 相似d o m 树进行归纳学习可以找出目标信息在网页中分布的规律。 3 、抽取规则生成的研究 用户定义了页面信息项本体后,需研究这种本体模型如何正确地自动转换成 信息抽取规则,并且能形成计算机可处理的归纳学习算法。 4 、信息抽取器的设计 利用对w e b 页面信息本体的改进和完善,设计一个基于本体的w e b 信息抽 2 硕士学位论文第一章绪论 取器。研究如何利用现有技术实现w e b 信息的抽取。 1 3 论文的组织结构 论文共分五章,组织结构为: 第一章介绍了论文的研究背景、研究意义。在语义w e b 的发展前景下,确 立了研究目标,描述了研究的主要内容。 第二章介绍信息抽取的概念、信息抽取的评测标准和本体论的基本概念。对 w e b 信息抽取的研究现状进行分类比较,研究分析它们的优缺点。描述了在w e b 信息抽取过程中所用到的w e b 技术标准的背景知识。最后说明各w e b 技术标准 在本文信息抽取过程中应用的情况。 第三章分析了领域本体建模的现状,以建立页面信息本体来解决基于本体的 w e b 信息抽取建模周期长、过程复杂的问题。并以w e b 页面d o m 树的层次路 径分析的方法来划定w e b 页面信息抽取的区域,消除页面噪声信息项对信息抽 取的影响。最后构造了一个归纳学习的算法获取抽取规则。为基于本体的w e b 信息抽取的设计实现提供了理论基础。 第四章介绍基于本体的w e b 信息抽取器的设计。从总体的框架结构设计到 各主要组成部分的实现,都进行详细的阐述。最后介绍实验过程,分析实验结果, 指出设计理论的优缺点。 第五章对论文工作的总结和进一步研究的展望。 硕士学位论文第二章信息抽取技术相关背景综述 第二章信息抽取技术相关背景综述 信息抽取是信息检索的更进一步。它是一门应用技术,研究指定信息的查找、 理解和提取,并以适当的方式输出所指定的信息;它是多种基本的自然语言处理 技术的综合应用,具有广泛的应用领域。下面从其定义、实现方法、涉及技术等 方面加以介绍。 2 1 信息抽取的定义 信息抽取( i n f o r m a t i o ne x t r a c t i o n ,简称) 就是从一段文本中抽取指定的一类 信息( 事件、事实) ,并将其形成结构化的数据填入一个数据库中,供用户查询使 用的过程。例如从一篇关于自然灾害的新闻报道中抽取出灾害的类型、时间、地 点、人员伤亡、经济损失等情况。信息抽取系统进行的信息抽取工作就是,使用 一种由事件名称( e v e n t ) 、日期( d a t e ) 、时间( t i m e ) 、地点( l o c a t i o n ) 等槽子( s l o o 组成的信息模式,对报道中相应的内容进行匹配,并正确填满各槽子的内容。一 般而言,一个典型的信息抽取系统的工作过程主要包括了如下几个步骤【j j : l 、用一组信息模式描述感兴趣的信息。系统可以针对某一领域的信息特征 预定义好一系列的信息模式,存放在模式库中供用户选用。 2 、对文本进行“适度的”词法、句法及语义分析,通常包括识别特定的名 词短语( 人名、机构名、产品名、事件、地点等) 和动词短语( 事件描述、事实陈述) 。 这需要使用合适的词典、构词规则库等知识库的支持。 3 、使用模式匹配方法识别指定的信息( 即找出信息模式的各个部分) 。 4 、进行上下文关联、指代、引用等分析和推理,确定信息的最终形式。 5 、输出结果( 例如生成一个关系数据库或给出自然语句陈述等) 。出于效率 的考虑,有的信息提取系统还包括一个预处理过程,目的在于过滤掉与提取目标 不相干的文本。 2 1 1 信息抽取系统的评测指标 信息抽取系统评测的必要性是伴随着消息理解研讨会m u c ( m e s s a g e u n d e r s t a n d i n gc o n f e r e n c e ) 【4 】而出现的。这些标准源于信息检索领域的两个评估标 准嘲:抽准率( p r e c i s i o n ) 和召回率( r e c a l l ) 。抽准率是信息抽取结果中正确的对象 数据占实际抽取的对象数据的百分比,它反应的是信息抽取系统的准确性。召回 率是信息抽取结果中正确对象数目与所有应该抽取到的正确对象总数的比例,反 4 硕士学位论文第二章信息抽取技术相关背景综述 映了信息抽取系统的完备性;计算公式如下: p = r = 公式( 2 1 ) 公式( 2 2 ) 其中:p 是抽准率,r 是召回率。n c 表示系统产生正确答案的数目,n r 表示 系统实际产生的所有答案的数目,n k 表示文本中所有应该抽取的正确答案数目。 p 和r 两者取值在0 和1 之间,通常存在反比的关系,即p 增大会导致r 减小, 反之亦然。 评价一个系统时,应同时考虑p 和r ,但同时要比较两个数值,毕竟不能做 到一目了然。许多人提出合并两个值的办法。其中包括f 值评价方法,如公式( 2 - 3 ) 所示: 卜p 警r 缄粥) 2+ 。、 。 其中1 3 是一个预设值,决定对p 侧重还是对r 侧重,通常设定为1 。 2 1 2w e b 信息抽取的定义 顾名思义,w e b 信息抽取( w e bi n f o r m a t i o ne x t r a c t i o n ,简称为w e b l e ) 是将w e b 作为信息源的一类信息抽取。 目前w e b 上的数据大部分都是以超文本标记语言( h y p e rt e x tm a r k u p l a n g u a g e ,简称h t m l ) 描述的,主要目的是为了显示,让人通过浏览器浏览, 缺乏对数据本身的描述,不含清晰的语义信息,模式也不太明确。这使得应用程 序无法直接解析并利用w e b 上海量的信息,造成资源极大的浪费。 w e b 信息抽取正是研究如何将分散在i n t e r n e t 上的半结构化的h t m l 页面中 的隐含的信息点提取出来,并以更为结构化、语义更为清晰的形式表示,为用户 在w e b 中查询数据、应用程序直接利用w e b 中的数据提供便利【6 】。 2 2 本体理论的相关概念 2 2 1 语义网( s e m a n t i cw e b ) 语义网是由w 曲的创始人t i mb e r b e r s l e e 作为第二代网络的概念提出来 的。“语义( s e m a n t i c ) ”的意思是指“机器可处理的( m a c h i n ep r o c e s s a b l e ) ”。语 义网是指w e b 上的能够被机器处理的相互联系在一起的信息网格( m e s ho f i n f o r m a t i o n ) 。语义w e b 并不是要取代现有的w e b ,而是扩展。扩展的方式是对 现有信息进行形式化的描述,目的是使机器可理解,使计算机能够更好的提供信 5 硕士学位论文第二章信息抽取技术相关背景综述 息服务。在t i m 的构想中,语义w e b 表现为图2 - 1 2 1 所示的层次结构。自底向上 来看:第一层,规定了文档中字符的编码方式和资源的统一标识;第二层,x m l 和x m ls c h e m a 使用自定义的标签对文档的结构进行标注,规范文档的语法格 式,就可以方便的利用计算机处理文档;第三层,明确文档中标引对象之间的关 系,即资源描述层r d f + r d fs c h e m a 。r d f 定义了元素之间的关系,表现为三 元组的集合( 类似于句子的主语、谓语、宾语) 。x m l 加上r d f ( s ) 就相当于建立 了人工智能中的语义网络( s e m e n t i cn e t w o r k ) ,可以进行一定的推理。使用 x m l + r d f s ( s ) ,人们可以建立各自的语义网,只要有一套自成体系的术语就可 以了;第四层,明确标引项的精确含义,要让计算机相互理解对方的内容,需要 有一套共同的标准的概念体系,这就是本体( o n t o l o g y ) 。 t m s t 、 一 r u l e s d a t a p r o o f d 厂、一 毫 八 d a t a l o g i c 虽 s e l f - 罢 d e s c o n t o n l o g yv o c a b u l a r y 萤 d o c 。 r d f + r d f s c h e m a x m l + n s + x m l s c h e m a u n i c o d eu 图2 - 1 语义网的层次结构 x m l + r d f ( s ) + o n t o l o g y 构成了计算机相互理解的基础。这样每增加一个层 次,计算机在知识处理上就多一份能力。在本体层之上进一步要做一些逻辑推理 的工作,接下来就是保证信息是可信赖的,这就构成了一个多层次的语义网。 2 2 2 本体的产生 本体原本是哲学史上研究宇宙万物的本源问题的纯哲学的一个分支。“所谓本 原是指一切存在物最初都由它生成,或一切存在物都由它构成”。它指的是对客 观存在的一个系统的解释或说明,它关心的是客观现实的抽象本质。本体的来源最 早可以追溯到亚里士多德和他的学生,他们提出了“m e t a - p h y s i c s ”,本体这个术语 由r u d o l fg o c k e l 于1 6 1 3 年提出。2 0 世纪7 0 年代末,j o h nm ec a r t h y 将这个哲学 上的术语引入到计算机领域,今天它广泛的应用于计算机科学的许多领域,如知识 工程、数字图书馆、数据库系统、信息系统、语义w e b 和软件复用等1 7 g l 。 6 硕十学位论文 第二章信息抽取技术相关背景综述 2 2 3 本体概念的研究 近年来,本体的概念已经在计算机领域得到广泛的应用,但对其概念的定义 仍然存在较大的争议。 1 9 9 3 年,g r u b e r l 9 1 给出了本体的一个最为流行的定义,即“本体是概念模型 的明确的规范说明”。后来,b o r s t 在此基础上,给出了本体的另外一种定义: “本体是共享概念模型的形式化规范说明”。s t u d e r l l o l 等对上述两个定义进行了 深入的研究,认为本体是共享概念模型的明确的形式化规范说明。此外,w i l l e m t l l l 和f e n s e i l 2 】以及不同的研究团体根据自身需求对本体给出了不同的解释和定义, 但从总体理论上说,基本没有超出前而两位学者给出的定义。 这包含4 层含义:概念模型( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 。“概念模型”指通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得到的模型。概念模型所表现的含义独立于具体的环境状态。“明 确”指所使用的概念及使用这些概念的约束都有明确的定义。“形式化”指本体 是计算机可读的( 即能被计算机处理) 。“共享”指本体中体现的是共同认可的知 识,反映的是相关领域中公认的概念集,即本体针对的是团体而非个体的共识。 本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该 领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词 汇间相互关系的明确定义。 2 2 4 本体的主要构成要素 在本体中,需要考虑四种类型的对象:类、实例、属性和公理【1 3 1 。 类( c l a s s e s ) 是关于对象和概念的正式的描述。通过将类组织为父类和子类构 成的层次结构,可以用来表示应用领域数据层次结构。 实例( i n s t a n c e s ) 是类的个体存在或表示。子类的实例也是子类的父类的实例。 属性( p r o p e r t i e s ) 描述类的隐含或显式性质,也可被用来描述类问的相互关 系,例如一个对象和它的组件部分之间的“h a s a ”关系。 公理( a x i o m s ) 用来表示不能仅仅用属性和属性值描述的本体假设。公理能够 描述类之间的互斥( d i s j o i n t ) 、子类( s u b c l a s s 0 0 、等同( s a m e c l a s s a s ) 等关系。 2 2 5 本体的分类 根据本体不同方面的属性( 如形式化程度、目的和描述对象) ,可以对本体进 行不同的分类。如根据本体的形式化程度不同,可以把本体分为高度非形式化的 7 硕士学位论文第二章信息抽取技术相关背景综述 ( 1 - i i 曲l yi n f o r m a l ) 、结构非形式化的( s t r u c t u r e d - i n f o r m a l ) 、半形式化的( s e m i f o r m a l ) 和严格形式化的( r i g o r o u s l yf o r m a l ) 。根据本体的描述对象不同,可以把本体分 为特殊领域本体( 如医药、地理、金融等) 、一般世界知识本体、问题求解本体和 知识表示语言本体等。 由于本体的分类方法很多,目前还没有能够被广泛接受的分类标准。但以下 几个概念的定义意义明确,并从某种程度上提供了本体的分类方法: 1 、领域本体( d o m a i no n t o l o g y ) :以某一领域为描述对象的本体( 区别于领域 的问题和任务) 。 2 、问题求解模型( p r o b l e ms o l o i n gm o d e l ) :以问题求解方法为描述对象的本体。 3 、表示本体( r e p r e s e n t a t i o no n t o l o g y ) :以知识表示语言为描述对象的本体。 在表示本体中,类、对象、关系、属性、槽等术语经过严谨的分析和定义。 2 2 6 基于w e b 的本体描述语言 随着w e b 的发展,一系列基于w e b 的本体语言被提出,也叫做本体标记语 言,如s h o e l l 4 】、r d f t l5 】、r d f ( s ) 、o m 1 叼、d a m l l l 7 1 、d a m l + o i l 、o w l 1 扪。 这里只介绍论文要用到的本体描述语言r d f 、r d f ( s ) 。 r d f ( r e s o u r c ed e s c r i p t i o nf m m e w o r k ,资源描述框架) 、r d f ( s ) ( r d f s c h e m a ) ,是w 3 c 在x m l 的基础上推荐的一种标准,用于表示任何的资源信息。 r d f 提出了一个简单的模型用来表示任意类型的数据。这个数据类型由节点和 节点之间带有标记的连接弧组成。节点用来表示w e b 上的资源,弧用来表示这 些资源的属性。因此,这个数据模型可以方便的描述对象( 或者资源) 以及它们之 间的关系。r d f 的数据模型实质上是一种二元关系的表达,由于任何复杂的关 系都可以分解为多个简单的二元关系,因此r d f 的数据模型可以作为其他任何 复杂关系模型的基础模型。r d fs c h e m a 为r d f 资源的属性和类型提供定义良好 的词汇表。w 3 c 推荐以r d f r d f ( s ) 标准来解决x m l 的语义局限。 2 3w e b 信息抽取的研究现状 w e b 信息抽取发展至今,己经出现了很多种抽取系统,有的只能实现对于 w e b 上自由格式文本的抽取,而有的系统主要是针对半结构化、结构化文本进行 抽取,更有系统是两者兼而有之,三种不同类型文本的信息抽取方法各有特点。 对于一个信息抽取系统而言,其关键的一个元素就是抽取模式( 抽取规则) 的 描述,下面就以抽取模式中心对现有的w e b 信息抽取系统所用的原理分类描述。 硕士学位论文第二章信息抽取技术相关背景综述 2 3 1 基于自然语言处理方式的信息抽取 这类信息抽取主要是用于源文档中包含大量文本的情况( 特别针对合乎文法 的文本) ,在一定程度上借鉴了自然语言处理技术,利用子句结构,短语和子句 问的关系建立基于语法和语义的抽取规则实现信息抽取。目前采用这种原理的典 型系统有: 1 、w h i s k l l 9 1 是一个学习系统,它能够自动产生从各种格式文本中抽取有关 信息所需的相应模式知识。w h i s k 的信息抽取模式知识主要包括两部分内容: 描述有关信息的上下文内容( c o n t e n t ) ,以及描述所需抽取信息的准确边界 ( d e l i m i t e r ) 。根据文本的结构,w h i s k 利用上述两部分描述构造相应的信息抽取 模式知识。 2 、r a p i e r t z o i 能够学习单槽抽取模式,只是这个模式知识仅使用了有限的 句法知识。模式知识主要包括三部分内容:前( p r e ) 和后( p o s 0 一f i l l e rp a t t e r n s 分别 定义左右边界,而“f i l l e rp a t t e r n ”分别指示待抽取信息前面的单词,以及后面 的单词。“f i l l e rp a t t e r n ”指示待抽取的信息最多的单词数且单词的词性。 3 、s r v t 2 1 】的抽取模式是基于属性值测试和文档的相关结构。 这种基于自然语言理解方式的信息抽取技术,是将w e b 文档视为文本进行 处理的( 主要是用于含有大量文本的w e b 页面) ,抽取的实现没有利用w e b 文档 独特于普通文本的层次特性,获得有效的抽取规则需要大量的样本学习,需要用 户对文本进行语法标注,系统的实现比较复杂,并且抽取速度慢。 2 3 2 包装器归纳方式的信息抽取 包装器归纳方式的信息抽取根据事先由用户标记的样本实例,应用机器学习 方式的归纳算法,生成基于定界符的抽取规则。其中定界符实质上是对感兴趣语 义项上下文的描述,即根据语义项的左右边界来定位语义项。该类信息抽取方式 和基于自然语言理解方式的信息抽取技术最大的不同是仅仅用语义项的上下文 来定位信息,并没有使用语言的语法约束。采用这种原理的典型系统有: 1 、s t a l k e r 2 2 系统可以从半结构化的网页内容中抽取具有层次结构的信 息内容。例如网页内容与饭店有关,由于在一个城市中可能有几个地址,而每个 地址可能有几个电话号码。为有效解决这一个多层次嵌套信息的抽取问题, s t a l k e r 采用e c t ( e m b e d d e dc a t a l o gt r e e ) 来帮助描述文件的组织结构,以及 抽取任务的输出模式。同时也帮助指导信息的抽取过程。给定一个e c t , s 1 a l k e r 为每个e c t 结点产生一个抽取规则,对每个l i s t 结点再产生一个附 加循环规则。整个抽取过程也是按照这个层次结构展开。 o 硕士学位论文第二章信息抽取技术相关背景综述 2 、w i e n l 2 3 】系统中事先由用户标记样本页面,系统根据页面逻辑结构的不 同,使用不同的启发式归纳算法生成不同的包装器。例如,如果某页面具有h l r t 结构( 页面有h e a d ,b o d y ,t a i l 三部分,其中b o d y 由多个可使用左右标记分割 的纪录的列表组成) ,则产生一个h l r t 包装器。该系统语义和模式信息是用户 附加的。通过感兴趣信息的左右边界实现信息的定位。方式和上面系统类似,只 是该系统对复杂对象不做处理。 2 3 3 基于h t m l 结构的信息抽取 该类信息抽取技术特点是,根据w e b 页面的结构定位信息,在信息抽取之 前通过解析器将w e b 文档解析成语法树,通过半自动化的方式产生抽取规则, 将信息抽取转化为对语法树的操作实现信息抽取。采用这种原理的典型系统有: 1 、x w r a p 驯【2 5 l 系统通过交互式的方式,由用户在样本页中指定抽取区域 的起始位置,系统确定整个抽取区域,并确定区域的类型,然后通过可视化的方 式,由用户在样本页中制定语义项( 如表头) 及与之对应的实例,系统自动产生抽 取规则实现信息抽取,最后系统利用启发信息或数据间的层次结构关系,生成 x m l 文档。该系统采用用户在网页中制定语义项的方式附加语义信息,即将网 页的部分内容作为语义项,对于不同的区域类型( 如,t a b l e ,l i s t 等) 采用不同抽 取规则提高系统的灵活性和效率。但是该系统只适合对含有明显区域结构( 如 t a b l e ,l i s t ) 的网页进行信息抽取,不支持对普通网页的抽取,模式的表达能力也 非常有限,在学习阶段用户参与太多。 2 、l i x t o t 2 6 z r 系统允许用户以可视化、交互式的方式对样本页面中的信息 进行标记,系统通过记录用户标记的信息,生成抽取规则,实现对相似结构网页 的信息抽取。用户无需具备与系统相关的专业知识,就可以完成对数据源的包装。 在该系统中语义信息是在样本学习阶段,由用户加入的,采用了先模式的方式, 事先由用户在可视化的界面中定义模式,抽取出的数据最终以x m l 格式存放, 其中使用用户定义的语义项作为x m l 文档中的元素类型名。l i x t o 在一定程度 上简化了信息抽取的步骤,增强了信息抽取的实用性。该系统的不足之处在于: 它的抽取规则使用基于d a t a l o g 的e l o g 语言描述,实现和优化比较困难,另外抽 取规则中对抽取信息的描述不够丰富,而且对网页中的超链接不做处理,不支持 图像信息和文献信息的处理。 3 、r o a d r u n n e r 2 8 1 系统通过对2 个或多个样本网页结构的比较,获得一个利 用正则表达式表示的该类网页面的通用结构模式,然后根据结构模式实现对相似 页面的信息抽取,系统根据结构模式中h t m l 标记间的关系,以嵌套的形式组 织抽取出的数据。该系统实现了全自动的信息抽取。结构模式确定的数据都抽取 1 0 硕士学位论文第二章信息抽取技术相关背景综述 出来( 可能包含用户不感兴趣的信息) 。抽取出的数据仍然没有语义信息,如果要 利用的话可以采用后模式的方式为其附加语义。另外该系统需要大量的训练文 本,对网页结构要求较多。 2 3 4 基于x m l 的信息抽取 当前的w e b 信息大多数都是h t m l 格式的,由于h t m l 具有结构简单性和 灵活性,它极大地促进了信息产业的发展,但是也正是由于h t m l 结构太灵活 和自由,造成了一个致命的缺陷:难以检索或者抽取隐藏其中的数据。针对h t m l 的这种缺陷,x m l 语言应运而生,它一方面继承了h t m l 的灵活性和简单性, 另一方面又对其存在的问题做了很大的改进,最重要的就是强制结构的完整性和 标签的自定义性。正因为x m l 比h t m l 具有更多的优点,人们普遍认为:x m l 最终会取代h t m l 而成为w e b 的通用语言。此外,针对x m l 的研究以及支持 x m l 的工具也不断涌现。为此可以将h t m l 格式的文档转换成x m l 格式,然 后再进行对x m l 文档进行信息抽取。论文研究的内容就要用到h t m l 向x m l 的转化技术和x m l 中信息的定位定位技术,在后面章节中还将详细介绍。 2 3 5 基于w e b 查询的信息抽取 使用w e b 的相关技术解决w e b 的问题称为w e b 技术风范。具有w e b 技术 风范的信息抽取将w e b 信息抽取转化为使用标准的w e b 查询语言对w e b 文档的 查询,具有通用性。采用该类技术的典型系统有: 1 、w e b o q l l 2 9 1 1 3 0 i 系统是类似于s q l 语句的w e b 查询语言,它具有定位感 兴趣信息和结构重构的功能。系统利用w e b o q l 语言提出了一种通用的h t m l 包装器框架。系统首先将输入的w e b 文档解析成一棵抽象的h t m l 语法树 h y p e r t r e e ,然后用户在信息抽取之前根据页面的结构和标记写出合适的查询语句 实现信息抽取。该系统试图将w e b 信息抽取转化为w e b 查询,但并没有看到其实 现。w e b o q l 仅作为一种w e b 查询语言出现,并为x q u e r y 规范的形成做出贡献。 2 、p q a g e n t | 3 1 3 2 1 系统是国内研究者的成果,采用了交互式的方式,用户首 先选定样本页面,然后在可视化的界面中,对样本页面进行标记,系统通过学习 生成基于x q u e r y 的抽取规则,利用生成的抽取规则实现对相似结构页面的信息 抽取。该系统信息抽取转化为利用x q u e r y 对w e b 页面的查询,因此相对于前面 的系统,该系统的抽取规则相当健壮,有很强的表达力,统一了h t m l 和x m l 查询,不仅便于最终用户使用,也便于作为包装器( w r a p p e r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论