(计算机应用技术专业论文)面向垂直搜索的信息抽取研究.pdf_第1页
(计算机应用技术专业论文)面向垂直搜索的信息抽取研究.pdf_第2页
(计算机应用技术专业论文)面向垂直搜索的信息抽取研究.pdf_第3页
(计算机应用技术专业论文)面向垂直搜索的信息抽取研究.pdf_第4页
(计算机应用技术专业论文)面向垂直搜索的信息抽取研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 继g o o g l e 和b a i d u 引领水平搜索技术之后,面向领域的垂直搜索技术在处 理海量的数据方面扮演着越来越重要的角色。目前,网络上的资源非常的丰富, 人们若想寻找如住房,工作,二手车交易等信息,就要寄希望于垂直搜索。垂直 搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽 取,也就是将网页的非结构化数据抽取成特定的结构化信息数据。然后将这些数 据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引 再以搜索的方式满足用户的需求。 本文所做的工作就是抽取人物基本资料信息。在观察和分析了网络上关于个 人信息的描述之后,进行人物基本资料的信息抽取。主要内容包括:去除网页噪 音信息,定位主题信息,主要从w e b 页面找到该页面的主题信息一对人物信息的 描述:再根据描述的文本类型分类,分别对页面结构化文本和自由文本,给出不 同的抽取方法。其中对页面结构化类型采取d o m 树抽取;对于自由文本信息,采 取小句相似度计算确定句子主题,然后在该小旬中,根据主题进行信息抽取。 我们研究的是面向实际应用的,是在对文本进行分析的基础上进行研究的。 由于网络上资源异常庞大,而我们涉及到的和要处理的资源有限,因此在研究过 程中,对每一项的研究,都采取了相对简单,实用的和有效的方法。 本文对信息抽取作了初步研究,实验结果还比较粗糙。在实际应用中,主题 信息抽取模块中的主题信息模块的判定,句子相似度计算的方法等都还需要进一 步的研究。我们所积累的经验和资源,也可以作为进一步研究的基础。 关键词:垂直搜索;信息抽取;结构化文本;自由文本; a b s t r a c t a f t e rg o o g l ea n db a i d ul e a d i n gh o r i z o n t a ls e a r c ht e c h n o l o g y ,t h ev e r t i c a ls e a r c h t e c h n o l o g yo ff a c i n ga r e ai sp l a y i n gav e r yi m p o r t a n tr o l ei nd e a l i n gw i t hh u g e d a t a r e c e n t l y ,t h er e s o u r c e so ni n t e r n e ta r es op r o f u s et h a tp e o p l eh a v e t op i nt h e i r h o p eo nv e r t i c a ls e a r c hw h e nt h e yw a n tt of i n ds o m ei n f o r m a t i o na b o u t h o u s ej o bo r s e c o n d h a n dc a l - ) sb a r g a i n i n g c o m p a r i n gw i t ht h ep a g e sh o r i z o n t a ls e a r c h ,t h em o s t d i f f ;即伪o fv e r t i c a ls e a r c hi st h a tt h ei n f o r m a t i o no np a g e sh a v eb e e nd e a l tw i t h s t r u c t u r e de x t r a c t i n g ,t h a tm e a n se x t r a c t i n gu n s t r u c t u r e di n f o r m a t i o nf r o mw e bp a g e s a n dt r a n s f e r i n gt h e mi n t os t r u c t u r e di n f o r m a t i o n a n dt h e np u tt h e s ed a t ai n t o d a t a b a s e si no r d e rt od of u r t h e rd e a l i n g s ,s u c h 鹤w i p i n go f fr e i t e r a t i o n ,s o r t i n g t l l e y w i l ls a t i s f yt h eu s e r sn e e db yt h ef a s h i o no fs e a r c ha f t e rp a r t i c i p l ea n di n d e xf i n a l l y t h em a i nt a s ko ft h i sp a p e ri st o e x t r a c tp e r s o n sb a s i ci n f o r m a t i o n a f t e r o b s e r v i n ga n da n a l y s i n gt h ed e s c r i p t i o no fp e r s o n sb a s i ci n f o r m a t i o no ni n t e m e t , w e s t a r tt h et a s ko fe x t r a c t i n g1 ) e :1 - s o n sb a s i ci n f o r m a t i o n t h i st a s ki n c l u d e sw i p i n go f j f t h ew a s t ei n f o r m a t i o no np a g e s ,o r i e n t a t i n gt h em a i ni n f o r m a t i o no ft h ep a g e s ,t h a t m o a n sf i n d i n gt h et o p i ci n f o r m a t i o nf r o mt h ew e bp a g e s - - t h ed e s c r i p t i o no fd a - s o n ) s i n f o r m a t i o n b yt h et y p eo ft h ed e s c r i p t i o no f t h et e x t , w eg i v et h ed i f f e r e n te x t r a c t i o n m e t h o d sf o rt h et w ot y p e so ft e x t - - t h ep a g e s t r u c t u r e dt e x ta n dt h ef r e et e x t w eu s e t h ed o m t r e ef o rp a g e s t r u c t u r e di n f o r m a t i o n w h e nf o rf r e et e x t ,w ef i r s t l yu s e m em e 吐l o do fc a l c u l a t i o no fs e n t e n c es i m i l a r i t yt ol a b e lt h et o p i co ft h es e n t e n c ea n d t h e ne x t r a c t i n gt h ei n f o r m a t i o nb yt h et o p i ci nt h i ss e n t e n c e o u rr e s e a r c hi sf a c i n gr e a la p p l i c a t i o nb a s e do nt h ea n a l y s i so ft h et e x t a st h e r e s o u r c e so ni n t e m e ti ss oh u g ea n dt h ed a t aw ew i l lr e f e ra n dd e a lw i t hi sr e s t r i c t e d , w ea d o p tas i m p l e ,p r a c t i c a la n de f f e c t i v em e t h o df o re v e r yi t e mi nr e s e a r c h i n g t h i sp a p e rh a sm a d eap r i m a r yr e s e a r c ho ni n f o r m a t i o ne x t r a c t i o na n dg i v e na c o a r s ee x p e r i m e n tr e s u l t i np r a c t i c a la p p l i c a t i o n , t h em e t h o do fc a l c u l a t i o no f s e n t e n c es i m i l a r i t ya n dt h et o p i c a ld e t e r m i n a t i o ni nt h em o d e lo ft o p i ci n f o r m a t i o n e x t r a c t i o nn e e dt ob ef u r t h e rr e s e a r c h e d t h ee x p e r i e n c e sa n dr e s o u r c e sw eh a s a c c u m u l a t e dc a nb eu s e da sb a s ef o rf u r t h e rr e s e a r c h k e y w o r d s :v e r t i c a ls e a r c h ;i n f o r m a t i o ne x t r a c t i o n ;s t r u c t u r e dt e x t ;f l e et e x t ; 学位论文版权使用授权书 本人完全了解北京机械工业学院关于收集、保存、使用学位论文 的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和 电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、 缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以 及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向 国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目 的的前提下,学校可以适当复制论文的部分或全部内容用于学术活 动。 学位论文作者签名霹诲1 钆 w 8 年j 月2 牛e l ( 注:非保密论文无需签字) 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 年月日年月 日 硕士学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 签名:舞琳 影年 月 第1 章绪论 1 1 选题背景 第1 章引言 随着计算机的普及以及互联网的迅猛发展,大量的信息以电子文档的形式出 现在人们面前。目前全球互联网的网页总数已经达到千亿数量级,域名总数过亿, 而且有效网站也超过了千万以上。 面对如此庞大的信息量,虽然目前已经诞生很多比较成熟的商业搜索引擎, 但是这些搜索引擎提供的仍然是以文档为主的信息源,不是信息本身,更加不是 知识。为了应对信息爆炸带来的严峻挑战,迫切需要一些自动化的工具帮助人们 从海量信息中迅速找到真正需要的信息。比如,从经济新闻中抽取出公司发布新 产品的情况:公司名、产品名、发布时间、产品性能等;从新闻报道中抽取出恐 怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从 病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等等。信息抽取 ( i n f o r m a t i o ne x 仃a c t i o n ) 的研究正是在这种背景下产生的【z 1 。 信息抽取的目标是把文本里包含的信息进行结构化处理,变成表格一样的组 织形式。输入到信息抽取系统的是原始文本,输出的是固定格式的信息点。信息 点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息 抽取的主要任务。 目前,网络上的资源非常的丰富。通过搜索,普通的搜索引擎返回给用户的 信息包含的范围太过于宽泛,很难定位到用户真正想要找的信息。比如用户想利 用b a i d u 、g o o g l e 寻找一辆二手车就很难,这就要寄希望于垂直搜索。垂直搜索 不同于一般的水平搜索,它是面向某一个特定的领域内的搜索,定位更加准确和 具体。 垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构 化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比 网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位, 而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进 一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户 的需求。随着人们对网络上关于租房,二手房信息以及找工作的信息依赖性越来 越大,普通的水平搜索技术已经越来越难以满足人们的需求,因此,垂直搜索技 术成为迫切需求。 第l 章绪论 1 2 信息抽取技术介绍 1 2 1 信息抽取定义 信息抽取的目标是把文本里包含的信息进行结构化处理,变成表格一样的组 织形式。输入到信息抽取系统的是原始文本,输出的是固定格式的信息点。信息 点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起 信息抽取的定义是指从一段文本中抽取指定的一类信息( 例如事件、事实) 、 并将其形成结构化的数据填入一个数据库中供用户查询使用的过程。信息抽取系 统的主要功能是从文本中抽取出特定的事实信息。通常,被抽取出来的信息以结 构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析利用。 1 2 2 信息抽取与信息检索 与信息抽取密切相关的一项研究是信息检索,但信息抽取与信息检索存在差 异,主要表现在三个方面h 1 : 1 功能不同:信息检索系统主要是从大量的文档集合中找到与用户需求相关 的文档列表;而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。 2 处理技术不同:信息检索系统通常利用统计及关键词匹配等技术,把文本 看成词的集合,不需要对文本进行深入分析理解;而信息抽取往往要借助自然语 言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。 3 适用领域不同:由于采用的技术不同,信息检索系统通常是领域无关的, 而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信 息。另一方面,信息检索与信息抽取又是互补的。为了处理海量文本,信息抽取 系统通常以信息检索系统( 如文本过滤) 的输出作为输入:而信息抽取技术又可 以用来提高信息检索系统的性能。二者的结合能够更好地服务于用户的信息处理 需求。 一般来说,信息抽取系统的处理对象是自然语言文本尤其是非结构化文本。 但广义上讲,除了文本以外,信息抽取系统的处理对象还可以是语音、图像、视 频等其他媒体类型的数据。在这里,我们只讨论狭义上的相对简单的信息抽取研 究,即针对自然语言文本的信息抽取。 1 2 3 信息抽取研究现状 美国纽约大学开展的l i n g u i s t i cs t r i n g 项目开始于6 0 年代中期并一直延 2 第1 章绪论 续到8 0 年代。该项目的主要研究内容是建立一个大规模的英语计算语法,与之 相关的应用是从医疗领域的x 光报告和医院出院记录中抽取信息格式,这种信息 格式实际上就是现在我们所说的模板( t e m p l a t e s ) 。另一个相关的长期项目是由 耶鲁大学r o g e rs c h a n k 及其同事在2 0 世纪7 0 年代开展的有关故事理解的研究。 由他的学生g e r a l d d ej o n g 设计实现的f r u m p 系统是根据故事脚本理论建立的 一个信息抽取系统。该系统从新闻报道中抽取信息,内容涉及地震、工人罢工等 很多领域或场景。该系统采用了期望驱动( t o p - d o w n ,脚本) 与数据驱动 ( b o t t o m - u p ,输入文本) 相结合的处理方法。这种方法被后来许多信息抽取系统 采用。 从2 0 世纪8 0 年代末开始,信息抽取研究蓬勃开展起来,这主要得益于消息 理解系列会议( m u c ,m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 嫡m 儿铂的召开。 从1 9 8 7 年开始到1 9 9 8 年,m u c 会议共举行了七届,它由美国国防高级研究 计划委员会( d a r p a ,t h ed e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ) 资助。 m u c 的显著特点并不是会议本身,而在于对信息抽取系统的评测。只有参加信息 抽取系统评测的单位才被允许参加m u c 会议。 m u c 系列会议对信息抽取这一研究方向的确立和发展起到了巨大的推动作 用。m u c 定义的信息抽取任务的各种规范以及确立的评价体系已经成为信息抽取 研究事实上的标准。 目前,正在推动信息抽取研究进一步发展的动力主要来自美国国家标准技术 研究所( n i s t ) 组织的自动内容抽取( a c e ,a u t o m a t i cc o n t e n te x t r a c t i o n ) 评会议。 与姗c 相比,目前的a c e 评测不针对某个具体的领域或场景,采用基于漏 报( 标准答案中有而系统输出中没有) 和误报( 标准答案中没有而系统输出中有) 为基础的一套评价体系,还对系统跨文档处理( c r o s s d o c u m e n tp r o c e s s i n g ) 能力进行评测。这一新的评测会议将把信息抽取技术研究引向新的高度。 1 2 4 信息抽取的一般过程 按照m u c 的任务规定呻1 ,一个完整的信息提取过程包括如下5 个阶段: 1 命名实体n e ( n a m e de n t i t i e s ) :提取文本中相关的命名实体,包括人名、 机构公司名称的识别。 如:国家财政部o r g 部长某某某p e r s o n 。 2 实体关系e r ( e n t i t yr e l a t i o n s ) :提取命名实体之间的各种关系( 事实) 等,例如l o c a t i o n o f ,e m p l o y e e o f ,p r o d u c t o f 等关系。 如:p o s t o f ( 部长,某某某) e m p l o y e e o f ( 国家财政部,某某某) 。 第l 章绪论 3 脚本模板s t ( s c e n a r i ot e m p l a t e ) :提取指定的事件,包括参与这些事件 中的各个实体、属性或关系。 如:召开会议( t i m e ,s p o t ,c o n v e n e r ,t o p ic ) 航天器发射事件( 其涉及的运载工具、负载、时间和场地) 。 4 共指消解c o r e f e r e n c e ( i d e n t i t yd e s c r i p t i o n s ) :代词、名词共指分析。 5 模板合并t e m p l a t em e r g e r :把相同的事件合并成为一个。 1 2 5 信息抽取的关键技术 信息抽取技术包括各种对象( 实体、实体间的关系、事件) 的识别以及把识 别出来的对象有机关联起来两个方面。这两个方面包含了信息的表达、语言的分 析( 词法、句法、语义) 、知识的获取与推理等技术。显然,不同的应用对信息 抽取的要求不同,不同的事件主题会有不同的关注点,不同的信息描述侧面会有 不同的信息模式。在信息模式中,融合了实体及实体间关系等信息,信息抽取技 术的研究集中在识别对象以及对象间的关联模式的获取上。所定义的识别对象不 同,识别的难易程度也不同。下面介绍几种关键技术: 1 句法分析技术 通过句法分析得到输入的某种结构表示,如完整的分析树或分析树片段集 合,是计算机理解自然语言的基础。在信息抽取领域一个比较明显的趋势是越来 越多的系统采用部分分析技术,这主要是由于以下原因造成的。 首先是信息抽取任务自身的特殊性,即需要抽取的信息通常只是某一领域中 数量有限的事件或关系。这样,文本中可能只有小部分与抽取任务有关。并且, 对每一个句子,并不需要得到它的完整的结构表示,只要识别出部分片段间的某 些特定关系就行了,得到的只是完整分析树的部分子图。 其次是部分分析技术在m u c 系列评测中的成功。 s r i 公司在参加m u c - 4 评测的f a s t u s 系统中开始采用层级的有限状态自动 机( c a s c a d e df i n it e - s t a t ea u t o m a t a ) 分析方法。该方法使f a s t u s 系统具有 概念简单、运行速度快、开发周期短等优点,在多次m u c 评测中都居于领先地 位。 2 篇章分析与推理 一般说来,用户关心的事件和关系往往散布于文本的不同位置,其中涉及到 的实体通常可以有多种不同的表达方式,并且还有许多事实信息隐含于文本之 中。为了准确而没有遗漏地从文本中抽取相关信息,信息抽取系统必须能够识别 文本中的共指现象,进行必要的推理,以合并描述同一事件或实体的信息片段。 因此,篇章分析、推理能力对信息抽取系统来说是必不可少的。 4 第l 章绪论 初看起来,信息抽取中的篇章分析比故事理解中的篇章分析要简单得多。因 为在信息抽取中只需要记录某些类型的实体和事件。但是,大多数信息抽取系统 只识别和保存与需求相关的文本片段,从中抽取出零碎的信息。在这个过程中很 可能把用以区分不同事件、不同实体的关键信息给遗漏了。在这种情况下要完成 篇章分析是相当困难的。 除此之外,目前尚缺乏有效的篇章分析理论和方法可以借鉴。现有篇章分析 理论大多是面向人、面向口语的,需要借助大量的常识,它们设想的目标文本也 比真实文本要规范,并且理论本身也没有在大规模语料上进行过测试。 3 知识获取技术 不同的领域、不同的主题对信息提取的内容是不一样的,支持提取的知识也 有差别。每一个具体的信息提取任务都期望有相关领域的知识资源,包括词典、 模式集合及相应的匹配规则。于是一个i e 系统初始建立、向其他领域的可移植 性成为i e 中的一个热点研究问题。在不同的信息抽取系统中知识库的结构和内 容是不同的,一般都由通用知识和领域知识两部分组成。通常有词典或概念常识 库:存放通用词汇以及领域词汇的静态属性信息,并表达概念间的关系;抽取模 式库,每个模式可以有附加的操作;有关篇章分析和推理的规则库、模板填充规 则库等。 知识库的建立有三种方式:手工编制、半自动方式、自动获得。手工编制相 对简单一些,人工工作仍然是主体,只是为移植者提供了一些图形化的辅助工具, 以方便和加快领域知识获取过程。后两种采用有指导的、无指导的或间接指导的 机器学习技术从文本语料中自动或半自动获取领域知识,人工干预程度较低。 4 命名实体的识别 命名实体( n a m e de n t i t y ) 是文本中重要的信息元素。狭义地讲,命名实体 是指现实世界中的具体的或抽象的实体,如人、组织、公司、地点等,通常用唯 一的标志符( 专有名称) 表示,如人名、组织名、地名等。广义地讲,命名实体 还可以包含时间、数字表达式等( 本文中用“实体名 或者“实体词 来代表狭 义上的命名实体,包括人名、地名、组织名:而用“命名实体”来代表广义上的 命名实体) 。实际研究中,命名实体的确切含义,需要根据具体应用来确定,比 如,在具体应用中,可能需要把住址、网址、电子信箱地址、电话号码、舰船编 号、会议名称等作为命名实体。有些词属于专门领域中的实体名,例如药名、医 学条件、轮船名字、以及参考目录等,也应该把其归入考虑范围内。 5 实体问关系的识别 实体间关系的识别是在m u c - 7 上提出的。不同的主题表现出来的实体间的关 系是不相同的。比如公司与其负责人关系、地理位置关系、雇佣关系等。进行信 5 第1 章绪论 息提取时,通常是事先指定要抽取的关系( a c e 规定了7 种实体间的关系) 。目 前实体间关系研究范围只局限于二元关系,识别技术属于模式获取范畴。 具有代表性的方法包括: ( 1 ) 基于种子实例的自适应的( b 0 0 t s t r a p p i n g ) 获取方法9 1 1 们 ( 2 ) 基于分类的获取方法叫 将关系的抽取转化为一个分类问题,对句子中所含的实体对,使用一个分类 器决定哪些是要提取的关系。分类器的选择可以有多种方式,如s v m 、w i n n o w 、 核方法。所有这些方法都是有指导的学习方法,需要有大规模的标注了实体间关 系语料支持。 ( 3 ) 自动获取关系模式方法“幻n 朝 与原有方法最大的区别是关系的确定不再基于己有的模板,而是自动的从大 规模语料库中自动获取关系和关系的类型,其核心技术是对实体对进行聚类。基 本过程如下: 1 标注所有的命名实体 2 获取任意两个命名实体同现的上下文 3 计算这些上下文的相似性 4 对命名实体对进行聚类 5 对聚类结果中的每一类选择关系名,形成关系 经过在a c e 数据集上的测试,在p e r - g e p 和c o m - c o m 的关系识别上,该方法 获得了较好的效果( f 值分别达到了8 0 5 ,7 5 ) 。主要问题是低频的实体关系不 容易发现。 6 指代的消解 指代的消解是信息提取中较为困难的一个任务,由于受到资源的限制,现在 的指代的消解多集中在人称代词的消解上。用于解决指代的方法包括: ( 1 ) 规则法:人工总结出指代消解规则,按照这些规则来实现指代消解。 ( 2 ) 简单的同现方法:通过角色同现消解英语中的i t 代词。 ( 3 ) 统计模型n 制:利用统计特征,包括距离、是否人称代词、字符串匹配否、 是否有限名词、是否指示代词、单复数是否对应、语义类是否一致、是否别名、 是否同位语等,构造统计模型。 ( 4 ) 聚类法:选定一些对实现指代消解能产生作用的特征,对一些对象进行 聚类,聚为一类的对象就认为是同指对象。 ( 5 ) 分类法:选定一些对实现指代消解能产生作用的特征,选定一些训练语 料,采用某种机器学习方法训练出一个指代消解分类器,并用该分类器完成新来 文本中的指代消解。 6 第l 章绪论 ( 6 ) 决策树的指代消解法n5 1 :对训练集采用c s 算法学习出决策树,对新的 指代进行判断。 这些方法对指代处理的效果差别不大,识别正确率在5 0 一7 0 的范围之内。 7 事件识别 事件的识别技术是i e 中的核心技术。其研究包括: ( 1 ) 表达事件的模式获取n 6 1 ( 2 ) 模板中关于槽值填充的规则获取n 刀 ( 3 ) 事件信息的表示方法研究。 从信息提取的流程可知,信息的表达形式通常是事先规定好的模式。模式的 形式可以是:词袋( b a g - o f - w o r d ) 、词项( w o r di t e m ) 、词汇、短语或更复杂的 结构的正则表达形式、谓词论元结构( p r e d i c a t e a r 目l m e n ts t r u c t u r e ) 、依存链 ( d e p e n d e n c yc h a i n ) 形式、子树( s u b t r e c ) 模型。 目前,大多数i e 系统的模板形式都采用谓词论元结构或依存链的形式表达 事件及其关系。这两种表达是建立在句法分析的基础上的。谓词论元结构表达的 是一种句法关系,比如主语一动词( s u b j e c t v e r b ) 、宾语一动词( o b j e c t v e r b ) 形式。这种表达对于信息提取来说,存在两个问题:一是覆盖性问题( 仅是分句 范围内) ,另一是嵌套的实体只能作为一个整体的论元表达;依存链的表达形式 是使用依存树中始于谓词结点的路径表达,这样可以打破分句的界限和嵌套实体 的问题。在模式的自动获取中召回率比谓词论元结构的提高了5 个百分点。但这 种方法对于上下文环境的依赖性很大,精确率很难提高。在a c e 的任务描述中, 对事件的抽取内容可以认为是事件的论元结构。 8 领域词汇的抽取 一篇文章的关键词,是指能够反映文章主要内容以及文章所涉及的领域的词 语或短语。一个领域的关键词,指该领域的术语,专业名词,放宽一点,也可以 是经常应用于该领域的词语或短语。比如一提起“借贷”,就让人们想起金融领 域。领域关键词提取,指使用计算机在领域语料库中自动提取关键词,必要时可 以经过人工筛选。 最早的关于术语抽取的研究是h p l u h n 所作的工作,到目前为止,已经有 很多学者参与术语抽取工作的研究,并且取得了一定的成果。s a l t o n ,y a n g & y u 通过简单的加权两个相邻字的方法来抽取术语;d a m e r a u 使用互信息来测量两个 词之间的联合强度,取得了一些效果:d u n n i n g 和c o h e n 贝, x j c , l 建和使用了l o g l i k e l i h o o d 参数,避免了一些低频词的遗漏,从而较有效的弥补了互信息的不 足;p a t r i c k d e k a n g 将互信息和l o g - l i k e l i h o o d 两个参数相结合进行术语 抽取,取得了一定的成功。在中文领域词汇抽取方面,东北大学的陈文亮等人提 7 第l 章绪论 出了基于b o o t s t r a p p i n g 的领域词汇自动抽取方法n 8 1 ;北京大学的穗志方也提 出了信息科学技术领域术语自动识别策略n 引。 1 3 信息抽取的分类 一r 粤广恒圆 掣。黑一 l 恒而四l 一 图i 1 信息抽取系统分类 在本文的工作中,我们不作这样的细分,我们把处理对象分为两类:无结构 信息,结构和半结构化信息,如下: 第l 章绪论 一无结构信息抽取( 自由文本) 信息抽取 一 u结+ 勾化信息抽取( 网页信息) 图1 2 本文抽取系统分类 我们增加了文本预处理这一模块,如果主题信息是自由文本信息,我们将其 抽取下来,按照自由文本的方法进行抽取,如果是结构化文本,我们直接在网页 上进行抽取。 1 4 本文主要内容及结构 1 4 1 主要内容 本文要做的工作主要如下: 1 网页预处理阶段,即找出网页中主题的信息,去掉网页中和主题不相关的 部分,如广告,导航条等。 2 对于网页主题信息的内容格式是结构化文本的,采取基于d o m 树结构,利 用相对路径方法抽取用户感兴趣的信息。 3 如果网页主题信息是自由文本,根据句子相似度给句子标注主题,进而在 句子中根据句子的主题抽取相关信息,提高了抽取的准确性。 1 4 2 论文结构 本文共分六章: 第1 章绪论,介绍信息抽取的基本概念、研究内容、发展现状以及相关技 术等,为我们下面的研究奠定理论基础。 第2 章系统框架图及相关技术介绍,包括文档对象模型( d o m ) 介绍,命名 实体的识别,主要是时间短语的识别,以及领域句式在本文中的作 用和意义。 第3 章网页预处理,将w e b 页面解析成d o m 树,利用d o m 树结点,去掉网 页中和主题不相关的噪音信息部分,如广告,导航条等,过滤出网 页中主题的信息。 第4 章结构化网页信息抽取。基于d o m 树结构,结合相对路径的方法,抽 取出用户感兴趣的信息。 9 第l 章绪论 第5 章自由文本的信息抽取。当w e b 网页的主题信息是自由文本时,计算 句子相似度,给相关句子标注主题;在句子中,根据主题抽取相关 信息,大大提高了抽取的准确性。 第6 章全文总结,介绍了本文的研究背景、研究内容、研究方法及本文特 点。最后提出了今后工作的展望。 l o 第2 章系统框架及相关技术介绍 第2 章系统框架及相关技术介绍 2 1 系统整体框架及流程说明 2 1 1 系统整体框架结构 2 1 2 各个模块的说明 图2 - 1 系统整体框架图 整个系统分为三个模块,如果2 - i 所示:页面预处理模块,结构化信息抽取 模块,自由文本信息抽取模块。 1 页面预处理模块:将w e b 页面解析成d o m 树,根据过滤算法,过滤相关噪 音信息,如标题栏,导航条,广告栏等,同时通过相关算法定位网页主题信息; 2 结构化信息抽取模块:基于d o m 树结构,结合相对路径方法,在网页主题 信息中抽取用户感兴趣的信息: 3 自由文本信息抽取模块:利用句子相似度计算,标注出句子主题;然后在 句子内部,根据主题抽取出相关信息。 2 2o o m 技术简介 2 2 1o o m 的定义 按照w 3 c 的定义,d o m 是一个允许程序或者脚本能够动态地存取和更新 h t m l x m l 文件内容、结构以及风格的接口和平台汹1 。d o m 目前主要由两部分组 成:d o mc o r e 和d o me x t e n s i o n d o mc o r e 主要定义了处理x m l 文件所需的功 能:d o me x t e n s i o n 定义了处理h t m l 文件所需的功能。文档对象模型( d o m ) 是一 种用于h t m l 和x m l 文档的应用程序编程接口( a p i ) 。使用文档对象模型,程序员 第2 章系统框架及相关技术介绍 可以构造文档,增加、修改、或删除元素和内容,h t m l 中的任何内容都可以使 用文档对象模型进行存取、修改、删除或增加。 d o m 是由一组对象和存取、处理文档对象的接口组成。下面介绍常用的几种, 它们包括文档、结点、元素、文本结点、属性、n 维树。 1 - 文档( d o c u m e n t ) d o m 的文档是由分层的结点对象构成,这些结点对象构成一个h t m l 页面:文 档是一个结点,该结点只有一个元素,这个元素就是它自己。文档接口表示整个 h t m l 文档,从概念上讲,它是文档树的根,提供对文档数据的存取。 2 结点( n o d e ) 结点是一般类型,它涉及一个文档中存在的所有对象。 3 元素( e l e m e n t ) 在细读一个文档时,最常碰到的东西就是元素,元素是除文本之外的几乎每 一个对象。元素是从结点类型推导出来的。元素包含属性,而且可以是另一个元 素的父类型。 4 文本结点( t e x t n o d e ) 文本结点用来处理文档中的文本。 5 属性( a t t r i b u t e ) 属性是元素的基本属性,因此它们不是元素的子结点。即使它们是从一般结 点类型推导出来,它们的行为也与其它结点的行为不同。例如,属性调用 p a r e n t n o d e ,p r e v i o u s s i b li n g 和n e x t s i b li n g ,它们将返回n u l l 。也就是说, 它们不是文档树的一部分。 6 n 维树( n - a r y t r e e ) n 维树以像树一样的结构表示数据。树具有一个树根,树根拥有子结点。如 果文档是根,则大多数子结点是由元素构成。 2 2 2d o m 的主要特点 d o m 是语言独立的。d o m 的接口都是符合工作标准的界面定义语言 i d l ( i n t e r f a c ed e f i n i t i o nl a n g u a g e ) 描述的,不限制用何种语言具体实现这些 接口。事实上,现在已有j a v a ,c + + ,p y t h o n 等多种版本的d o m 实现。d o m 的核 心是将面向对象( o b j e c t o r i e n t e d ) 概念引入h t m l ) ( m l 文件的处理中。在d o m 以前,无论是h t m l 还是x m l ,均被看作是包含各种组件的数据集合,以面向数 据的方式管理文件。引入对象后,在d o m 看来,h t m l x m l 的组件不仅只包含数 据本身,每一个h t m l x m l 中的组件( e l e m e n t ) 还包含有方法( m e t h o d ) 和属性 ( a t t r i b u t e ) d o m 定义了使用这些方法和属性的a p i ,通过方法和属性来存取和 1 2 第2 章系统框架及相关技术介绍 管理组件。 2 2 3d o m 和h t m l 树型逻辑结构 一般来说,h t m l 文件由标题( t i t l e ) 、头( h e a d ) ,段落( p a r a g r a p h ) ,超链 ( h y p e r l i n k ) 以及其它各种组件组成,并且组件在文件中的顺序与显示顺序相同。 d o m 通过对h t m l 文件的再解释,生成一个文件的树型内部结构,称为文件的树 型逻辑结构或逻辑结构。 d o m 在进行了文件解释时,将h t m l 文件看成一棵树。 作为树的根,而 h t m l 文件的其它组件被看作树中的结点( n o d e ) ;结点可以作为父结点包含结点, 也可以作为其它结点的子结点:同一层的结点称为兄弟结点。 d o m 定义了a p i 允许其它程序浏览树型逻辑结构,并且提供存取、添加、修 改和删除结点的功能。下面是一个简单的例子说明了d o m 是如定义文件的逻辑结 图2 2h t m l 源码 一卜 + l 脏a db o d y _ _ _ - _ - - _ - - - _ _ _ _ _ _ ijl l1 1 t l eh ip i a 【k k m 删t “b i s a d o 姗删t h cb o d yb ml o x t 图2 3 对应结点图 从上面的例子可以看出,原来的h t m l 文件被转化为一个树型结构。其中 是树型结构的根结点: , , 都是 的子结点, 是他们的父结点: ,( h 1 , 互为兄弟结点。 2 2 4d o m 的四个基本接口 在d o m 接口规范中,有四个基本的接口:d o c u m e n t ,n o d e ,n o d e l i s t 以及 n a m e d n o d e m a p 。在这四个基本接口中,d o c u m e n t 接口是对文档进行操作的入口, 它是从n o d e 接口继承过来的。n o d e 接口是其他大多数接口的父类,象d o c u m e n t , e l e m e n t ,a t t r i b u t e ,t e x t ,c o m m e n t 等接口都是从n o d e 接口继承过来的。 n o d e l i s t 接口是一个结点的集合,它包含了某个结点中的所有子结点。 n a m e d n o d e m a p 接口也是一个结点的集合,通过该接口,可以建立结点名和结点 之间的一一映射关系,从而利用结点名可以直接访问特定的结点。 第2 章系统框架及相关技术介绍 1 d o c u m e n t 接口 d o c u m e n t 接口代表了整个x m l h t m l 文档,因此,它是整棵文档树的根,提 供了对文档中的数据进行访问和操作的入口。由于元素、文本结点、注释、处理 指令等都不能脱离文档的上下文关系而独立存在,所以在d o c u m e n t 接口提供了 创建其他结点对象的方法,通过该方法创建的结点对象都有一个叫 o w n e r d o c u m e n t 属性,用来表明当前结点是由谁所创建的以及结点同d o c u m e n t 之间的联系。 在d o c u m e n t 树中,d o c u m e n t 接口同其他接口之间的关系:d o c u m e n t 结点是 d o c u m e n t 树中的根结点,也即对) 【m l 文档进行操作的入口结点。通过d o c u m e n t 结点,可以访问到文档中的其他结点,如处理指令、注释、文档类型以及x i v i l 文档的根元素结点等等。另外,从上图我们还可以看出,在一棵d o c u m e n t 树中, d o c u m e n t 结点可以包含多个处理指令、多个注释作为其子结点,而d o c u m e n t ( 文 档) 类型结点和x m l 文档根元素结点都是唯一的。 2 n o d e 接口 n o d e 接口在整个d o c u m e n t 树中具有举足轻重的地位,d o m 接口中有很大一 部分接口是从n o d e 接口继承过来的,例如,e l e m e n t 、a t t r 、c d a t a s e c t i o n 等 接口,都是从n o d e 继承过来的。在d o m 树中,n o d e 接口代表了树中的一个结点。 n o d e 接口提供了访问d o m 树中元素内容与信息的途径,并给出了对d o m 树中的 元素进行遍历的支持。 3 n o d e l i s t 接口 n o d e l i s t 接口提供了对结点集合的抽象定义,它并不包含如何实现这个结点 集的定义。n o d e l i s t 用于表示有顺序关系的一组结点,比如某个结点的子结点 序列。另外,它还出现在一些方法的返回值中,例如g e t n o d e b y n a m e 。 在d o m 中,n o d e l i s t 的对象是“l i v e 的,换句话说,对文

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论