中文信息抽取PPT精品文档_第1页
中文信息抽取PPT精品文档_第2页
中文信息抽取PPT精品文档_第3页
中文信息抽取PPT精品文档_第4页
中文信息抽取PPT精品文档_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第11章 Web信息抽取 11.1 概 述 Web信息抽取就是将 Web页面作为信息抽取的信息源, 它的主要功能是从Web 页面中抽取出特定的事实信息 。 比如, 从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标和使用的武器等;从经济新闻中抽取出公司发布新产品的情况:公司名称、产品名称、发布时间和产品性能等,从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等或者直接抽取文章中某句话或某段话的信息 。 通常, 被抽取出来的信息以结构化的形式描 述, 可以直接存入数据库中 , 供用户査询以及进一步分析利用。1 11. 2 语义 Web 语义 Web并不是要取代现有的

2、 Web,而是扩展。扩展的方式是对现有信息进行形式化的描述,目的是使机器可理解,使计算机能够更好地提供信息服务。简单地说 , 语义Web就是要给Web加上注释,为了让计算机能够理解,这种注释必须用一种形式化的语言进行描述,并且支持推理。为了多个系统之间能够进行交流,这种注释还应该遵循统一明确的词汇表。在 Tim的构想中,语义 Web表现为图11. 1的层次结构。2 3 自底向上来看, 第一层规定了文档中字符的编码方式和资源的统一标识。 第二层, XMI和XML Schema,使用自定义的标签对文档的结构进行标注, 规范文档的语法格式, 就可以方便地利用计算机处理文档,第三层,明确文档中标引对象

3、之间的关系,即资源描述层 RDF+RDF schema。 RDF定义了元素之间的关系,表现为三元组的集合(类似于句子的主语、谓语、宾语), XML加上 RDF(S)就相当于建立了人工智能中的语义网络可以进行一定的推理。4 使用XML十RDFS(S),人们可建立各自的语义网, 只要有一组自成体系的术语就可以了, 第四层, 明确标引项的精确含义, 要让计算机相互理解对方的内容, 需要有一组共同的标准的概念体系,这就是 Ontology。 XML+RDF(S)+Onto1ogy构成了计算机相互理解的基础。这样每增加一个层次,计算机在知识处理上就多一份能力。在Onto1ogy之上进一步要做一些逻辑推理

4、的工作, 接下来就是保证信息是可信赖的, 这成了一个多层次的语义网。5 语义 Web的实现还需 一个长期的过程 。从目前的情况来看, 语义网下面三层的研究已经开展较长时 间, 研究成果相对较多, 并推出了一系列的标准, 可以说打下了比较坚实的基础 。 Onto1ogy层和逻辑层,正在引起更多的关注。作为语义 Web中从语法处理向语义处理的转折, 这两层起着至关重要的作用, 相关研究正处在探索之中, 有很多有意义的尝试和应用,却还没有成熟的技术和标准,因此成为相关领域研究热点6 11.2.2 本体描述语言7 11.3 格式转换 将 HTML格式转換为 XML格式,使用 JTIDY工具完成转換工作

5、。 HTML和 XML都是从 SGML派生出来的标记-i再言, HTML的设计目标是显示数据并集中于数据外观,而作为数据交换标准的 XML有很多优点: 自述性强,重在描述数据本身、数据和显示分离,文件以纯文本的形式输出,与形式无关。显然,它的出现对解决上述的问题带来新的活力 。 XMl 是一种极灵活的、 传递数据的方式, 为了能获取抽取信息的 XML文件,借助 JTIDY工具将 HTMI.文件转换为 XML格式是本方法的关键。 JTIDY 读取输入 HTML格式文件, 然后如果发现有任何不匹配或遗漏的闭合标记地,纠正不完整标记, 最后输出一个格式良好的 XML文档。8 11.4 信息解析 处理

6、XML文档有多种解析方式,如 SAX、 DOM、 JAXP JDOM等, JDOM许多优点: JDOM是一个开放源代码的纯 Java 数式应用程序接口, 用来分析;建立和序列化 XML文档; 它是包含了 Java语言的语法及语义,提供了一个简单、轻量的XML文档操作方法; JDOM使用标准的 Java编码模式; JDOM将XML文档表示为树,包括了元素、属性、说明、处里指令、文本节点和 CDATA段等,整个树结构可以在内存中随时生成,利用可以访问树结构中的任何部分; JDOM可以通过标准的构造器和 set方法支持XML文档的修改。9 10 11. 5 基于DOM子树的抽取规则抽取算法 11.5

7、.1 DOM 文档对象模型(documentobiectmode, DOM)是一组抽象接口,用于模型化 XML数据,定义了 XML文档的逻辑结构, 给出了一种访问和处理 XML文档的方法,它与语言和平台无关, DOM树结构清晰简单,意义表述明确,成为描述和操作标准 HTML文档最流行的方式之一,它将 HTML语言里面的标记作为DOM树的节点, 是 HTML文档的层次化表示.11 图11. 3与图11.4分别是某图书网站的 HTML源代码以及对应的网页(部分)在浏览器中显示的结果。对于人来说,从图11.6中可以轻松得到以下信息: 这本书的书名是JAVA编程思想:第3版,作者是Bruce Ecke

8、l,市场价是95 元等,12 13 14 图11. 3显示的 HTMI代码没有给出明确的语义信息, 因此计算机不能轻松地分析得到正确的语义, 但可以借助DOM树来描述 HTML中层次关系,如图11. 5所示 (经过预处理的部分 DOM树) ,辅助应用程序进行分析15 11.5.2 XPath w3c把用于对 XML文档子集寻址的标准语言称为 XPath(XMl. path guage, XML路径语言), XPath使用基子路径的方法遍历文档的信息集,可以将XPath理解成为 XML的 SQL语句, 它基于 XMI文档的逻辑结构,用 XPath 可以检索 XML文档的元素和属性 在 Java程

9、序中使用XPath与在 Java程序中使用 SQL差不多,因此可以把XPath看成与 SQL相似的査询语言,不同的只是 XPath并不是从数据库中抽取信息,而是从 XML文档中抽取信息。 - Location Step是XPath的基本结构,提供了从 XML文档中选择节点的方法,包括三个部分:轴(axis)、节点测试(nodetest)和谓词(predicate)。轴与节点测试用( : )分开,每个谓词放在方括号中,即 axisname:nodetest predicate16 1.轴 轴定义了要定位的节点相对于上下文的方向和范围。 例如: (1) self:节点本身。 (2) Child:上

10、下文节点的所有子节点。 (3) Parent:父节点。 (4) Attribute:上下文节点的属性。17 2.节点测试 允许从指定的轴中选择特定的元素或者其他节点类型, 来进一步缩小节位范围。例如, (1) Name:具有指定名称的任何元素或属性。 (2) *:沿着属性軸,星号匹配所有属性节点。 (3) Test(),任何文本节点。 (4) Node():任何节点。18 3.谓词 谓词是方括号中的 XPath表达式, 对所选择的每个节点求值19 11.5.3 XSLT 根据 W3C的规范说明书,最早设计可扩展样式表转換语言的用意是帮助其他文档。但是随着技术的发展, XSLT已不仅仅用于将 X

11、ML转换为 HTML或其他文本格式,因此更全面的定义应该是: XSLT是一种用来转換 XML文档结构的语言, 它可以将一种基于 XML的表示映射到另一种基于 XMI 的表示。20 XSLT共使用三个文消:源文档、 XSLT样式表和结果文档。源文档只是一个符合格式的 XML文档.提供转换的输人;样式表文措是一个使用 XsLT词汇 表达转換规则的 XML文档;结果文档是通过 XSLT样式表对源文档进行转换所产生的文本文档 。21 XSLT样式表也是一个 XML文档,包含一个或多个XSLT模板,模板是字面结果元素(1itera1 result element)和 XSLT指令的集合。字面结果元素是要

12、逐字复制到结果文消中的元素, XSLT指令是用于更改模板处理的已知元素,在指令中经常结合使用XPath表达式,从抽取的角度来看, xslt文档就是抽取规则。由于 XSLT是一个广泛使用的标准,语言强大而且有很多工具支持它,因此采用 XSLT作为抽取规则,使系统具有更好的扩展性,22 11.5.4 NE-DOM分析 NE-DOM(named entlty-document object mode)的主要思想是:利用领域知识,结合命名实体识别和DOM分析的方法针对每一个信息源生成基于DOM的抽取规则, 然后使用这些抽取规则来抽取对应数据源中的特定信息 。 现是以图书领域作为原型, 所以我们给出根据

13、领域本体产生的图书领域的Web-DKF,如图11.6所示。其中 Path、 Type和 PrefixList分别表述实体在23 web页面中的结构特征(指目标信息在DOM树层次结构中的路径信息)、简单特征 (命名实体名或目标信息)和关系特征 (目标信息与其前后信息的关联)其中Path默认值为空, Type默认值为实体名 , 而 PrefixList表示实体可能出现的前导词, 默认值为领域本体中同一实体不同的别名 。 使用前导词的目的是获取不能通过命名实体识别进行标注, 但用户却感兴趣的数据, 如图书的书名信息。而 Required表示该类型的实体必须出现。24 25 26 经过命名实体识别和标

14、注以后,可以在分析 NE-DOM的基础上,针对每 一个已经识别并标注过的命名实体构造特征值, 其中可以使用路径表达式代表 结构特征, 使用命名实体名称代表简单特征, 使用前导词代表关系特征 。所以,针对所有的SOI(snippet of interest)用户感兴趣的信息片段可以使用表述: Feature(序号) = (结构特征, 简单特征, 关系特征, 命名实体内容)则Author(BrueeEeke1)和Price(95元)的特征值表示如下: Feature(1)=(table. tr2. td2. Author,”Author“ ,”作者“ , ”BrueeEekel” Feature(

15、2)=(table,tr3. td2. price,”price,”价格,95元”)27 在构造 NE-DOM之前必须对源 Web文档预处理为 XHTML格式,然后进行命名实体标注。由于命名实体识别的研究正在发展,现在只集中在少数几种信 息上, 比如对于书名一类的信息就很难进行命名实体标注, 所以也无法获得书名的特征值。这时必须确定已经识别出来的 SOI所在的信息块, 然后结合领域知识从用户感兴趣区域中去抽取这类未经标注的信息, 因此需要分析所有soI的特征值,通过用户感兴趣区域确定算法,获得 BOI的位置,然后结合领域知识,针对每个BOI中所有领域数据生成抽取规则。整个分析过程如图11.7所

16、示,28 29 11. 5. 5 基子 DOM子树的抽取规则抽取算法 Web页面中的所有领域 BOI信息模板填充以后, 就可以结合 Web-DKF和NE-DOM树,对页面中所有领域相关的 SOI生成抽取规则。但是经过基于竞争分类方法获得的 BOI信息模板可能存在信息缺失的情况, 也就是所有不能进行命名实体识别的 SOI的特征值都不包含在信息模板中。另外,信息模板中 所有路径的表达式都可能包含领域相关的节点, 这些节点在生成抽取规则的时候必须除去;还有就是存在噪声信息模板的情况,所以在生成抽取规则之前必须首先解决三个问题:30 ( 1 ) 解决不能识别命名实体而造成的信息缺失的情况 。 (2)解

17、决BOI信息模板 Path糟中的路径表达式含有领域节点的问题。 (3) 解决辨别噪声模板的情况。31 为解决上述同题,首先利用 BOI信息模板中的 Path属性,获得当前 BOI所在的位置然后构造子树, 在子树中利用关系特征 (即前导词), 来获得缺失的SOI,填充模板中值为空的slot。例如,针对图书信息的书名,这里就可以利用其前导词来获得, 然后填充到模板中。 使用前导词时, 考虑到前导词与目标信息之问有时存在一些较短的噪声信息, 会妨得前导同的抽取, 对前导词可以设置长度限制来消除这些噪声的影响。另外,针对所有 BOI中的每一个槽,删除其路径表达式中包含的领域相关节点。最后,判断所有 BOI中属性 Required为 True 的槽,如果该槽的值为空,丢弃这些已确定的BOI。图11.8给出了抽取规则的抽取算法 。32 33 下面以一个具体的例子来分别说明抽取规则和抽取结果的表示, 图11.8是缩略图,只显示了一个信息块,而实际上的页面含有更多的相似信息块,现在要抽取的是该信息块中的图书书名 TITLE、作者 AUTHOR、出_版PUBLISHER和价格PRICE ,并以这样的顺序显示在结果文档中,则表示抽取规则的XSLT文件如图11. 9所示。 34 35 为了方便说明,图11. 9给出了代码的行号。第4行表示建立根元素寻找引用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论