




已阅读5页,还剩46页未读, 继续免费阅读
(计算机应用技术专业论文)web信息抽取技术研究与基于web+service的实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘 要 i 摘 要 随着 internet 技术的发展www 上积累了大量数据成为世界上最大的数 据源但 web 信息多以 html 格式发布缺乏语义信息造成大量的 web 数据 不能直接为应用程序直接使用 为了使大量的 web 数据能够为以数据为驱动的应 用所使用人们广泛采用了信息抽取技术现已成为当前研究热点之一 在以往的工作中我们实现了基于结构的信息抽取技术在 web 网页显示特 征的深入分析基础上以 xpathxquery 作为抽取规则给出了一套抽取规则的 生成优化方案试验结果表明这套方案所使用的方法具有较高的查准率查全 率但在该方法中对 web 网页结构的几个特殊情况只做了特定地分析缺乏理论 上地系统阐述对抽取能力的表达也不够充分 本文仔细研究了基于结构信息抽取方法的典型系统借鉴非 1nf 关系数据库 的关系模式的平面化/嵌套化操作引入了 dom 的平面化/嵌套化理论对 web 网页结构做了深入分析给出了三种基本类型的平面化/嵌套化情况1集合对 象平面化2元组对象平面化3dom 结构嵌套粒度过大分析了各种平 面化/嵌套化对抽取的影响之后引入了结构重组规则针对各种平面化情况采用 结构重组规则给出了相应的具体解决方案提高了系统的抽取能力结合 web 网 页结构的上下文环境对各种结构重组规则的具体解决方法的适应性进行了详细 的分析初步讨论了基于结构的信息抽取技术的抽取能力规则重构规则中区分 节点的方法不局限于基于结构的信息抽取技术还可以采用其他信息抽取技术的 方法提高了现有信息抽取技术的效率和健壮性同时为各种信息抽取技术的融 合提供了一种思路 web service 的出现为数据集成提供一种很好的解决方案 本文将 web service 技术与信息抽取技术相结合在原型系统中实现了基于 web service 的信息抽取 系统 关键词 信息抽取语义模式dom平面化/嵌套化web service abstract abstract as internet rapidly developing, world wide web has already become the biggest information resources. but the most of valuable web information is in html form, which marked by html and aim at representation and lack of schema and semantic information, in order to access the web information with structured and uniformed way, people apply information extraction technology to web. in the past work, we have implemented a protype system, it be proved be work well by experiment. but at present, no work has analysised the web structure in theoretic way.now, in this paper, we introduce unnest/nest theory to illustrate the web page structure.after studied some typical information extract systems based on structure, we find there are four kinks of nest/unnest: (1) unnest of set object;(2) unnest of record object;(3) too big granularity of dom node.under this theory,we provide deffrent restructure_rull for every kind of nest/unnest, and analysis the adaptability of the restructure_rull. by restructrue_rull, we can use other information extract technology in our system, by this way we find a method to integrate many information extract technology together. web service is the future of the internet and provides a good solution for information integrate. we integrate web service technology with the information extraction technology and develop a protype system based on web service. keywords: information extraction, semantic mode, dom, unnest/nest, web service 第 1 章 绪 论 - 1 - 第 1 章 绪 论 随着 internet 的飞速发展web 上已存储了大量数据但这些数据主要是以 html 文档的格式发布的是面向浏览的缺乏清晰的语义信息和统一的结构 不能直接做为应用程序的数据源使用为了增强 web 上海量数据的可用性人们 使用了信息抽取技术将 web 上用户感兴趣的数据从 html 文档中抽取出 来为其附加上清晰的语义并按照语义模式重新组织数据的结构使 web 数据 可以为数据驱动的应用直接使用信息抽取技术是当前的一个研究热点 在以往的工作中 我们就基于结构的 web 信息抽取技术给出了一种抽取解决 方案在这个解决方案中以 xpathxquery 为抽取规则描述方式并充分考虑 了 web 页面的特征对抽取的影响通过优化得到最好的抽取规则在原型系统中 实现了该解决方案 本文在原有工作的基础上仔细研究了基于结构信息抽取方法的典型系统借 鉴了非 1nf 关系数据库的关系的平面化/嵌套化操作引入 dom 的平面化/嵌套 化理论对 web 网页结构做了深入分析弥补了原有方案对 web 页面结构缺乏 理论上的系统阐述对抽取能力的表达不够充分的不足在 dom 平面化/嵌套化 理论的指导下本文给出了三种基本的 dom 平面化/嵌套化类型1集合对象 平面化2元组对象平面化3dom 结构嵌套粒度过大在分析了各种平 面化/嵌套化对抽取的影响之后引入了结构重组规则针对各种平面化情况采用 结构重组规则给出了相应的具体解决方案提高了系统的抽取能力结合 web 网 页结构的上下文环境对各种结构重组规则的具体解决方法的适应性进行了详细 的分析初步讨论了基于结构的信息抽取技术的抽取能力规则重构规则中使用 的定位节点的方法不局限于基于结构的信息抽取方法还可以采用其他信息抽取 技术的方法提高了现有信息抽取技术的效率和健壮性同时为各种信息抽取技 术的融合提供了一种思路 web service 是下一代 internet 的发展方向 通过 internet 实现了应用之间的语 言无关平台无关协议无关的互操作web service 以 xml 作为数据交换平台 使用wsdl描述数据及操作 通过soap访问internet上的数据和应用 通过uddi 实现 service 的查询和共享web servcie 为数据集成提供了一种新的途径在本 文我们实现了基于 web service 的信息抽取系统 河北大学工学硕士学位论文 - 2 - 1 . 1 研究背景 信息时代 internet 的迅猛发展短短数年内网络终端便遍布于世界的各个角 落每时每刻都有成千上万的组织机构公司个人在 web 上发布各自的信息 web 成了一个巨大的信息载体其中含有大量的各类数据分析工作所需的 信息 web 的开放性使得 web 数据不同于人们所熟悉的传统关系数据库中的结构 化数据 web 信息具有以下特点 web 信息量巨大尤其是随着电子商务的蓬勃发展web 成为了电子商 务的通用平台促使 web 信息量迅猛增长 web 信息是由无结构的或者半结构化的数据组成web 信息主要用于浏 览没有严格的数据类型逻辑结构也不规则 web 信息具有动态性web 信息源的数量信息源的组织结构信息源 的内容和信息源的含义经常发生变化这是由 web 自身的特点决定的 web 中有价值信息不易获取 目前主要采用人工浏览和基于关键字的搜索 两种方式获取所需的信息这两种方式效率较低 目前 web 信息大多以 htm 文档的形式发布1 html 文档本质上是文本文 档其内容是 html 标签以及由 html 标签标记了的文本而 html 标签也是 具有特殊格式的文本这些以 html 标记语言发布的 web 信息面向显示缺乏 模式信息和语义信息对 html 标记的理解和处理工作主要由浏览器来完成而 对通过浏览器看到的 web 信息的理解和处理工作则由用户完成 一般的应用程序 不能解析理解应用 web 信息 xml 作为一种新的网上数据交换的标准33正在引起人们极大的关注 xml 是标准的通用标记语言 sgmliso8879的一个子集用于支持 internet 上 有结构文档的交换和 html 相比xml 是面向内容的它具有更多的结构和 更多的语义良好的可扩展性简单而易于掌握自描述等特点已经成为数据 组织和交换的事实标准其标记对于人和机器都具有可读性增强了 web 信息处 理的自动化程度以 xml 为主体的 web 将成为新一代以数据为中心的分布计算 环境但是由于 html 具有简单易用和表现力强等特点目前在 web 上仍然占 据主流地位存在着大量 html 格式的文档而这些文档中包含着 web 上绝大 多数有价值的信息 第 1 章 绪 论 - 3 - 从广义数据库观点来看一组相关的有用的信息集合都可以被视为数据库 因此 web 上的每一个站点可以被看作是一个数据库而整个 web 则可以被看作 是一个由许多站点构成的巨大的复杂的分布式的数据库系统许多研究力图采 用数据库领域的技术和方法改善 web 数据的组织与管理便于人们有效准确地 访问 web 上的各种信息然而根据上述分析可知采用传统的数据库技术无法 实现上述功能为了解决这个问题人们采用的方法之一是信息抽取技术该技 术从 html 信息源中抽取出有价值的信息并为其附加语义将其转化为语义清 晰结构化的信息信息抽取技术是当前的一个研究热点 web service 是新一代 internet是可以在 internet 上描述发布查找和调用 的自包含的模块化应用 web service 技术的主要目标就是在现有的各种异种平台 的基础上构筑一个通用的平台无关语言无关的中间层各种不同平台之上的应 用依靠这个中间层来实施彼此的连接和集成,解决了 internet 上应用之间的互操作 问题为数据集成提供了新的思路web service 也是当前研究的热点 1 . 2 研究现状 信息抽取技术最早是由 g.wiederhold 提出的该技术的核心是能够从 web 页面所包含的无结构半结构的信息中识别用户感兴趣的数据并将其转化为更为 结构化语义更为清晰的格式传统方式下信息抽取是通过被称作包装器 的程序来实现的我们可以用以下语言来描述包装器的制作对于给定的包含一 组隐含对象的 web 页面 s确定一个映射 w它将 s 中的对象映射到一个更为结 构化语义更为清晰的 t如 xml关系数据库或者对象关系数据库中并且 映射 w 对与 s 语义和结构相似的页面 s1 必须具有同样的功能最终应用程序 将按 t应用 s由此包装器可定义为执行映射 w 的程序 随着需求的增加近来涌现出多种信息抽取工具17,18,19,22采用的技术也 各不相同涉及多个研究领域如数据库人工智能数据挖掘和信息检索等 根据抽取原理和抽取方式的不同我们将现有的信息抽取技术分为以下几类基 于 html 结构的信息抽取基于自然语言处理方式的信息抽取包装器归纳方式 的信息抽取基于 ontology 方式的信息抽取其中基于 html 结构的信息抽取技 术具有抽取效果好实现技术简单执行抽取的性能高等特点是目前主要使用的 抽取技术在以后的叙述中为了方便我们将其中结构化的数据称为对象 模式的定义方式主要有两种信息抽取之前给出对象模式的称为先模式反 河北大学工学硕士学位论文 - 4 - 之称为后模式 1 . 2 . 1 基于 h t m l 结构的信息抽取 该类信息抽取技术的特点是根据web页面的结构定位信息通过自动或半自动 的方式产生抽取规则将信息抽取转化为对语法树的操作实现信息抽取采用该 类技术典型的系统有 lixtoxwraproadrunnerw4f 和 sg-wram 等下 面对各系统的特点进行分析 xwrap2,3,4,5的抽取规则是系统在和用户的交互中自动生成的但抽取目标 的很多特征信息系统不能自动获取需要用户根据自己的知识和要求进行指定 xwrap 包装器的生成过程是通过反馈多次校正的过程 因此 xwrap 是需要用户进 行较多操作的半自动的包装器生成系统 xwrap 在进行信息抽取时分为区域抽取语义项抽取由用户在样本页中 指定抽取区域的起始位置系统确定整个抽取区域并确定区域的类型然后通 过可视化的方式由用户在样本页中指定语义项如表头及与之对应的实例 系统产生抽取规则实现信息抽取最后系统利用启发信息获得数据间的层次结构 关系生成 xml 文档 在 进 行 区 域 抽 取 时xwrap 区 分table_regionparagraph_region bullet_listv_regiontextv_section_region 等几类区域每一类区域对应一组特 定的抽取规则 以 table_region 的 tree_path 规则为例 规则描述形式的语法形如 tree_pathstring node_idstring node_path settablenode = node_id node_path = getnodepathnode_id 这条规则指定了 table_region 的路径通过该规则指定的路径就可以在 dom 中 定位该区域 在进行语义项抽取时 采用过程控制思想 以 table_region 的语义项抽取为例 规则描述形式的语法形如 st_extractstring st_namestring st_val integer row_i = 34 第 1 章 绪 论 - 5 - integer col_j = 012 extract st_valrow_icol_j= table2.trrow_i. tdcol_j.getstoken where table2.tr1.tdcol_j.getstoken= st_namecol_j 这是抽取二维表中信息的抽取规则使用二重循环完成对二维表的 34 行的 0 12 列 的 信 息 的 抽 取xwrap 的 语 义 项 抽 取 结 果 用 分 隔 符 界 定 文 件 comma-delimited file表示xwrap 采用的是过程控制的形式来描述抽取规则 这跟 xwrap 的引擎实现是有关系的xwrap 提供了实现信息抽取的 api一条抽 取规则就对应了一组 api对于简单的区域抽取提供了类似函数形式的规则 对于复杂的语义项抽取使用 xml 格式来描述抽取流程体现了过程控制的思 想 该系统可以表达复杂的语义模式结构采用用户在网页中指定语义项的方式 附加语义信息 即将网页的部分内容作为语义项 对于不同的区域类型 如 table list 等采用不同抽取规则提高系统的灵活性和效率但是该系统适应面比较窄 只适合对含有明显区域结构如 tablelist的网页进行信息抽取不支持对普 通网页的抽取模式的表达能力也非常有限在学习阶段用户参与太多 w4f6,7,8的抽取规则分为 2 类检索规则抽取规则w4f 使用自定义的 描述语言 helhtml extraction language来描述抽取规则 检索规则形如 getaltavistastring query get header 语义为根据指定的 url使用 http 协议从 internet 上检索网页 抽取规则形如 rule_name = .getattr | txt | scr | numberof.* where and condition* 河北大学工学硕士学位论文 - 6 - 语义为通过 hel 的路径在 dom 上定位节点从而得到该节点的属性或文本或 对应的源文档片断或子节点数 最后使用 nsl 操作符和 where 子句中的条件表达 式对这些进行约束过滤以得到符合条件的对象nsl(nested string list)是嵌 套字符串列表表示 w4f 抽取结果的数据结构w4f 提供了 nsl 操作符对其进 行操作nsl 的嵌套结构反应了抽取的数据的嵌套结构其中使用的数据类型是 字符串 这几种抽取工具中 w4f 的自动化程度最低w4f 的抽取规则是由用户完全 手工编写的用户需要懂得 html 描述的文档此外还需要掌握复杂的描述抽取 规则的 hel 语法这对用户来说难度很大因此 w4f 没有推广开来 lixto9,10,11,12,13,14,15,16,允许用户以可视化 交互式对样本页面中的信息 进行标记系统通过记录用户标记的信息采用系统默认或者用户定制 两种方式生成抽取规则实现对相似结构网页的信息抽取用户无需具备与系统 相关的专业知识就可以完成对数据源的包装 在该系统中语义信息是在样本学习阶段由用户加入的采用了先模式的方 式事先由用户在可视化的界面中定义模式且可以表达复杂的语义模式结构 抽取出的数据最终以 xml 格式存放 其中使用用户定义的语义项作为 xml 文档 中的元素类型名 lixto 使用 elog 来描述抽取规则elog 在语法语义上都类似于 datalog但 为信息抽取做了扩充elog描述的抽取规则形式如下 newpatternsx parentpattern_sextratomsxconds sx-se 规则的语义 在 parentpattern 原子项指定的范围 s 内抽取满足 extratom 原子 项中指定路径的目标 x conds 原子项进一步过滤符合 conds 所指定条件的对象 其中 parentpattern 部分可以使用 getdocumentsxs$1 以实现对文档的检 索也可以是其他已有的 patternextaatom 部分由抽取定义谓词组成conds 部 分由各种条件谓词组成lixto 采用先模式机制它采用了机器学习的方法可根 据用户的学习自动生成过滤规则在一定程度上简化了信息抽取的步骤增强了 信息抽取技术的实用性而且 lixto 已经商业化但学习过程需要用户为过滤器 指定合适的过滤条件这需要用户的参与此外 lixto 也引入了反馈机制包装 器的生成需要反复优化降低了其自动化程度 roadrunner20,21系统通过对两个或多个样本页面结构的比较获得一个利 第 1 章 绪 论 - 7 - 用正则表达式表示的该类页面的通用结构然后根据该结构实现对相似页面的信 息抽取 该系统实现了全自动的信息抽取凡是符合抽取规则中正则表达式描述的结 构的数据都抽取了出来 可能包含用户不感兴趣的信息为了提高抽取的准确率 roadrunner 引入了启发信息annotation即网页中给所描述内容添加的标签 例如大部分的电子商务网站在介绍他们所销售的商品时会给出该商品价格 这时网页上在所描述的商品附近便往往会出现价格或价钱等字样这在 一定程度上表达了所描述的内容的语义而且这种描述形式在同一点子商务网 站中是一致的因而可以用这个描述形式作为识别抽取结果的依据抽取出的数 据仍然没有语义信息如果要利用的话可以采用后模式的方式为其附加语义另 外该系统需要大量的样本训练 sg-wram23,24,25,26,27,28,29,30系统中用户首先根据样本页面定义语义 模式然后系统通过与用户交互获得文档的内容与语义模式之间的映射关系 然后根据映射关系自动推导生成抽取规则抽取出的数据最终以 xml 格式存放 该系统支持复杂的语义模式结构但是抽取规则中使用了严格的位置信息对网 页的结构依赖很强要想获得较好的准确率和召回率需要大量的样本学习而且 该系统适应面比较窄仅使用于结构比较规范的页面当网页结构和语义模式结 构不匹配时不易实现正确的抽取效率和健壮性有待提高 1 . 2 . 2 以往的工作 pqagent40,41,42是我们自主开发的基于结构的 web 信息抽取系统在 pqagent 信息抽取原型系统中采用了基于先模式的方式通过用户和系统的交互 实现半自动化信息抽取首先系统为用户提供了一个用于浏览 web 页面的浏览 器用户可以在该浏览器中浏览需要抽取的样本 web 页面用户根据对样本 web 页面的理解建立语义模式为所抽取的内容附加语义然后用户将样本 web 页面 内容和语义模式中的语义项进行标记建立两者之间的映射关系系统根据用户 对样本 web 页面和语义模式中语义项的标记结果依据 web 页面特征自动生成 抽取规则并对抽取规则进行优化最后调用抽取引擎执行抽取规则对样本同类 web 页面进行抽取该系统采用受限 dtd 作为语义模型以增强输出格式的灵活 性按照用户附加的语义重新组织 web 信息并将结果存储为 xml 格式以便于 以后的处理试验结果表明该系统有较好抽取率和覆盖率 河北大学工学硕士学位论文 - 8 - 该系统以 web 页面特征作为建立语义模式与 web 页面之间映射的依据即 抽取规则的生成依据该系统中用到的 web 页面特征包括结构特征包括路 径序号大边界属性特征语义特征依据不同的 web 页面特征生成抽取 规则具有不同的抽取率和覆盖率路径属性语义大边界序号在抽取能力 上依次增强在覆盖率上依次减弱web 页面可用特征的详细分析见40,43 生成抽取规则时先将 web 页面转换为 xml 文档进而解析成 dom抽 取规则就是依据上述 web 页面特征得到的语义模式和所对应 dom 之间的映射规 则 在这个系统中使用 xpath 和 xquery 作为抽取规则的描述方式40,42,43 xpath 和 xquey 是通过对xml 文档所对应的 dom 树的查询来实现对 xml文档内容的 查询 其中xpath 可以利用 xml 文档的属性和结构信息在 dom 中定位节点集合 xquery 是建立在 xpath 之上的 xml 查询语言可以通过 xquery 中的 flwr 表 达式实现复杂的查询输出语义模式中的语义项是具有一定的嵌套层次的多个 简单语义项的嵌套组合构成语义复杂的语义项xpath 的可以用来作为单个语义 项的抽取规则描述将单个语义项的 xpath 形式的抽取规则组装成 xquery 的 flwr 表达式得到复杂语义对象的抽取规则 该系统使用了相互联系的三层规则初始规则最优规则和基于 xquery 的 复杂对象抽取规则对每个语义项我们利用各种可用的网页特征为其生成一个初 始规则列表 因为不同的 web 页面特征组成的抽取规则具有不同的抽取率和覆盖 率所以需要对得到的初始规则进行优化以从初始规则列表中选出性能最优的 规则这里优化的原则是保持一定抽取能力的基础上选择覆盖率最好的抽取规 则作为最优抽取规则该系统在对各语义项的抽取规则进行优化时首先选用路 径和属性的组合生成的抽取规则作为了初始最优规则然后判断各语义项的抽取 规则之间的包含关系给抽取规则抽取能力弱覆盖面广的语义项选用抽取能力 更强的抽取规则以区分有包含关系的语义项最后将得到的各语义项的最优抽取 规则组装成 xquery 语句实现对复杂语义对象的抽取 已有的系统中根据语义模式结构和 web 页面的 dom 结构的匹配情况具 体分析了几种实例(1)语义项在 dom 中的对应节点是一棵完整的子树(2)集合 类型的语义项在 dom 中对应的节点是若干互为兄弟的子树组成的子树森林(3) 元组类型的语义项在 dom 中对应的节点是若干互为兄弟的子树组成的子树森 林后两种情况称之为语义项跨子树并针对语义项跨子树情况给出了语义项 抽取的解决方案合并规则将子树森林合并成一棵子树将后两种情况转化 第 1 章 绪 论 - 9 - 为第一种情况而对第一种情况利用 xpath 能很容易地得到语义项的抽取规则 在该系统中对语义模式结构和 web 页面的 dom 结构的匹配情况缺乏对 web 页面结构的系统的理论分析就 web 结构的抽取方法上建立在具体实例分析之 上就事论事缺少理论指导 综上所述各类信息抽取技术中语义的附加方式主要有自动附加和人工附加 两种基于自然语言理解方式的信息抽取最有望提高自动化程度实现自动附加 语义但要取得较好的效果不易roadrunner 根据页面中 html 标记间的关系 抽取出数据 并以嵌套的形式加以组织实现了全自动的信息抽取无需人工干预 但是抽取出的数据仍旧没有语义信息大量的系统采用半人工的方式附加语义 这种方法简单易用在我们自主开发的系统中前几届学生的研究取得了较好 的结果但语义模式和 dom 结构的匹配情况对 web 信息抽取结果有很大影响 以前的研究就事论事缺乏理论依据 1 . 2 . 3 w e b s e r v i c e web service33,37,38,39是下一代 internet 的发展方向 它是自包含 自描述 模块化的应用可以在网络(通常为 web)中被描述发布查找以及通过 web 来 调用 w3c 给出了web service所遵守的具体技术规范 这些规范使得 web service 能通过 internet 实现应用之间的语言无关平台无关协议无关的互操作web service 规范中主要包括 4 部分核心标准xml可扩展的标记语言extensible mark languagesoap简单对象访问协议simple object access protocol wsdlweb 服务描述语言web servie description languageuddi统一描 述发现集成universal description, discovery and integration 在 web service 的体系架构中包括三个角色服务提供者(service provider) 服务请求者(service requestor)服务注册器(service registry)角色间主要有三个 操作发布(publish)查找(find)绑定(bind)如图 1.1 所示webservice 中涉 及两个部分服务本身和对服务的描述典型的应用过程是服务提供者开发一 个通过网络可以被访问的服务然后将服务的描述注册到服务注册器或者发送给 服务请求者服务请求者通过查找动作在本地或服务注册器中检索服务描述找 到后通过绑定就可以使用该项服务目前比较流行的实现方法是使用.net 和 java 两种技术并且两种实现方法可以互相操作常用的开发平台有: 微软 河北大学工学硕士学位论文 - 10 - 的 .netibm 的 websphere 以及 borlandc 的 jbuilder 等如今我们已经可以看 到使用微软 ibm sun borland 等不同厂商的 web service 构建工具建立的 web service 应用 数据集成有基于数据源的集成和基于应用的集成两种 web service 的语言无 关平台无关协议无关性使 web service 成为一种较好的基于应用的异构数据 集成方式目前 web service 多用于数据中心的管理接口但在不久的将来 web service 必定成为 web 系统的核心 1 . 3 研究目标 如前所述当前基于结构的信息抽取技术很多但在各种抽取方法种抽取 规则的生成多依据于对 web 页面结构特例的直接观察和人的经验在我们自主开 发的基于结构的信息抽取系统 pqagent 中抽取依据中用到了结构特征属性特 征语义特征其中对结构特征的分析缺少理论指导只对语义模式结构和 dom 结构的匹配情况的几种具体实例进行了讨论而没有在理论上对两者结构的匹配 情况进行系统的分析 随着 internet 的发展不仅有越来越多的信息发布到 web 上而且有越来越 多的应用通过 web 调用因此还要求信息抽取技术能通过 web 和其他以数据为 驱动的计算和应用进行互操作 因此我们需要在以下几方面在我们自主开发的信息抽取系统基础之上作出 改进 图 1 . 1 w e b s e r v i c e 体系架构 service provider service requestor service register service description publish wsdl /uddi service descripiton find wsdl/uddi bind 第 1 章 绪 论 - 11 - 提高信息抽取技术的抽取规则的效率和健壮性引入平面化/嵌套化理论 对 web 页面结构的变化进行分析在此理论的指导下给出抽取规则生成的方法 依据该理论扩展了原有抽取规则的生成方法使我们可以得到效率更好更健壮 的抽取规则 信息抽取工具采用的用来表达所附加的语义信息的数据模型是灵活的 语 义模式中语义项的嵌套结构对抽取时规则的生成有重要以影响我们需要加深对 语义模式的认识从理论上分析语义模式结构对抽取的影响 为适应 internet 的发展将 web service 技术与信息抽取技术结合起来 web service 具有语言无关平台无关协议无关的互操作性是实现 web 信息 集成一个不错的选择信息抽取技术以 web service 的形式发布可以实现更方 便更直接的信息集成 为实现上述目标本文仍然使用受限的 dtd 作为语义模型40,43使输出数 据格式更为灵活借鉴了非 1nf 关系数据库中的关系的平面化/嵌套化造作31 引入 dom 的平面化/嵌套化理论 对 web 文档的逻辑结构进行了分析 并在 dom 平面化/嵌套化理论指导下给出了抽取规则的生成方法最后以微软的.net 未开 发平台将信息抽取合理地分成若干个独立的模块每一个模块做成一个 web service使得再 web 上的任何一个终端都可以调用抽取过程15,25,32 1 . 4 本章小节 本章首先对 web 信息的特点进行了分析 指出随着 internet 的飞速发展 web 已经发展成为一个全球的巨大的分布和共享的信息空间但是以 html 文 档形式发布的 web 信息缺乏模式信息和语义信息应用程序无法直接解析使用这 些数据造成资源极大的浪费而信息抽取技术通过包装现有 html 信息 源将网页中的信息以更为结构化语义清晰的方式发布出来有效地解决了这 个问题是当今多个领域的研究热点在本章中根据信息抽取的底层机理对信 息抽取技术进行了分类着重对其中基于结构的信息抽取技术进行了讨论并对 多个该类型的典型系统进行了分析和比较通过对我们以往工作的总结和分析 指出了现有研究的不足之处和需要解决的问题并提出了研究目标 web service 是 internet 将来的发展方向为了适应 internet 将来的发展我 们将信息抽取技术和 web service 技术结合起来提供了一种新的数据集成的解 决方案 河北大学工学硕士学位论文 - 12 - 第 2 章 基础知识 & 基本原理 2 . 1 基础知识 本文研究的是基于结构的信息抽取技术目前 web 信息主要以 html 文档 的形式发布html 文档的内容具有一定的嵌套结构但是并不严格处理过程 中常常会因此产生很多问题 html 是 xml 的一个特例 因而可以通过把 html 文档转换为 xml 文档解决 html 所面临的问题 围绕 xml (包括 xml)w3cworld wide web consortium提供了一系列的 规范信息抽取技术涉及到的有xmldomxpath 和 xquery这里将分别介 绍最基础的知识xml&dom 以及 xpath&xquery 各自的特点 2 . 1 . 1 x m l & d o m xml33 extensible markup language是可扩展标记语言的缩写是 sgml standard general markup language的一个子集或者说是 sgml 的一种受限 形式xml 使用标签标记文档内容标签必须成对出现标签名由用户定义元 素之间必须符合严格的嵌套结构从表面上看xml 文档与 html 文档比较相 似但是两者功能不同xml 的本质在于用标记名表达用户语义人和机器都 理解所标记内容 html 的标记是系统预先定义好的只能用于所标记内容的 显示是 xml 的特例或应用 dom34文档对象模型是一个对象化的 xml 数据接口一个与语言无 关与平台无关的 w3c 推荐的 xml 标准接口规范dom 接口提供了一种通过 分层对象模型来访问 xml 文档信息的方式 这些分层对象模型依据 xml 的文档 结构元素间有序的嵌套结构形成了一棵对象节点树该树为 xml 文档数据 结构的描述树中最主要的节点类型为元素属性和文本有了 dom 做接口 对 xml 文档的查询和操作都不是直接在 xml 文档上进行的而是对由 xml 文 档解析成的 dom 树进行操作操作结果再通过 dom 树反映到 xml 文档中 2 . 1 . 2 x p a t h & x q u e r y xpath35是一种对 xml 文档中不同类型的数据定位的简单查询语言是 w3c 的推荐标准xpath 提供一套定位 xml 文档中相关节点的语法 第 2 章 基础知识 & 基本原理 - 13 - xpath 是基于 dom 的 有关内容上文已有介绍通过在这个这个模型的树 形结构中进行导航来定位节点一个 xpath 查询由一系列的以/或/连接 的 location step 构成每个 location step 使得 xpath 的导航过程上下文节点 context node前进一步location step 是 xpath 的基本结构提供在 dom 中 导航的依据location step 包括三部分轴节点测试和谓词 轴表明了 xpath 导航的的方向和范围包括childdescendantattributeself descendant-or-selfparent节点测试包括名称测试 node test和种类测试kind test名称测试是指定方向和范围内的节点在名称上的约束类似的种类测试是 对节点的类型判断可能是下列当中的一种processinginstructioncomment textnode谓词是用方括号括起来的谓词表达式该表达式对轴节点测试所 定位的节点集合中的每一节点求值满足条件的节点就是路径表达式在该位置步 要返回的节点当前位置步返回的节点是下一个位置步求值的起点如此衔接一 个 xpath 表达式就可以在 dom 树中定位节点了 xquery37是针对 xml 的高级查询语言建立在 xpath 基础之上除了查询 外还具有查询结果的重构的能力xquery 提供了 13 种基本表达式xquery 语言 就是由这些基本表达式组合嵌套而成下面我们将着重介绍 xquery 所支持的几 类重要的表达式 路径表达式path expression 路径表达式主要用来定位 xml 节点的xquery 中的路径表达式基于 xpath 规范并做了部分扩展内容详见 xpath 的介绍 flwr 表达式flwer expression 相当于 sql 中的 select-form-where 表达式flwr 表达式是 xquery 中最重要的表达式由四个子句组成forletwherereturnfor let 子句相当于 sql 中的 from确定了查询的源 两个子句都将一些变量绑定 到了路径表达式返回结果序列上其中 for 子句将变量绑定到一个序列 sequence中的每一个节点上多个 for 子句同时使用返回结果是各 for 语 句绑定序列的笛卡儿积 而 let 子句将变量绑定到序列时 将序列看作一个整体 处理时候只能将序列作为一个整体来处理 而不能对序列分量单独处理 where 子句相当于 sql 中的 where 子句给出了查询的条件这个查询条件对每个绑 定求值对于 for 子句嵌套的情况则对几个 for 子句绑定序列的笛卡儿积中每 个分量求值return 子句则相当于 sql 中的 select 语句指定了返回结果 河北大学工学硕士学位论文 - 14 - 的模式 通过xquery 的构造算子将返回结果构造为xml格式 类似于sql flwr 语句也可以嵌套也有子查询的概念 xquery 查询功能很强可以通过将定位查询简单对象简单对象是节点间关 系简单的节点序列具有简单的语义的路径表达式符合 xpath 规范组织为 flwr 表达式实现对语义复杂的对象查询并返回根据用户要求重构的结果显 然 xquery 具有文档查询数据处理和结果重构的功能非常适合于异构数据源 的集成 2 . 2 基于结构的信息抽取的原理概述 web 信息抽取就是从 web 页面目前主要是 html 文档中将用户感兴趣 的内容提取出来并附加语义的过程本系统采用人工附加语义的先模式方式附加 语义信息先模式就是在抽取之前为抽取内容附加语义然后根据用户对少量样 本网页的学习结果由系统自动获得语义模式和 web 网页之间的映射规则即抽 取规则 2 . 2 . 1 用户语义模式 所谓语义这里指的是用户对所抽取内容的抽象是概念层次的语义如发布 手机信息的网页 通过浏览我们可以知道网页中的内容包括手机型号规格 功能等项其中功能一项中又包括彩屏和弦等子项这些信息 都是用户对页面内容的理解这里我们使用受限 dtd 做为语义的描述形式 40,43即语义模式dtd 是用来定义 xml 模式的可以为 xml 元素赋予有 语义的标签名可以指定 xml 元素之间的嵌套关系用户可以利用 dtd 的这两 个功能描述用户浏览的 web 页面内容的语义为语义项指定表示语义项语义的 名字定义语义项之间的嵌套结构这样得到的语义模式可以直观地表示为树形 结构 语义模式树中的节点的名字用来表示我们抽象出来的抽取内容的用户语义 每个节点对应一个语义项我们把模式树中的叶节点称为原子节点atom node 对于非叶节点根据节点与其孩子之间的语义关系分为集合节点set node和元 组节点tuple node如果当前节点的孩子节点的数目是不确定的则称当前节 点为集合节点其孩子节点称为集合成员节点如果当前节点的孩子节点的数目 是确定的则称当前节点为元组节点其孩子节点称为元组成员节点对语义模 式的这些规定在保持足够的表达能力基础之上使得语义模式的建立和处理更 第 2 章 基础知识 & 基本原理 - 15 - 简捷采用上述语义模型易于向各种数据格式转换即输出可为 xml关系和 面向对象等多种数据格式使之具有良好的通用性 我们采用的是先模式的方式获得抽取规则之前用户需要根据自己对网页内 容的理解建立语义模式首先抽象出网页内容中的语义项从中区分出原子对象 对应语义模式中的原子节点集合对象对应语义模式中的集合节点元组 对象 对应语义模式中的元组节点并按照语义项之间的嵌套关系将各语义项组 织成嵌套结构树型结构在建立语义模式时候要注意选择粒度合适的语义项 语义项粒度太大语义项太少则抽取的信息缺乏足够的语义粒度太小语义 项太多则会增加抽取的难度用户根据对网页内容的理解建立语义模式不需 要知道 html 文档结构但这方面的知识对建立合适的语义模式是有帮助的 2 . 2 . 2 h t m l 文档的表示模型 目前 web 信息主要以 html 文档的格式发布1在 html 文档中内容被标 记在系统预定义的标签对中这些特定的标签标记文档内容时要满足系统预定义 的嵌套规则符合嵌套规则的 html 文档在逻辑上是一个树形结构html 文档 内容的显示布局情况由标记内容的标签以及标签的嵌套结构来决定html 文档 的嵌套结构不够严谨 某些指定特定显示效果的标签只有起始部分 如 , 等为了便于处理可以将 html 文档转化为 xml 文档可以认为 html 是 xml的一个特例 xml的嵌套结构是非常严谨的 目前w3c给出了一个从html 文档到 xml 文档转化的规范tidy44经过 tidy 的转化得到的新的嵌套结 构严谨的 xml 文档中保留了 html 文档中的所有显示信息和结构信息这样我 们就可以用 dom 作为 html 文档的表示模型dom 将 html 文档模型化为一 个对象树html 网页的逻辑结构和所有的用于显示的信息都包含在 dom 中 通过 dom 我们可以以对象的方式高效地访问 html 网页中的各种信息 2 . 2 . 3 基于结构的信息抽取技术的思想 因为内容的显示情况反映了信息发布者对所发布信息的理解包含了一定的 语义 因此 html 文档中标签的使用情况和嵌套结构的使用情况在一定程度上反 映了内容语义信息 因此我们可以用 html 文档的中的显示信息和逻辑结构信息 作为语义到 web 内容之间映射规则的生成依据即依据 html 文档的中的显示 信息和逻辑结构信息生成抽取规则 河北大学工学硕士学位论文 - 16 - 信息抽取技术目的是要在用户语义和 html 网页之间建立映射在我们引入 了语义模式树和 html 文档的表示模型后实际操作中是在语义模式树和 dom 之间进行的 我们以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高项质量管理讲解
- 湖南体育职业学院《资本论选读》2023-2024学年第二学期期末试卷
- 2025至2031年中国摩托车灯头行业投资前景及策略咨询研究报告
- 2025至2031年中国大扁头自攻自钻钉行业投资前景及策略咨询研究报告
- 《员工培训与成长专题》课件
- 沟通有方法教育有温度-如何做好家校沟通经验分享发言稿
- 2025至2030年中国纬纱传感器数据监测研究报告
- 2025至2030年中国硬质合金可转位铣削刀具数据监测研究报告
- 2025至2030年中国电力调度自动化系统数据监测研究报告
- 2025标准版私人购房合同样式
- 蛋鸡155标准化立体养殖模式
- 血氨正常值和临床意义
- 浙江省湖州市德清县2025年中考语文模拟考试试卷(附答案)
- 2025年无锡南洋职业技术学院单招职业技能测试题库带答案
- T-SSFSIDC 021-2024 认股权综合服务工作准则
- 2024年广东省中考数学试卷(附答案)
- 人教版六年级下册科学全册教案
- 2024福建中闽能源股份有限公司招聘12人笔试参考题库附带答案详解
- 2025年江西省旅游集团股份有限公司招聘笔试参考题库含答案解析
- 湖南省2025届新高考教学教研联盟(长郡二十校)高三第二次预热演练数学试题
- 咨询公司费用报销制度及流程标准
评论
0/150
提交评论