语义web中的本体学习OntologyLearningfortheSemanticWebP_第1页
语义web中的本体学习OntologyLearningfortheSemanticWebP_第2页
语义web中的本体学习OntologyLearningfortheSemanticWebP_第3页
语义web中的本体学习OntologyLearningfortheSemanticWebP_第4页
语义web中的本体学习OntologyLearningfortheSemanticWebP_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1语义web中的本体学习Ontology Learning for the Semantic Web报告人:李 曼2主要内容研究背景研究背景本体的学习本体的学习本体的评价本体的评价相关工作相关工作未来的研究方向未来的研究方向31.研究背景 BernersLee在2000的XML大会上正式提出了语义web。 语义web是对当前web的扩展。语义web上的信息具有定义良好的含义,使得计算机之间以及人类能够更好的彼此合作。 41.研究背景 语义web采用多层次的表示框架,本体位于从文档描述到知识推理转折的层次,具有重要的地位。本体的构建是实现语义web的关键环节。51.1 本体 Ontology是共

2、享概念模型的明确的形式化规范说明。 “概念模型概念模型”:指Ontology是通过抽象出客观世界中一些现象的相关概念而得到的模型。 “明确明确”:指Ontology所使用的概念及概念的约束都有明确的定义。 “形式化形式化”:指Ontology是计算机可读的(即能被计算机处理)。 “共享共享”:指Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集(即Ontology针对的是团体而非个体的共识)。 61.1 本体 Ontology的结构是一个五元组 O:= C, R, Hc,rel,AO C:概念; R:关系; Hc:概念层次,例如HC(C1,C2); rel:概念间的关系,

3、 例如,rel(R)(C1,C2); AO:用某种逻辑语言表示的一组本体公理。C1是C2的子概念C1和C2具有关系R71.2 本体的应用本体的应用语义web 81.2 本体的应用本体的应用问题问题 :XML在处理语义上存在两个问题在处理语义上存在两个问题 同义词; 一词多义 解决解决:引入本体:引入本体 本体通过对概念和概念间关系的严格定义来确定概念的精确含义,表示共同认可的、可共享的知识。 对于本体来说,Author,Creator是同一个概念,而Doctor在大学和医院分别表示的是两个概念。因此,在语义web中,本体是解决语义层次上web信息共享和交换的基础。91.2 本体的应用本体的应用

4、自然语言理解 全面的理解自然语言需要整合大量的知识源。以本体形式表示的领域知识是深入理解文本的基础。目前在基于本体的信息抽取方面已有一些研究成果。知识管理 知识管理主要是处理一个组织中知识的获取、维护和访问。其中,本体可以用于对无结构信息进行语义标注,从而使得信息的整合和访问更容易。101.2 本体的应用本体的应用电子商务 在电子商务中,交易的自动化要求对商品进行形式化描述,因此,需要一个标准化的词汇表本体。本体有助于对内容意义的精确、高效通信,同时促使系统的交互式操作、重用和共享等一系列的性能得以提高。111.2 本体的应用本体的应用 从上述应用可以看出,这些应用领域的一个共同需求是共享某个

5、领域内的知识。而提供共享概念模型的明确的形式化规范说明正是本体的主要目标。所以,这些领域的许多难题都能够通过使用本体来解决。 121.3 本体的构建本体的构建手工手工:费时费力,容易出错全自动全自动:适用性不强半自动半自动:可行,其核心技术是本体的学习利用知识发现技术从数据源中获取知识132. 本体学习 2.1 2.1 本体学习周期本体学习周期 2.2 2.2 本体学习框架本体学习框架 2.3 2.3 数据的导入和处理技术数据的导入和处理技术 2.4 2.4 本体学习算法本体学习算法142. 本体学习 2.1 2.1 本体学习周期本体学习周期 2.2 2.2 本体学习框架本体学习框架 2.3

6、2.3 数据的导入和处理技术数据的导入和处理技术 2.4 2.4 本体学习算法本体学习算法152.1 2.1 本体学习周期本体学习周期(导入(导入/ /重用、抽取、修剪和精练)重用、抽取、修剪和精练)162.1 2.1 本体学习周期本体学习周期 导入和重用阶段导入和重用阶段 该阶段可以作为整个本体学习过程的开始。主要步骤:选择有关的本体,并定义导入策略。例如,定义一个本体包装器(wrapper),支持从一种本体描述语言转换为另一种语言。合并导入的概念结构,作为其它阶段的基础。172.1 2.1 本体学习周期本体学习周期 抽取阶段抽取阶段 利用导入的本体,抽取出新的知识。在这个阶段,本体学习技术

7、部分依赖于给定的本体部分,所以,当本体被修订过一次后又会引起新的抽取结果,这是一个反复增长的模型。182.1 2.1 本体学习周期本体学习周期 修剪阶段修剪阶段 本体结构的修剪可以使本体适应给定的应用。 该阶段需要考虑两个方面:对本体中某个特殊部分的修剪将如何影响整个本体用户驱动保留或修剪本体元素的策略 应用驱动192.1 2.1 本体学习周期本体学习周期 精练阶段精练阶段 利用给定的领域本体,以更细的粒度完善本体 。 精练和抽取具有类似的功能。原则上,同样的算法既可以用于抽取也可以用于精练。抽取主要用于整个本体(或至少是本体中非常有意义的部分)的建模,而精练是对目标本体的精细的调整。 202

8、.1 2.1 本体学习周期本体学习周期 上述四个阶段都可以单独执行,且某些阶段可以被跳过。 例如,导入一个本体,然后根据指定的应用程序数据直接修剪该本体。 212. 本体学习 2.1 2.1 本体学习周期本体学习周期 2.2 2.2 本体学习框架本体学习框架 2.3 2.3 数据的导入和处理技术数据的导入和处理技术 2.4 2.4 本体学习算法本体学习算法222.2 2.2 本体学习框架本体学习框架(TEXT-TO-ONTO)232.2 2.2 本体学习框架本体学习框架输入数据源输入数据源本体,一种特殊的数据源。例如,词汇语义网络(WordNet,GermaNet),领域本体,词典(轻量级本体

9、)。SchemaDababase Schema,例如关系数据库模式Web Schema,例如DTD,XML-Schema242.2 2.2 本体学习框架本体学习框架输入数据源输入数据源实例,即数据库或知识库中的实例集合,它们是领域概念的外延描述。半结构化数据自然语言文本252.2 2.2 本体学习框架本体学习框架主要的组件主要的组件数据导入和处理组件数据导入和处理组件发现、导入、分析和转换有关的输入数据。产生一组预处理数据作为算法库组件的输入本体包装器本体合并器基于本体的文档爬虫器自然语言处理系统重要文档包装器将字典或一些半结构化文档转换为指定格式转换模块将自然语言处理后的文档转换为指定格式2

10、62.2 2.2 本体学习框架本体学习框架主要的组件主要的组件算法库组件算法库组件提供许多本体抽取和本体维护算法。可以采用综合多策略学习结果的方法,即标准化各种学习算法的结果,然后综合它们。本体构建和管理环境本体构建和管理环境构建本体(手工)。提供图形界面,支持导出本体到标准的本体描述语言,如RDF,OWL等。本体学习可以看作是本体构建环境的一个插件。272.2 2.2 本体学习框架本体学习框架主要的组件主要的组件图形用户界面和管理组件图形用户界面和管理组件本体工程师使用该组件与本体学习组件交互。支持本体工程师选择相关的数据支持本体工程师选择参数和本体学习算法提供全面的结果集视图 282.2

11、2.2 本体学习框架本体学习框架 总之,目标应用是衡量结果本体的尺度。因此,实际的应用数据可以作为本体学习的输入数据。292. 本体学习 2.1 2.1 本体学习周期本体学习周期 2.2 2.2 本体学习框架本体学习框架 2.3 2.3 数据的导入和处理技术数据的导入和处理技术 2.4 2.4 本体学习算法本体学习算法302.3 2.3 数据的导入和处理技术数据的导入和处理技术数据源数据源本体文档312.3 2.3 数据的导入和处理技术数据的导入和处理技术本体导入和处理的步骤本体导入和处理的步骤将已有的本体转换为本体学习框架可以处理的表示形式。若只有一个本体可供导入,则使用本体包装器本体包装器

12、将已有的本体描述语言转换为本体学习框架可以识别形式;若给出了一个以上的本体,需要使用本体合并算法本体合并算法(例如FCA-Merge)将给出的本体合并成一个共同的本体。 322.3 2.3 数据的导入和处理技术数据的导入和处理技术 本体包装器本体包装器 (例如:导入(例如:导入WordNetWordNet到到Text-to-OntoText-to-Onto中)中) WordNetWordNet中包含的本体原语中包含的本体原语SynSetSynSet:同义词集合同义词集合HypernymHypernym:上位词集上位词集HyponymHyponym:下位词集下位词集HolonymHolonym:

13、整体词集整体词集MeronymMeronym:部分词集合部分词集合AntonymAntonym:反义词集合反义词集合例如,如果例如,如果X X是一种是一种Y Y,则则Y Y是是X X的上位词的上位词, , X X是是Y Y的下位词的下位词例如,如果例如,如果X X是是Y Y的一部分,则的一部分,则Y Y是是X X的整体词,的整体词,X X是是Y Y的部分词的部分词332.3 2.3 数据的导入和处理技术数据的导入和处理技术从从WordNetWordNet到到Text-to-OntoText-to-Onto本体结构本体结构O O的映射的映射WordNetWordNetOntology OOnto

14、logy OSynSetC,LcHyperonym,HyponymHcMeronym,HolonymSAntonymS概念C的同义词集合存到L中,并映射到概念C上下位关系被直接映射到概念层次Hc整体词关系被映射到关系名“has-part”,部分词关系被映射到关系名“part-of”反义词被映射到关系名“opposite-of”342.3 2.3 数据的导入和处理技术数据的导入和处理技术本体合并算法(本体合并算法(FCA-MergeFCA-Merge)步骤步骤抽取概念的外延描述,计算两个形式上下文K1和K2。 合并这两个形式上下文,然后生成一个概念格。基于概念格生成最终的合并过的本体。 352.

15、3 2.3 数据的导入和处理技术数据的导入和处理技术第一步第二步第三步本体本体文档集本体362.3 2.3 数据的导入和处理技术数据的导入和处理技术 FCA-Merge(第一步):生成两个形式上下文。 形式上下文是一个三元组K:(G,M,I),其中,G是一组对象的集合;M是一组属性的集合;I是G和M间的二元关系,即I GM,(g,m)I读作对象g具有属性m。 372.3 2.3 数据的导入和处理技术数据的导入和处理技术382.3 2.3 数据的导入和处理技术数据的导入和处理技术 FCA-Merge(第二步):合并上一步生成的两个形式上下文,生成一个概念格。392.3 2.3 数据的导入和处理技

16、术数据的导入和处理技术合并过的形式上下文文档名本体1中的概念 本体2中的概念使用TITANTIC算法进行概念聚簇概念格402.3 2.3 数据的导入和处理技术数据的导入和处理技术 FCA-Merge(第三步):从概念格生成新本体412.3 2.3 数据的导入和处理技术数据的导入和处理技术本体1中的Hotel本体2中的Hotel本体2中的Accommodation合并合并合并生成新概念或关系422.3 2.3 数据的导入和处理技术数据的导入和处理技术 FCA-Merge算法小结算法小结 输入:两个本体和一个自然语言文档集 输出:一个合并过的本体。 对输入数据有如下要求:文档集应该和每个源本体都相

17、关。文档集应该包含源本体中的所有概念。文档集应该能够很好的分离概念。432.3 2.3 数据的导入和处理技术数据的导入和处理技术文档的收集、导入和处理文档的收集、导入和处理步骤步骤使用一个以本体为中心的文档爬虫来搜集网上的相关文档。使用自然语言处理技术来进行文档的处理。 使用一个文档包装器将半结构化文档(如领域字典)转换成本体学习框架可以识别的格式(如RDF格式)。将处理过的文档转换为本体学习算法可以识别的格式。 442.3 2.3 数据的导入和处理技术数据的导入和处理技术 总之,将数据转换为需要的格式是一个复杂的任务,该步骤处理的质量直接影响了下一步算法的生成结果。 452. 本体学习 2.

18、1 2.1 本体学习周期本体学习周期 2.2 2.2 本体学习框架本体学习框架 2.3 2.3 数据的导入和处理技术数据的导入和处理技术 2.4 2.4 本体学习算法本体学习算法46 2.4 2.4 本体学习算法本体学习算法本体抽取算法本体抽取算法 词条的抽取:(1)计算词频 (2)利用字典抽取词条 分类关系的抽取:(1)使用层次聚类技术(2)使用模式匹配技术(字典) 非分类关系的抽取:使用基于关联规则的挖掘算法47 2.4 2.4 本体学习算法本体学习算法本体维护算法本体维护算法 本体的修剪(发现和删除无关的概念)(1)基线修剪(2)相对修剪本体的精练(对本体的精细调整和增量扩展)主要思想是

19、先找出未知的词条,然后从本体中找出与其相似的概念并提交给用户,最后由用户决定该未知词条的意义。 483.本体的评价目前还没有评价标准。常用的评价方法常用的评价方法基于应用的评价,即通过使用本体的应用来评价本体本身。使用同一个标准对两个本体交叉比较,例如把利用各种学习方法自动生成的本体和手工生成的本体相比较。493.本体的评价比较两个本体的方法:比较两个本体的方法:精度(precision)和召回率(recall)词汇级的比较 概念级的比较 503.本体的评价精度precisionOL = 召回率recallOL = 其中,Ref是参照本体中元素的集合,Comp是比较本体中元素的集合。 |CompRefComp|RefRefComp学习生成的本体手工生成的本体513.本体的评价 词汇级的比较词汇级的比较 该方法基于编辑距离编辑距离(edit distance)串相似度: SM(Li,Lj):max(0, ) 0,1 |)| |,(|LjLimined(Li,Lj)Lj|)min(|Li|,|从一个串转换到另一个串所需要的最少操作步骤例如ed(“TopHo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论