版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、本体概念、描述语言和方法论方面的综述。一、本体的概念Ontology的概念最初起源于哲学领域,可以追溯到公元前古希腊哲学家亚里士多德(384-322b.c.)。它在哲学中的定义为“对世界上客观存在物的系统地描述,即存在论”是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质1。在人工智能界,最早给出Ontology定义的是Neches等人,他们将Ontology定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”1。Neches认为:“本体定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则。”(
2、“Anontologydefinesthebasictermsandrelationscomprisingthevocabularyofatopicarea,aswellastherulesforcombiningtermsandrelationstodefineextensionstothevocabulary.”)6。后来在信息系统、知识系统等领域,越来越多的人研究Ontology,并给出了许多不同的定义。其中最著名并被引用得最为广泛的定义是由Gruber提出的,“本体是概念化的明确的规范说明”,原文参见:Anontologyisanexplicitspecificationofaconc
3、eptualization.Thetermisborrowedfromphilosophy,whereanOntologyisasystematicaccountofExistence.ForAIsystems,whatexistsisthatwhichcanberepresented.Whentheknowledgeofadomainisrepresentedinadeclarativeformalism,thesetofobjectsthatcanberepresentediscalledtheuniverseofdiscourse.Thissetofobjects,andthedescr
4、ibablerelationshipsamongthem,arereflectedintherepresentationalvocabularywithwhichaknowledge-basedprogramrepresentsknowledge.Thus,inthecontextofAI,wecandescribetheontologyofaprogrambydefiningasetofrepresentationalterms.Insuchanontology,definitionsassociatethenamesofentitiesintheuniverseofdiscourse(e.
5、g.,classes,relations,functions,orotherobjects)withhuman-readabletextdescribingwhatthenamesmean,andformalaxiomsthatconstraintheinterpretationandwell-formeduseoftheseterms.Formally,anontologyisthestatementofalogicaltheory.2,3。和这个定义类似的有N.GuarinoandP.Giaretta(1995)“本体是概念化的明确的部分的说明/一种逻辑语言的模型”“anontologyi
6、sanexplicit,partialaccountofaconceptualization/theintendedmodelsofalogicallanguage.”)。W.N.Bors对该定义也进行了引申“本体是共享的概念模型的形式化的规范说明”(“Anontologyisaformalspecificationofasharedconceptualization”)11Fensel对这个定义进行分析后认为Ontology的概念包括四个主要方面4:概念化(conceptualization):客观世界的现象的抽象模型;明确(explicit):概念及它们之间联系都被精确定义;形式化(for
7、mal):精确的数学描述;共享(share):本体中反映的知识是其使用者共同认可的。原文:“anabstractmodelofaphenomenontermedconceptualization,aprecisemathematicaldescriptionhintsthewordformal,theprecisionofconceptsandtheirrelationshipsclearlydefinedareexpressedbythetermexplicitandtheexistenceofanagreementbetweenontologyusersishintedbytheterms
8、hared.”Swartout将本体定义为:“本体是一个为描述某个领域而按继承关系组织起来作为一个知识库的骨架的一系列术语”。(“Anontologyisahierarchicallystructuredsetoftermsfordescribingadomainthatcanbeusedasaskeletalfoundationforaknowledgebase.”)5。他的定义强调了本体中术语(terms)的重要性。Fensel定义“本体是对一个特定领域中重要概念的共享的形式化的描述”(“Anontologyisacommon,sharedandformaldescriptionofimp
9、ortantconceptsinanspecificdomain.”)7。NoyF.N.认为“本体是对某个领域中的概念的形式化的明确的表示,每个概念的特性描述了概念的各个方面及其约束的特征和属性。”(“Anontologyisaformalexplicitrepresentationofconceptsinadomain,propertiesofeachconceptdescribescharacteristicsandattributesoftheconceptknownasslotsandconstrainsontheseslots.”)8。Fonseca定义“本体是以某一观点用详细明确的
10、词汇表描述实体、概念、特性和相关功能的理论”。“Anontologyisatheorywhichusesaspecificvocabularytodescribeentities,classes,propertiesandrelatedfunctionwithcertainpointofview.”)9。Starla认为“本体必需包括所使用术语的规范说明、决定这些术语含义的协议、以及术语之间的联系,来表达概念”。“Anontologynecessarilyincludesaspecificationofthetermsused(terminology)andagreementsthatallo
11、wtodeterminetheirmeaning,alongwiththepossibleinter-relationshipsbetweentheseterms,standingforconcepts.”)10。M.UscholdandM.Gruninger认为“(“Ontologyisanexplicitaccountorrepresentationof(somepartof)aconceptualisation.”)12。他还推荐了一个来自SRKB(SharedRe-usableKnowledgeBases)电子邮件列表的定义“本体是关于共享的概念模型的协议。共享的概念模型包括进行领域知
12、识建模的概念框架、互操作的agent之间进行交流的内容明确协议、以及表达特定领域理论的协定。在知识共享的上下文环境中,本体特指表达性词汇表的定义的形式。一个非常简单的例子就是分类的层次结构,指明了类和它们之间的包含关系。关系数据库模式的作用也和本体一样,它指定了某些共享数据库之间可以存在的关系以及必须保持的完整性约束”(“Ontologiesareagreementsaboutsharedconceptualization.Sharedconceptualizationsincludeconceptualframeworksformodelingdomainknowledge;content-
13、specificprotocolsforcommunicationamonginter-operatingagents;andagreementsabouttherepresentationofparticulardomaintheories.Intheknowledgesharingcontext,ontologiesarespecifiedintheformofdefinitionsofrepresentationalvocabulary.Averysimplecasewouldbeatypehierarchy,specifyingclassesandtheirsubsumptionrel
14、ationships.Relationaldatabaseshemataalsoserveasontologiesbyspecifyingtherelationsthatcanexistinsomeshareddatabaseandtheintegrityconstraintsthatmustholdforthem.”)。以下是个人的看法:尽管定义有很多不同的方式,但是从内涵上来看,不同研究者对于本体的认识是统一的,都把本体当作是领域(可以是特定领域的,也可以是更广的范围)内部不同主体(人、机器、软件系统等)之间进行交流(对话、互操作、共享等)的一种语义基础,即由本体提供一种明确定义的共识。进
15、一步,本体提供的这种共识更主要的是为机器服务,机器并不能像人类一样理解自然语言中表达的语义,目前的计算机也只能把文本看成字符串进行处理。因此,在计算机领域讨论本体,就要讨论本体究竟是如何表达共识的?也就是概念的形式化问题。这就涉及到本体的描述语言、本体的建设方法等具体研究内容。二、本体的描述语言本体语言使得用户为领域模型编写清晰的、形式化的概念描述,因此它应该满足以下要求18:良好定义的语法(awell-definedsyntax)良好定义的语义(awell-definedsemantics)有效的推理支持(efficientreasoningsupport)充分的表达能力(sufficien
16、texpressivepower)表达的方便性(convenienceofexpression)大量的研究工作者活跃在该领域,因此诞生了许多种本体描述语言,有RDF和RDF-S、OIL、DAML、OWL(注:DAML+OIL不再单独列出,认为它是一个过渡,直接介绍OWL)、KIF、SHOE、XOL、OCML、Ontolingua、CycL、Loom。我们简单把它们归类如下:和Web相关的有:RDF和RDF-S、OIL、DAML、OWL、SHOE、XOL。其中RDF和RDF-S、OIL、DAML、OWL、XOL之间有着密切的联系,是W3C的本体语言栈中的不同层次,也都是基于XML的。而SHOE是
17、基于HTML的,在HTML的一个扩展。和具体系统相关的(基本只在相关项目中使用的)有:Ontolingua、CycL、Loom。KIF已经是美国国家标准,但是它并没有被广泛应用于互联网,作为一种交换格式更多的应用于企业级。下面我们逐一进行介绍。RDF、RDF-S22,23ResourceDescriptionFramework,资源描述框架,是W3C在XML的基础上推荐的一种标准,用于表示任何的资源信息。RDF提出了一个简单的模型用来表示任意类型的数据。这个数据类型由节点和节点之间带有标记的连接弧所组成。节点用来表示Web上的资源,弧用来表示这些资源的属性。因此,这个数据模型可以方便的描述对象
18、(或者资源)以及它们之间关系。RDF的数据模型实质上是一种二元关系的表达,由于任何复杂的关系都可以分解为多个简单的二元关系,因此RDF的数据模型可以作为其他任何复杂关系模型的基础模型。W3C推荐以RDF标准来解决XML的语义局限。RDF和XML是互为补充的。首先,RDF希望以一种标准化,互操作的方式来规范XML的语义。XML文档可以通过简单的方式实现对RDF的引用。其次,由于RDF是以一种建模的方式来描述数据语义的,这使得RDF可以不受具体语法表示的限制。但是RDF仍然需要一种合适的语法格式来实现RDF在Web上的应用。将RDF序列化为XML表示可以使RDF获得更好的应用可处理特性,并使得RD
19、F数据可以像XML数据一样的容易使用、传输和存储。因此,RDF是定制XML的良伴,而不只是对某个特定类型数据的规范表示,XML和RDF的结合,不仅可以实现数据基于语义的描述,也充分发挥了XML与RDF的各自优点,便于Web数据的检索和相关知识的发现。与XML中的标记(tags)类似,RDF中的属性(properties)集也是没有任何限制的。也就是说存在同义词现象和一词多意现象。RDF的模型不具备解决这两个问题的能力,而RDFSchema虽然可以为RDF资源的的属性和类型提供词汇表,但是基于RDF的数据语义描述仍然可能存在语义冲突。为了消解语义冲突,我们在描述数据语义的时候可以通过引用Onto
20、logy的相关技术,对语义描述结果作进一步的约束。幸运的是,RDF(Schema)在提供了简单的机器可理解语义模型的同时,为领域化的Ontology语言(OIL,OWL)提供了建模基础,并使得基于RDF的应用可以方便地与这些Ontology语言所生成的Ontology进行合并。RDF的这一特性使得基于RDF的语义描述结果具备了可以和更多的领域知识进行交互的能力,也使基于XML和RDF的Web数据描述具备了良好的生命力。OIL20OntologyInferenceLayer/OntologyInterchangeLanguage。OIL是-种针对本体的基于互联网的表现和推理层。它是由theEur
21、opeanUnion1STprogrammeforInformationSocietyTechnologiesundertheOn-To-Knowledgeproject(IST-1999-1013)andIBROW(IST-1999-19005)资助的,也得到了更广泛的研究者的参与。它的语言集如下图所示。HeavyOIL(possibl已future已tensions)InstanceOIL(StandardOIL+instances)RDFSStandardOIL1CoreOIL(StandardOILcPDFS)%reificationOIL综合了三个不同团体的工作,提供一种通用的语义互
22、联网的标记语言。这三方面的工作分别是:T基于框架的系统基于框架的语言在AI中有很长的历史,它们的中心建模元语是类(称作框架)和属性(称为槽)。描述逻辑描述逻辑通过概念(对应于类或者框架)和角色(对应于槽)描述知识。DL的一个重要特征是它们具有良好理解理论性质,并且在DL中任何表达的含义都可以通过数学的精确的方式描述。OIL从DL中继承了形式化语义和有效的推理支持。T互联网标准这里指的是XML和RDF。OIL标记语言的语法源自W3C的这些标准。OIL的使用比较广泛,支持OIL的工具也很多,最著名的有OILEd,是一个基于OIL的本体编辑器。其他一些工具,比如OntoEdit、theFaCT(Fa
23、stClassificationofTerminologies)System等也都支持OIL。DAML21DARPAAgentMarkupLanguage该项目正式开始于2000年8月,由美国政府支持,目标是开发一种语言和一组工具,为语义互联网提供支持。MarkGreaves是该项目的领导者。DAML形成于DAML-ONT(种本体语言)和DAML-Logic(种表达公理和规则的语言)。DAML提出的原因和OIL类似,一批支持语义互联网的研究者发现XML、RDF作为模式语言其表达能力很有限,希望开发一种有更强的表达能力的模式语言。尽管DAML并不是W3C的标准,但是参与的开发者中有很多来自W3C
24、的工作者,包括TimBerners-Lee。DAML扩展了RDF,增加了更多的更复杂的类、属性等定义。它一度很流行,成为网上很多本体的描述语言,直到DAML的研究者和OIL的研究者开始合作,推出了DAML+OIL语言,成为W3C研究语言互联网的本体语言的起点。OWL18,19OWL全称WebOntologyLanguage,是W3C推荐的语义互联网中本体描述语言的标准。它是从欧美一些研究机构的一种结合性的描述语言DAML+OIL发展起来的,其中DAML来自美国的提案DAML-ONT,OIL来自欧洲的一种本体描述语言(二者在上文都有介绍)。在W3C提出的本体语言栈中,OWL处于最上层,见下图。I
25、TheOntologyLanguageStackOWLF1|DAML卡bAAAUOIL:D/AML-Ont|OILFPICSXOLiTop忙帖I5A/ULJRDFHTMLXML*NameSpace屮卜XMLSchemaUnfcode|URI针对不同的需求OWL有三个子语言,描述列表如下:子语言描述例子OWLLite用于提供给那些只需要一个分类层次和简单的属性约束的用户。支持基数(cardinality),只允许基数为0或1oOWLDL支持那些需要在推理系统上进行最大程度表达的用户,这里的推理系统能够保证计算完全性(computationalcompleteness,即所有地结论都能够保证被计算
26、出来)和可决定性(decidability,即所有的计算都在有限的时间内完成)。它包括了OWL语言的所有约束,但是可以被仅仅置于特定的约束下。当一个类可以是多个类的一个子类时,它被约束不能是另外一个类的实例。OWLFull支持那些需要在没有计算保证的语法自由的RDF上进行最大程度表达的用户。它允许在一个Ontology在预定义的(RDF、OWL)词汇表上增加词汇,从而任何推理软件均不能支持OWLFULL的所有featureo一个类可以被同时表达为许多个体的一个集合以及这个集合中的一个个体。这三种子语言之间的关系是:每个合法的OWLLite都是一个合法的OWLDL;每个合法的OWLDL都是一个合
27、法的OWLFull;每个有效的OWLLite结论都是一个有效的OWLDL结论;每个有效的OWLDL结论都是一个有效的OWLFull结论。用户在选择使用哪种语言时的主要考虑是:选择OWLLite还是OWLDL主要取决于用户需要整个语言在多大程度上给出了约束的可表达性;选择OWLDL还是OWLFull主要取决于用户在多大程度上需要RDF的元模型机制(如定义类型的类型以及为类型赋予属性);在使用OWLFull而不是OWLDL时,推理的支持不可预测,因为目前还没有完全的OWLFull的实现。这三种子语言与RDF的关系是:OWLFull可以看成是RDF的扩展;OWLLite和OWLFull可以看成是一个
28、约束化的RDF的扩展;所有的OWL文档(Lite,DL,Full)都是一个RDF文档;所有的RDF文档都是一个OWLFull文档;只有一些RDF文档是一个合法的OWLLite和OWLDL文档。OWL的语言规范这里不再介绍。KIF24KnowledgeInterchangeFormat(KIF)是一种为了在不同的计算机系统(这里的不同是指由不同的程序员在不同的时间使用不同的语言开发等)之间交换知识而设计的语言。它的主要目的不是和人交互,也不是在一个计算机系统内部作为知识的表现方式,只有在不同的计算机系统之间需要交换知识的时候,它们把各自的内部表现方式转换成KIF,交互后再转换成各自的方式。它是由
29、斯坦福大学的TheLogicGroup提出并实现的,是一种美国标准(ANSI)。在KIF的设计中,以下特征是其本质特性:有公开的语义。它不再需要专门的解释器。在逻辑上是全面的。可以对任意的逻辑语句进行表达。提供对元知识的表现。除了这几个本质特征以外,KIF还尽量的最大化实现能力和可读性。SHOE25全称:SimpleHTMLOntologyExtensions,简单HTML的本体扩展。这是一种与XML一致的互联网知识表达语言,使得网页编辑者可以对他们的互联网文档进行标注。由马里兰大学计算机系提出的,但是目前他们有关本体的研究项目已经使用OWL和DAML+OIL作为互联网本体的描述语言,SHOE
30、已经停止研究了。SHOE是HTML的一个超集,它扩展了一些标记,使得在HTML中可以增加任意的语义数据。它的标记有两类,一类用于创建本体,一类用于注解文档。XOL26OntologyExchangeLanguage,本体交换语言。源于SRIInternationalsArtificialIntelligenceCenter(AIC)的BioinformaticsResearchGroup。XOL设计之初是为生物信息学领域本体的交换,但是它可以应用于各种领域。它是一种简单通用的定义本体的方法。基于XML和RDFSchema有两种变体。其目的是在不同的数据库、本体开发工具、或者其他应用程序之间交换
31、本体。OCML27,28OperationalConceptualModellingLanguage,是由英国的KnowledgeMediaInstitute实验室开发的。OCML建模语言通过几种具体的构件(Functionalterms、ControltermsLogicalexpressions)来支持知识模型的建模架构。该语言使得对函数、关系、类、实例和规则的形式化操作成为可能。它还包括定义本体及问题解决方法的机制。KMI的WebOnto编辑器是基于OCML的。Ontolingua1一种基于KIF(knowledgeinterchangeformat)的提供统一的规范格式来构建Ontol
32、ogy的语言。其特点是:为构造和维护Ontology提供了统一的、计算机可读的方式;由其构造的Ontology可以方便地转换到各种知识表示和推理系统(Prolog、CORBA的IDL、CLIPS、LOOM、Epikit、Algernon和KIF),从而将Ontology的维护与使用它的目标系统隔开;主要用于Ontology服务器。CycL1Cyc系统的描述语言,一种体系庞大而非常灵活的知识描述语言。其特点是:在一阶谓词演算的基础上扩充了等价推理、缺省推理等功能;具备一些二阶谓词演算的能力;其语言环境中配有功能很强的可进行推理的推理机。Loom1Ontosaurus的描述语言,一种基于一阶谓词逻
33、辑的高级编程语言,属于描述逻辑体系。其特点是:提供表达能力强、声明性的规范说明语言;提供强大的演绎推理能力;提供多种编程风格和知识库服务。该语言后来发展成为PowerLoom语言。PowerLoom是KIF的变体,它是基于逻辑的,具备很强表达能力的描述语言,采用前后链规则(backwardandforwardchainer)作为推理机制。以下是个人的一些看法:在选择本体描述语言时,我们的基本认识是向标准看齐,并且我们项目的应用领域也是基于Web的个股信息服务,因此,OWL很自然的成为首选。三、本体建设的方法论MikeUshold&MichealGruninger的SkeletalMethodo
34、logy(骨架法)12他们提出的建设本体的方法包括如下步骤:识别目的和范围(IdentifyPurposeandScope)这个阶段需要弄清楚为什么要建立本体?建好后的用途有哪些?使用该本体的用户范围是什么?等。+建设本体(BuildingtheOntology)-本体捕获(ontologycapture)本体捕获包括:(1)相关领域中关键概念和关系的识别;(2)这些概念和关系的精确无二义的文本定义的产生;(3)表达这些概念和关系的术语的识别;(4)在以上三点上达成一致。这一过程再细分为以下步骤:1Scoping:通过头脑风暴法(Brainstorming)产生所有潜在相关的术语和短语。进行分
35、组(Grouping):对应于自然产生的子组,将这些术语松散地组成工作区(Structurethetermslooselyintoworkareascorrespondingtonaturallyarisingsub-groups)。2ProduceDefinitions决定下一步做什么?决定元本体(DeterminingMeta-Ontology):先不急于提交任何的元本体,而是仔细考虑概念和它们的内部关系,尽量考虑各种可能性。工作区(WorkAreas):依次考虑每个工作区。首选那种和其他工作区有最多的语义重叠的先作。术语(Terms):采用了middle-out的方法。首先定义每个工作区
36、中最基本的术语,再定义更抽象或者更具体的。达成一致处理二义性的术语(HandlingAmbiguousTerms):选定一个合适的术语来表达这种概念,避免使用二义性的术语。指导方针(Guidelines):产生一个自然语言文本的定义;确保一致性;指出关系;避免环状定义的术语;提供必要的补充信息使术语的定义更有效;在合适的地方给出例子。造词(Wording):权衡技术准确性和清晰。3Review4Meta-Ontology:设计一个元本体。-本体编码(ontologycoding)该阶段是利用某种形式化语言显式地表现上个阶段的概念化成果。涉及到:(1)作为meta-ontology的基本术语的确
37、定;(2)选择一种表现语言(能够支持meta-ontology);(3)编码。-集成现有本体(integratingexistingontologies)在达成一致方面有很多工作需要完成。+评价(Evaluation)并没有提出自己的评价方法。引用了GomezPerez关于evaluation的定义,需要参见更多的文章。+文档化(Documentation)目前很多知识库和本体缺少文档也是一种知识共享的障碍,这些文档应该包括本体中定义的主要概念、meta-ontology等。某些编辑器可以自动生成这些文档。+每阶段的指导方针(Guidelinesforeachphase)把设计本体的初始的指导
38、方针总结为以下设计标准(重点在于共享和重用):清楚(Clarity)、一致(Coherence)可扩展性(Extensibility)最小本体的承诺(Minimalontologicalcommitment)、最小的编码偏差(Minimalencodingbias)。MichealGruninger&Mark.SFox的企业建模法(TOVE)TOVEOntologyProject是多伦多大学EnterpriseIntegrationLaboratory的一个项目,它的目标是建立一套为商业和公共企业建模的集成本体,并且已经建成了相关本体。作为该项目的一部分,他们设计了一套创建和评价本体的方法“E
39、nterpriseModellingMethodology”。该方法包括如下几个步骤13:ProcedureforOntologyDesignandEvaluation1激发场景(MotivatingScenario)应用领域的某些场景激发了本体的建设,因此,给出一个场景有助于理解建设本体的动机。2非形式化的能力问题(InformalCompetencyQuestions)提出一个本体应该能够回答的各种问题,作为需求。通过指明能力问题和场景之间的关系,可以对新扩展的本体进行一定的非形式化的判断。也是一种初始的评价,来判断是否需要扩展本体,或者现有本体是不是已经可以涵盖所提出的非形式化问题。3一
40、阶逻辑表达的术语规格说明(Specificationinfirst-OrderLogic-Terminology)识别领域中的对象,并用一阶逻辑等方式表达出本体中的术语。4形式化的能力问题(FormalCompetencyQuestions)用形式化的术语把非形式化的能力问题定义出来。5一阶逻辑表达的公理规格说明(Specificationinfirst-OrderLogic-Axioms)本体中的公理指定了术语的定义以及约束。采用本体中的谓词将公理定义为一阶逻辑的句子。这只是本体的规格说明,并不是本体的实现。6完备性定理(CompletenessTheorems)当能力问题都被形式化的表述之
41、后,必须定义在什么条件下这些问题的解决方案是完备的。在12中去掉了一阶逻辑作为描述语言的限制,把该方法表达成:1动机的确定(Captureofmotivatingscenarios)2非形式化能力问题的形式化(Formulationofinformalcompetencyquestions)3采用一种形式化语言编写该本体术语的规格说明书(Specificationoftheterminologyoftheontologywithinaformallanguagesuchasfirst-orderlogic)4使用该本体的术语把非形式化的能力问题形式化(Formulationofformalco
42、mpetencyquestionsusingtheterminologyoftheontology)5采用形式化语言编写关于该本体中术语的公理和定义的规格说明书(Specificationofaxiomsanddefinitionsforthetermsintheontologywithintheformallanguage)6(Justificationoftheaxiomsanddefinitionsbyprovingcharacterisationtheorems)MarianoFernandez&GOMEZ-PEREZ等的“METHONTOLOGY”14在介绍METHONTOLOGY之
43、前,本文简单介绍了一下本体的开发过程和生命周期。作者总结本体的开发过程包括如下活动:计划(plan)、详细说明(specify)、获取知识(capturingknowledge)概念化(conceptualize)形式化(formalize)集成(integrate)、实现(implement)评价(evaluate)文档化(documentation)、维护(maintain)。本体的生命周期依次分为以下状态:详细说明(specification)、概念化(conceptualization)、形式化(formalization)、集成(integration)、实现(implementat
44、ion、和维护(maintenance)o下图表现了这些活动和状态之间的关系。作者称METHONTOLOGY方法是结合了骨架法和GOMEZ-PEREZ方法(也是本文作者之一,该方法参照下图右边所示,只是METHONTOLOGY的前身,不再论述)后,提出的一种更为通用的本体建设方法。1Identifypurpoaeandscope1.AcquireknowledgeBuildingtheBuildarequjremetitspecifitation二IOjrologycaptuj.DociimetiiationafterachphasehG&tuz-PejtizcolkusRelationshi
45、pbetvveefipliasesoftwom规格说明书(Specification)该阶段要产生一份以自然语言编写的非形式化的、半形式化的、或者形式化的本体规格说明书。至少包括以下信息:本体的目的(预期的用途、场景和最终用户等)、实现本体的形式化程度、范围(包括要表达的术语集、它们的特性和粒度)。虽然无法确保规格说明书的完整性,但是必须保证一个好的本体规格说明书应该满足以下性质:9简洁(每个术语都是相关的,没有无关或者重复的术语)9部分完整性(术语的覆盖范围、每个术语的问题和粒度)9一致性(每个术语及含义都在领域内有意义)2知识获取(KnowledgeAcquisition)知识的来源很多,
46、可以是:专家、书籍、手册、数字、表格、甚至是其他的本体。从这些数据源获得知识的关联技术包括:头脑风暴法、访谈、文本的形式化或非形式化的分析和一些知识获取工具。3概念化(Conceptualization)该活动将领域知识组织成概念模型,用规格说明书中识别的领域词汇表描述问题和解决方案。生成的概念模型允许最终用户(a)确定一个本体是否有用,并且对于某个给定应用不需要查看源代码就是可用的(b)比较数个本体的范围、完整性、可重用性、共享性。4集成(Integration)重用别的本体中已经建好的定义时,可以:a)查看元本体,选择适合自己概念模型的。b)选择和自己概念模型中的语义和实现一致的术语定义。
47、5实现(Implementation)用任何一种形式化的语言编码实现本体。需要一套开发环境的支持,至少包括:词法和语法分析器、翻译器、编辑器、浏览器、搜索器、评价器、自动维护工具。6评价(Evaluation)评价是指在本体生命周期的每个阶段和阶段之间,利用某种参考框架对本体、软件环境、文档进行技术判断。评价包括正确性(verification)和有效性(validation)。7文档化(Documentation)在本体建设的全过程中每个阶段都应该有对应的文档。AlexanderMaedche等的CyclicAcquisitionProcess15OSeectrraJSourcesRelat
48、ionLearningsemhstnjcturedinfermaton,a.g.domain-speorficdidnnariEisooOooDom-ainOntologyDomainFocusingConceptLearningMaedche有一系列关于从文本中抽取领域本体的文章,提出了这种本体获取的方法论,它是一种环状的结构。1环形的起点是一个通用的核心本体的选择。任何大型的通用本体(像Cyc、Dahlgren的本体)、词汇-语义网(像WordNet,GermaNet)、或者领域相关的本体(像TOVE)都可以作为这个过程的开始。选定基础本体后,用户必须确定用于抽取领域相关实体的文本。2从选
49、择的文本中获取领域相关的概念,并建立概念之间的分类关系。3除去领域无关的概念,只留下和领域相关的。这时,建立起了目标本体的概念结构。4从基础本体中会继承一些关系,其他的关系需要通过学习的方法从文本中抽取。5对得到的领域相关的本体进行评价,还可以进一步的重复上述过程。IDEF-5方法16IDEF的概念是在70年代提出的结构化分析方法的基础上发展起来的。在1981年美国空军公布的ICAM:integratedcomputeraidedmanufacturing工程中首次用了名为“IDEF”的方法。IDEF是ICAMDEFinitionmethod的缩写,到目前为止它已经发展成了一个系列。本体描述获
50、取方法IDEF5(OntologyDescriptionCaptureMethod)提供了两种语言形式,即图表语言和细化说明语言来获取某个领域的本体论。这两种语言是互为补充的,IDEF5的图表语言在表达能力的某些方面是很有限的,但是它的这种绘图式方式又使得它很直观,容易被理解;而IDEF5的细化说明语言是一种具有很强的表达能力的文本语言,它可以把隐藏在图表语言内的深层次的信息描述清楚,从而可以弥补图表语言的不足。另一方面,IDEF家族中的方法都是互相补充的,而在一个概念模型的描述中会遇到很多的相继发生的事件,即一个过程。那么对这些过程的描述也需要有一个很好的支持语言,IDEF3(Process
51、FlowandObjectStateDescriptionCaptureMethod)正是一种为获取对过程的准确描述所用的方法。它提供过程流图和对象状态转移网图(OSTN)这两种图表来获取,管理和显示过程。IDEF-5提出的本体建设方法包括以下五个活动:1组织和范围(OrganizingandScoping)确定本体建设项目的目标、观点和语境,并为组员分配角色。2数据收集(DataCollection)收集本体建设需要的原始数据。3数据分析(DataAnalysis)分析数据,为抽取本体作准备。4初始化的本体建立(InitialOntologyDevelopment)从收集的数据当中建立一个初
52、步的本体。5本体的精炼与确认(OntologyRefinementandValidation)完成本体建设过程。以下是个人的看法:从本体的概念和作用我们可以看出,本体建设应该是工程化生产。工程思想的核心有两点:标准化的表达方式和规范化的工作步骤。软件工程就使得软件生产从程序员的个人劳动提高成为有组织的、可控制的工程,从而大幅度的从根本上提高了软件开发的效率和质量。相比于一般的软件,本体更强调共享、重用,它本身的出现就是为了给不同系统之间提供一种统一的语言,因此它的工程性更为明显。目前本体工程这个思路虽然已经被大家所接受,但是并没有出现成熟的方法论作为支持。上述的各种方法论也是诞生在具体的本体建
53、设项目之中,在相应的项目中得到实践。这些方法之间并没有太大的差别,并且都和软件工程中常见的开发过程相类似。我们可以综合一下这几种方法,从而制定自己的一套方法论。参考文献Ontology研究综述,邓志鸿、唐世渭等,北京大学学报(自然科学版),第38卷,第5期,2002年9月Cf.T.R.Gruber.Atranslationapproachtoportableontologies.KnowledgeAcquisition,5(2):199-220,1993.ThomasR.Gruber.TowardPrinciplesfortheDesignofOntologiesUsedforKnowledg
54、eSharing,Revision:August23,1993.FenselD.Ontologies:SilverBulletforKnowledgeManagementandElectronicCommerce.Springer.2001.R.P.B.Swartout,K.Knight,T.Russ,TowardDistributedUseofLarge-ScaleOntologies,OntologicalEngineeri1n3g8,-148,1997R.F.Neches,R.;Finin,T.;Gruber,T.;Patil,R.;Senator,T.;Swartout,W.R.,En
55、ablingTechnologyforKnowledgeSharing.,AIMagazine36-56,1991.FenselD.,2000.Thesemanticwebanditslanguages.IEEEComputerSociety15,6(November/December),67-73.NoyF.N.,McGuinnessD.L.,2001.OntologyDevelopment101:AGuidetoCreatingYourFirstOntology.StanfordKnowledgeSystemsLaboratoryTechnicalReportKSL-01-05andStanfordMedicalInformaticsTechnicalReportSMI-2001-0880,March.Fonseca,F.EgenhoferM.,Agouris,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 社区迎元宵包汤圆活动方案例文(3篇)
- 安全月活动工作方案样本(3篇)
- 风动凿岩机安全操作规程(2篇)
- 冲击电钻、电锤安全操作规程模版(3篇)
- 公司动火安全消防管理规定(2篇)
- 生产、技术、设备副总经理安全生产责任制范文(2篇)
- 庆祝记者节活动方案(7篇)
- 安全管理目标及其考核制度(4篇)
- 麻醉科药品管理制度范文(2篇)
- 车辆补充管理规定模版(3篇)
- 制作同轴电缆接头的方法课件
- 完整版钢箱梁安装及叠合梁施工
- 长亚自动定位打孔机使用说明书
- 第六章、船舶通信设备
- 造价咨询归档清单
- 浅谈如何抓好重点项目前期工作
- 智慧树知到《配位化学本科生版》章节测试答案
- 捐赠合同协议书范本 红十字会
- 4.机电安装项目质量目标与控制措施
- 内蒙古呼和浩特市中小学生家长营养知识现状调查
- 盐碱地改良标准及方法
评论
0/150
提交评论