自动问答系统中课程知识本体的构建与实现_第1页
自动问答系统中课程知识本体的构建与实现_第2页
自动问答系统中课程知识本体的构建与实现_第3页
自动问答系统中课程知识本体的构建与实现_第4页
自动问答系统中课程知识本体的构建与实现_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、自动问答系统中课程知识本体的构建与实现1 引言问答系统(QuestionAnsweringSystem,QAS是一种新的信息检索技术。它应用自然语言理解技术,通过对用户问题的理解,将答案直接返回给用户。由于现有的许多自动问答系统都是基于知识库的,知识库是自然语言处理的基础资源,知识库中知识的丰富程度、知识表示形式以及知识的组织方式直接关系到基于知识库的自然语言处理应用的性能。因此如何设计知识库对提高自动问答的性能和效率具有非常重要的意义。为此本文提出,以数据结构课程为例,采用本体技术构建课程本体,首先对数据结构课程知识进行了核心词汇分析,提出若干类和属性,然后借助本体知识库良好的分类特性、概念

2、的形式化描述来对数据结构课程进行知识表示、知识存储,建立数据结构课程本体库,从本体库出发建立常见问题库和课程文档库。以此建立的常见问题库和课程文档库为后续课程自动问答系统的自动问答提高了效率。2 本体技术本体论(Ontology)来自哲学领域,比较流行的定义是Gruber在1993年提出的本体的概念,他认为本体是有关概念模型的明确的规范说明。本体的目标是捕获相关的领域知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互关系的明确定义。本体的研究包括概念和概念分类、本体上的代数。近年来,随着信息科学的飞速发展,本体论逐渐用于知

3、识工程和信息科学等领域之中。随着Web的发展,出现了许多本体描述语言,如早期基于一阶逻辑的EJF,基于框架和一阶逻辑的OCML基于描述逻辑的LOO矫。随着进一步的发展,又出现了RDF(S)、OIL+DAMLOW管。而其中,OW星建立在XML/RD喏已有标准基础上,通过添加大量的基于描述逻辑的语义原语来描述和构建各种本体。本文中主要使用RDF(s)和OWL本体构建工具有很多,目前使用最为广泛是Protege本体构建工具,是使用java开发的、可扩展的、免费的、开源的本体工具。本文采用了Prot6g40.2版本作为本体的构建工具,构建数据结构课程本体。Prot6g64.0.2本体构建工具有很多优点

4、:使用简单方便、文件的输出格式可以定制、用户接口可以定制、模块划分清晰、后台支持数据库存储。3 课程本体的构建课程本体的构建是一个严谨的过程,本文在参考相关本体构建方法的基础上,在领域专家的帮助下,采用以下的步骤来开发课程本体,尽可能保证本体的正确性和一致性:( 1)明确领域范围:主要考虑该课程领域本体要包含的内容、用途和使用者。(2)考虑可重用性:考虑是否已有相关的课程本体,可否对其进行扩展或精炼。( 3)列举核心概念、基本概念:以某种方式表示课程领域中的概念。( 4)定义概念及概念间的层次和结构。( 5)定义概念的属性:提供相关的属性来详细描述概念的方方面面。( 6)基于课程本体构建该课程

5、的常见问题库和知识库。3.1 课程的概念本体要进行课程本体的构建,首先要确定该课程中的关键知识点,课程知识点由课程的核心概念和基本概念构成。准确定义领域内核心的概念,以确定合理、完整的概念体系,构建课程本体。需要抽象概念、属性,及概念之间的关系进行描述和定义。概念本体(CO-ConceptOntology)是用来描述某个知识领域内的一些核心概念和基本概念的本体,这些概念是被该领域内人们所共同认可的,本文将其表示为一个单独的本体,定义如下:CO:=(Onm,Ch,Cj,Sx)其中OnmM某个领域白课程名;Ch为该课程领域核心概念集合;Cj为该课程领域基本概念集合;Sx为该课程领域各概念的属性集合

6、;本文领域概念的提取是由多位领域专家及网络搜集获得,下面给出一个实例片段:CO:=(Onm,Ch,Cj,Sx);Onm=数据结构”;Ch=(数据结构、线性表、树、图);Cj=(栈、队列、特殊线性表、串、多维数组、广义表、二叉树、查找、排序);Sx=(Sx1数据结构:定义,发展历史,访问接口,分类;Sx2线性表:定义,逻辑结构,存储结构,应用;Sx3树:定义,遍历,转换;Sx4图:定义,逻辑结构,存储结构,最短路径,遍历,关键路径,应用)3.2 领域概念层次关系提取根据上一节提取到的课程概念,确定课程概念间的相互关系,并且用精确的术语来表达这些概念以及概念之间的关系,本文在建立数据结构课程本体时

7、主要考虑了基本概念之间的关系如表1-1所示,包括概念间的同义关系、蕴含关系、上下位关系、层次关系和缩写关系。同义词关系表示两个概念(类)之间的语义相等或非常相近,往往可以相互替换,如“线性表”别名“表”或“Linearlist”等。蕴含关系表示两个概念(类)是继承关系。如线性表和特殊线性表具有继承关系。上下位关系表示下位词是上位词的特例,如特殊线性表是栈和队列的上位词。在问答中有时候通过该概念的上下位概念也能提取到潜在的有用信息。3.3数据结构课程本体模型3.4常见问题库和文档库的构建课程FAQ库是课程自动问答系统的核心,存储的是针对某一最重要的问题集合。包括学生在学习过程中经常提问的问题及各

8、类考试中频繁出现的题目等等,课程FAQ车把这些问题存储到数据库中,并配有准确的答案,为了使系统充分理解用户的提问意图,以便在自动答疑时把FAQ库中相关的问题集找出来,结合前面的分析,本文以课程知识本体为基础,应用短文本分类技术对所有问题分类,构建了数据结构课程FAQ库。自动问答系统中对于用户提出的常见问题,首先用户输入查询问题,系统先在课程FAQ库中找到相同或相似的问题,返回相应的答案,对于一些问题是FAC库模式难以回答的,比如:用户提出一些叙述形式的问题或者与应用相关的算法实现等问题。对于这些类型的问题,本文基于课程知识本体设计了课程文档库来解答。课程文档库按章对数据结构课程的内容以树形结构组织,课程文档库中存储的是该门课程知识的集合,是完整的关于课程知识的体系结构,具有良好的结构性,便于查找。在查找时可以将父结点、兄弟节点和子结点的相关信息返回。提高了查询结果的准确性。4小结本文通过对自动问答系统的相关研究进行剖析,结合本体技术的核心内容和特征,对如何使用本体来构建课程知识本体库进行了论述。以数据结构课

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论