基于领域本体和语义相似度的数据挖掘模型_第1页
基于领域本体和语义相似度的数据挖掘模型_第2页
基于领域本体和语义相似度的数据挖掘模型_第3页
基于领域本体和语义相似度的数据挖掘模型_第4页
基于领域本体和语义相似度的数据挖掘模型_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Vol.29,No.2February,2011第29卷第2期2011年2月博士论坛收稿日期:2010-08-09基金项目:教育部人文社会科学重点研究基地重大项目(2009JJD870002;教育部人文社会科学研究项目(2008JA870013作者简介:唐晓波(1962-,男,湖北仙桃人,教授,博士生导师,主要从事管理信息系统、信息资源集成与利用研究.伴随着信息时代的到来,不同种类,不同领域的信息正以指数级增长,在这个知识爆炸的时代,如何从浩如烟海的信息中找出对自己有用的信息并加以分析、利用,是目前摆在数据挖掘领域的主要课题。传统的数据挖掘技术是基于数据仓库,这类数据仓库通常有上百个属性和数万

2、个记录,并且数据表之间包含复杂的关系,这就必然导致数据挖掘过程中搜索维数和搜索空间的激增,同时也增加了不确定性和错误模式出现的可能性【1】。同时,现有的信息大多是异构的,目前的数据挖掘技术在处理异构信息方面还显得比较困难。针对这样的情况,学界提出了一种基于领域本体的数据挖掘技术。领域本体是某一领域概念和关系的总和,数据挖掘系统在处理这样的结构化信息时更有针对性。本文将在充分分析基于领域本体和语义相似度的数据挖掘模型唐晓波1,2,罗毅2(1.武汉大学信息资源研究中心,湖北武汉430072;2.武汉大学信息管理学院,湖北武汉430072摘要:数据挖掘已成为情报学的研究热点,而传统的数据挖掘过程是在

3、数据仓库的基础上,面向结构化的数据进行分析,这在很大程度上限制了数据挖掘的作用范围和效果。在充分分析数据挖掘和领域本体等相关理论后,提出了一个面向领域本体,应用语义相似度匹配的数据挖掘模型。该模型在理论上解决了用户的目标发现和挖掘对象选择的问题,同时也在数据挖掘算法上引入了本体概念,使得系统能快速识别用户需求,高效的选择相应算法,在很大程度上提高了数据挖掘处理异构、分布式数据的能力。关键词:领域本体;语义相似;数据挖掘中图分类号:G350;TP311文献标识码:A文章编号:1007-7634(201102-0275-04A Data Mining Model Based on the Doma

4、in Ontology and SemanticSimilarityTANG Xiao-bo 1,2,LUO Yi 2(1.Center for Studies of Information Resources of Wuhan University ,Wuhan 430072,China ;2.School of Information Management,Wuhan University,Wuhan 430072,China Abstract :Data mining has become the focus of research in information science,whil

5、e the traditional data mining process is based on the data warehouse,facing structured data and analyzing,which largely limits the scope and effectiveness of data mining.In this paper,after the full analysis of data mining and other related theory such as domain ontology,it proposes a data mining mo

6、del.The model solves the problem of the users target discovery and the choice of the mining object in theory,while incorporates the concept of ontology in the data mining algorithms,making the system quickly identifies the user needs and selects the appropriate algorithm efficiently.It improves the

7、capacity of the dealing with heterogeneous,distributed data.Keywords :domain ontology ;semantic similarity ;data mining情报科学276情报科学29卷这些理论的基础上提出一个基于领域本体和语义相似度的数据挖掘模型。1领域本体和语义相似度在人工智能界,最早给出本体(Ontology定义的是Neches等人,他们将Ontology定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。后来在信息系统、知识系统等领域,越来越多的人研究O

8、ntology,并给出了许多不同的定义。其中最著名并被引用得最为广泛的定义是由Gruber提出的,“本体是概念化的明确的规范说明”【2】。领域本体就是对某一领域概念及实体间关系的形式化描述,是在语义和知识层面上表达信息系统的概念化模型,其目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义【3】。语义相似度是指不同词语之间的可替代程度,国内学者刘群等【4】对语义相似度的定义是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。即若两个不同词语在上下文中互相替换且不改变文本的句法语

9、义结构程度的可能性越大,那么这两个词语的相关性越高,反之越低。度量两个词语关系的另一个重要指标是词语的相关度。词语相关度是指两个词语在同一语境共现的可能性,它反映了两个词语的相互关联程度。可以认为【5】,语义相似度反映概念之间的聚合特点,而词语相关度则反映概念之间的组合特点。2基于领域本体和语义相似度的数据挖掘模型用户需求是数据挖掘的驱动力,任何挖掘过程都是从用户的需求描述开始的,数据挖掘是一个对技术性、专业性要求都较高的处理过程,它不但需要领域专家的参与,还需要相关技术的支持。比如在用户需求分析的时候需要用到分词系统,本体推理机等;在用户需求与挖掘算法和本体库的匹配过程中则要用到本体相似度的

10、匹配算法。基于领域本体和语义相似度的数据挖掘模型由以下几个部分组成:用户需求发现模块,功能需求分析模块,内容需求分析模块,数据挖掘模块,如图1所示。图1基于领域本体和语义相似度的数据挖掘模型3基于领域本体和语义相似度的数据挖掘过程3.1用户需求发现和任务本体的确定用户需求发现又称为用户需求描述,也称为用户需求推理。它包含两方面的内容,一个是用户对所要挖掘的数据的概念性描述,即内容描述;另一方面是用户对于所要进行的数据挖掘功能的描述,即功能性描述。这个过程需要用户需求发现模块进行分析,并且需要相关的算法进行匹配。用户向系统提交一个任务需求,分词系统自动过滤掉虚词和一些不必要的词汇后,通过实体识别

11、和主题词提取获得问题的特征信息,之后在规则库的指导下,将特征信息通过同领域本体中概念或者属性的匹配并遵循一系列的规则组成任务本体【6】。图2用户需求发现模块用户需求【7】可表示为如下所示的五元组:ID, Content,Function Requirement,Mining Type,Mining Constraint。其中ID为用户的标识;Content为用户对于挖掘内容的描述;Function Requirement为用户对算法的功能要求,包括算法的输出格式要求、用户对算法的运行时间容忍度、挖掘结果的可理解性要求等,它直接影响着挖掘算法的选择;Mining Type 为挖掘任务的类型,说明

12、需要进行何种类型的挖掘,如分类、聚类、关联分析等;Mining Constraint 为用户对数据挖掘的功能性约束,用于详细限定目标算法的作用范围或输出结果。3.2目标领域本体范围的确定目标领域本体是指数据挖掘过程所指向的一个领域本体库。根据第一步分析出的任务本体,我们可以在本体库中发现目标领域本体,这过程要使用本体相似度算法,该算法是将任务本体与本体库进行匹配,找出所要进行数据挖掘的目标领域本体【8】。对于本体的相似度有多种计算方法,我国学者孙海霞【9】等在基于本体的语义相似度计算方法研究综述中总结了四种语义相似度计算方法,分别是基于距离的语义相似度计算,基于信息内容的语义相似度计算,基于属

13、性的语义相似度计算和混合式语义相似度计算。这四种算法使用范围不同,效率也各有优劣,在确定目标领域本体的范围时,采用基于信息内容的语义相似度计算效率为最高。这种算法的基本思想是:(1将要比较的两个概念词相关的词汇进行统计,如果他们之间共享的信息越多,那么他们之间的语义相似度就越大,反之就越小。(2我们将所有的本体概念用树的结构进行归纳,称为本体分类体系树。该算法认为,每个概念子节点都是其双亲结点或祖先结点概念的细化和具体化。因此,可以通过被比较概念词的公共父节点概念词或公共祖先结点所包含的信息内容来衡量它们之间的相似度。记C为某本体分类体系树中所有概念词的集合,P(c为实例概念词c出现的概率,i

14、c(c为实例概念词c所包含的信息内容,则定义【12】:Freq(c=n;P(c=freq(c/N;ic(c=-lnp(c其中,N为C中概念词总数,words(c表示c所包含的子概念词集合,实例概念词c出现的概率p(c为其所包含的所有子概念词在分类体系树中出现的频率之和。基于以上的定义,我们就可以衡量目标概念词和领域本体之间的语义关系。基本思想是:若某个概念词在某一领域本体内出现的概率较高,那么这个词所含的该领域知识也就越丰富,由于他的子节点是他自身概念的细化和具体化,这样他的子节点就与该领域本体关系较为密切。将上述算法推广至多个概念词C1、C2、C3Cn,在本体分类体系树中,一个子节点概念词往

15、往对应着多个父节点概念词,因此,比较概念词C1、C2、C3Cn的公共父节点概念词可能不止一个,一般取p值最小(即所含信息内容最多的那个。记S (C1,C2,C3Cn为所有被比较概念词的公共父节点概念词集,则:Pmis(C1,C2,C3Cn=minp(C;基于这样的思想,Lord【10】和Resnik【11】等都曾提出了使用共享父节点所包含的信息内容来计算概念词间语义相似度的算法。Lin【12】在他们的基础上对算法进行了完善,提出如下计算语义相似度模型:Sim (C1,C2,C3Cn=nlnPmis(C1,C2,C3Cn/ lnp(C1+lnp(C2+lnp(Cn。3.3数据挖掘算法发现用户提供

16、的需求根据定义可知共有5个部分,即:ID;Content;Function Requirement;Mining Type, Mining Constraint【7】。这其中,Function Requirement;Mining Type和Mining Constraint用来描述所要采用的数据挖掘算法,系统在分析出用户提供的这三方面的内容后,与数据挖掘算法本体库进行匹配,最后确定将要采用的具体算法。仿照用户需求的定义,我们可以将数据挖掘算法本体定义为如下三元组:F,T,R,其中,F为算法的功能;T是描述算法的类型;R则为算法的作用范围和输出结果集。本体结构如图3所示。我们定义如下函数Sim

17、(w1,w2【8,13】,其中w1, w2F,T,R。Sim(w1,w20,1;Sim(w1,w2=1=w1=w2,表示两个属性相同;Sim(w1,w2=0,表示两个属性互不相关。图3数据挖掘算法本体这里我们选择了基于属性的语义相似度算法,这种算法认为概念由属性表示其特征,概念之间的关联程度可以通过他们之间属性的相似程度来反映。它的基本计算方法是比较概念具有的特定属性的属性值。相同属性的数目越多,相似程度越高。Tversky曾提出一种算法【9】:Sim(w1,w2=f(w1w2-f(w1-w2-f(w2-w12期基于领域本体和语义相似度的数据挖掘模型277278情报科学29卷w1w2表示概念w

18、1和w2共有的属性集,w1-w2表示概念w1拥有而概念w2没有的属性集,w2-w1表示概念w2拥有而概念w1没有的属性集。参数,分别表示w1和w2的公共属性和非公共属性对其相似度计算的影响程度,参数值的确定由具体任务决定,且由于概念词相似度的非对称性,和值不一定相同。4数据挖掘实现方法我国学者施凤飞【14】等在数据挖掘和知识发现方法研究一文中归纳总结了十种数据挖掘方法,分别为决策树方法;神经网路方法;覆盖正例,排斥反例方法;粗集方法;概念树方法;遗传算法;公式发现;统计分析方法;模糊论方法和可视化技术。本文结合领域本体和数据挖掘算法进行数据挖掘,我们在进行具体的设计时是基于这样的思想:领域本体

19、中的数据都是严格结构化的,并且数据是存在层次结构的。用树来表示本体库的存储结构。那么,库中的任何一个数据与其关系最为密切的就是该节点的兄弟节点位置的数据,这样,我们在调用数据挖掘算法时主要是对同一层次的本体数据进行比较分析,因此,这个数据挖掘过程就是对本体库的一个广度优先遍历的过程。具体算法如下:DM Tree T/新建一个本体树If(Tchild=NULL;FDM(T;/对根节点调用数据挖掘算法elseBFS(Tchild;/若子树不为空,广度优先遍历根节点的所有孩子节点FDM(Tchild;/对存储的孩子节点调用数据挖掘算法;/至最后一个叶子节点5结语本文在领域本体和数据挖掘的理论基础上提

20、出了基于领域本体和语义相似度的数据挖掘模型,该模型不仅是面向本体库,同时也将挖掘算法用本体论的方法进行处理,以便能高效的选择相应的算法。本文的创新之处在于改变了传统面向数据仓库的数据挖掘,将领域本体和本体相似的概念引入了数据挖掘的数据准备阶段,在数据挖掘过程中,将整个挖掘算法简化为数据结构中的树的广度遍历过程。但在具体操作过程中,还有一些实现细节没有完善,下一步的工作就是要制定出现存的领域本体库的标准,并且将已有的数据仓库数据本体化。同时要在充分研究理论的基础上开发出基于领域本体和语义相似度的数据挖掘原型系统,并在此基础上研究如何进行更深层次的用户需求感知和人机交互的问题。参考文献1梁田.浅析

21、数据挖掘在数字图书馆信息服务中的应用J.高校图书情报论坛,2009,8(2:31-34.3卢燚,张波.基于政务主题词表的政府信息本体构建及应用J.计算机工程与设计,2010,31(3:521-524.4刘群,李素建.基于知网的词汇语义相似度计算J.中文计算语言学,2002,7(2:59-76.5段寿建,杨朝凤,甘健侯.基于领域本体的概念语义相似度和相关度综合量化研究J.现代图书情报技术,2009,(11: 40-43.6王栋,向阳,张波.本体在数据挖掘系统中的应用研究J.计算机工程与应用,2009,45(5:11-12.7陈英,顾国昌.基于领域本体的数据挖掘服务发现算法J.计算机工程与应用,2008,44(18:150-152.8赵捧未,袁颖.基于领域本体的语义相似度计算方法研究

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论