




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘知识管理中的本体推理架构数据挖掘知识管理中的本体推理架构 摘要 摘要 为了实现数据挖掘 Data Mining DM 领域知识的智能化管理 本文 提出了一种基于本体的 DM 知识管理架构 使用本体库 这个架构可以通过本 体服务手段实现智能知识检索和数据挖掘任务的自动完成 其主要功能包括 使用基于 Web 本体语言 Ontology Web Language OWL 描述数据挖掘本 体和元数据 本体推理功能 基于现有的概念和关系 本体的隐性知识可以 用推理机获得 本文主要侧重于数据挖掘本体的构建和基于 OWL DL s 的数据 挖掘本体的推理 关键字 关键字 本体 数据挖掘 知识管理 本体推理 0 引言引言 由于数据挖掘 DM 领域知识的不断扩充和更新 一些新的问题也随之 出现了 比如 对于新出现的领域知识 DM 知识管理系统无法实现新领域 知识的自动定义及归类 而需要专家的人工操作 因此 出现了定义及归类的 人为差异 当一个不具备很多领域知识的普通用户提交一个数据挖掘任务时 可能得不到解决该任务的 DM 方法及算法的最佳组合 为了解决以上问题 协助用户进行数据挖掘工作 对数据挖掘领域知识进 行 智能型管理是必要的 一些学者也在这方面做了一些研究 Bernstein提出了智能 发现助理系统 IDAs 它给用户提供 系统列举的有效DM过程中 为了不会 将重要的 潜在的富有成效的选项忽视 通过不同的标准对有效过程进行有 效的排名 以促进对DM的进程执行的选择 Cannataro提出的数据挖掘本体的 概念 DAMON 这是一个DM领域本体并且被DAML OIL描述 此外 DAMON MAP架构和主要功能也进行了描述 DAMON的使用在知识网格中体 现和应用 提供本体浏览和查询 然而 IDAs和DAMON只是对数据挖掘过程中本体的描述 而不是对整个 DM领域知识的描述 也不是基于本体推理的可以实现知识概念和知识智能检 索的自动分类和解决冲突的系统 本文介绍了DM领域知识管理的本体论 构 造了一个DM基于本体推理的知识管理 DMKM 架构 并着重于本体库的建 设和基于Web本体语言 OWL 数据挖掘本体推理 DL S 1 DMKM架构架构 本次研究使用Prot g PAL Prot g Axiom Language 推理模块 OWL API 和推理机创建一个开放和可扩展的DMKM架构 它包含的Prot g PAL推理模 块 Tab查询模块 OWL API 推理机 用户查询界面 知识库维护界面 DM 元数据库和数据挖掘本体数据库 它是在图1所示 首先 将介绍组成DMKM 的每一个模块的主要功能 然后它会对DMKM的基本功能给予描述 1 1 每个模块的功能 Prot g 是本系统的核心模块 通过使用DM元数据库和数据挖掘本体集 提供必要的知识的分类 每个类的属性 不同类别之间的相互关系 和不同类 别各属性之间的关系 图1 DMKM架构 OWL API 它是一个模块接收到OWL文件 RDF文件和RULE文件 用 Prot g 输出 并将它们传递给本体推理机 Jena可以用作OWL API模块 推理机推理机 它是处理更进一步的逻辑查询系统的模块 它可以定义更复杂的 逻辑关系 并自动根据DM本题库中建立的基本的本体知识推导出新的知识 它被命名为RACER 可以用作本体推理机 本体库本体库 是该系统的主要组成部分 它是一个DM专家定义的本体集 它 包括数据域的知识的分析 特别是数据挖掘过程 DM元数据库元数据库 它是一个知识库系统的一个组成部分 存储了DM领域的各 种元数据 如数据挖掘工具和算法等 PAL推理模块推理模块 它是逻辑查询系统的核心模块 它可以根据用户的查询方 式 找出数据挖掘本体数据库和DM元数据库中用户所需的有用的知识进行扣 除 Query Tab查询模块查询模块 是负责开展查询请求 这可以从DM元数据库和数据 挖掘本体数据库中发现有用的知识 使用者查询接口使用者查询接口 它分为两个子接口 PAL查询接口和Query Tab查询界面 PAL查询接口提供了一个通过PAL逻辑表示法的公式编辑器并将输入的查询式 传递给PAL推理模块进行解析 当使用者填写的查询语句是空白的 它会把问 句交给Query Tab查询模块进行解析 Query Tab查询界面是查询系统中的图形用 户界面并提供固定查询模式 知识库维护接口知识库维护接口 用来新增DM元数据文件盒数据挖掘本体于Prot g 的知 识库中 1 2 DMKM的基本功能 知识工作者通过知识维护接口手动更新数据挖掘本体库 当有新的数 据挖掘本体和DM元数据文件 知识数据库通过知识维护接口更新 它可以对 新领域知识实现自动定义和分类 所以它并不需要专家的手动操纵 用户可 以通过两个不同的查询方式查询DM知识 PAL查询接口和Query Tab查询接口 这两个模块查询Prot g 知识库 然后他们会各自提供给用户结果 当一个不 具备大量领域知识的普通用户提交一个数据挖掘任务 可以获得一个DM方法 与算法的最佳组合来解决这个问题 2 DM知识本体知识本体 数据挖掘本体将通过本体建模元语句来构建 Perez归纳出五个基本建模元 语 即 类别或概念 Concepts 关系 Relation 函数 Functions 公理 Axioms 和实例 Instances 根据文献研究结果并结合自己的分析 构建了以下DM领域词汇 2 1 概念 Concepts 本文所归纳的DM概念包括 数据挖掘任务 DM Task 数据挖掘方法 DM Method 数据挖掘算法 DM Algorithm 数据挖掘软件 DM Software 数据 集 Data Sets 预言模型 Predict Model 应用域 Application Domain 数据挖掘任务 DM Task 它表明了通过该数据挖掘过程要达到的目标 它 从特定的应用域中数据集的大量数据中提取预言数据模型 数据挖掘方法 DM Method 指在数据挖掘过程中为达到不同的数据挖掘任 务 DM Task 的目标能够采用的不同方法 数据挖掘算法 DM Algorithm 指当采用不同的数据挖掘方法时的不同算法 不同的数据挖掘方法对应不同的数据挖掘算法 数据挖掘软件 DM Software 指利用不同的编程语言 对不同的数据挖掘 算法的具体实现 数据集 Data Sets 指数据挖掘任务中要挖掘的数据集 预言模型 Predict Model 指对数据集的大量数据进行数据挖掘后 得到的 正确的 有用的和可以被理解并进一步利用的数据模型 应用域 Application Domain 指当执行数据挖掘任务时具体的应用领域 2 2 关系 Relation 本文归纳了十个数据挖掘本体的关系 Subclass of 表达概念之间的继承关系 如 数据挖掘任务和方法都是数据 挖掘本体的两个子类 Attribute of 表达某个概念是另一个概念的属性 例如 名称 是上面列出 的概念的一个公有属性 Part of 表达概念之间部分与整体的关系 例如 一个数据挖掘任务可以分 为几个部分任务来共同完成一个数据挖掘任务 Instance of 表达概念的实例与概念之间的关系 类似于面向对象中的对象 和类之间的关系 Adopts 在数据挖掘过程中 数据挖掘任务采用何种数据挖掘方法进行工 作 Performed by 指数据挖掘方法由哪个数据挖掘算法来执行 Implement algorithm 指数据挖掘算法由哪个数据挖掘软件来实施 Handled data DM Software Data Sets 数据挖掘软件要处理的何种数据 集 Adapted application 数据挖掘任务与实际应用领域的关系 即数据挖掘任 务适应于何种应用领域 Gained knowledge DM Software Predict Mode1 数据挖掘软件在数据挖 掘后预期得到的模型 2 3 实例 Instance 实例在本体论中代表了概念的一个案例 而每个实例将会继承其概念的所有 属性或关系 下面我们以金融业中的对目标市场中具有相同属性客户分类的数据挖掘任务 为例来描述所构建的数据挖掘本体的例子 如图2所示 图2 金融业的目标市场中的数据挖掘本体 在数据挖掘本体中 金融业是一个应用域概念的实例 对目标市场中具有 相同属性客户分类是一个数据挖掘任务概念的实例 AC2 是一个数据挖掘软件 概念的实例 在数据挖掘本体中 数据挖掘算法与数据挖掘软件间存在叫做 实 施算法 的关系 则ID3算法与AC2软件之间存在这样的关系 因为它们是从概 念间继承而来的 他们具有相同的属性和关系 3 基于基于OWL的数据挖掘本体推理的数据挖掘本体推理 在语义Web中 存在一个标准的本体语言OWL DL的 这是描述逻辑 DL 的基础上 提供了一个良好的表达能力和可计算性的平衡 从这个角度 看 通过推理机的帮助信息 隐性知识 可以从知识和数据中得到明确 如 RACER和FaCT 3 1 本体冲突解决方案 如果建设者要建立一个正确的 一致的本体 他 她需要借助于本体推理 所以一个好的本体推理是能够检测冲突 包括冲突的实例系统 概念和关系系 统 例如 神经网络是是数据挖掘方法的一个实例 它也是一种分类方法的实 例 但随后 另一个实例被添加到这个本体 owl DM Method rdf about Neural Network rdf resource Clustering owl DM Method 此代码表明 神经网络是一个聚类方法的实例 由于之前神经网络已经成 为分类方法的实例 分类方法和聚类分析方法是两个概念 没有从一个到另一 个的交集 结果导致了不一致的情况 形成实例系统的冲突 这种冲突也存在 于概念系统 它通常会导致致命的错误 所以RACER提供的是检测一个类是否 是另一个类的子类 在所有的概念中通过进行这样的测试 消除冲突的目的就 达到了 3 2 实例分类 实例的分类是指把一个实例分类为可以准确描述其特点的种类 因此通过 推理实现自动分类有至关重要的实践意义 推理逻辑是用PAL Prot g 公理语 言 设计的 并且它可以用来实现实例分类 下面是一个PAL逻辑推理的例子 定义定义1 数据挖掘任务实例的关键字和数据挖掘方法实例之间的关系 只要数据挖掘任务关键字是当前的 数据挖掘的方法将成立 或有一个子 数据挖掘任务隶属于数据挖掘任务并且子数据挖掘任务的名称和数据挖掘任务 关键词相匹配 所以这个语句是可以成立的 其逻辑推论是 DM Task the DM task substring of DM Task Keyword the name of DM task Sub DM Task the name of DM subtask be included DM task DM subtask substring of DM Task Keyword the name of DM subtask The Correlation DM Task Keyword DMMethod 4 数据挖掘本体推理的实验数据挖掘本体推理的实验 该系统是通过Prot g 3 2 Jena2 Java2 1和Java2 SDK 1 4的实施的 prot g 3 2作为本体编辑和Jena2作为推理机 为了用Jena实现智能查询功能 必 须把两个方面的工作做得很好 首先 表达所有的概念 关系和OWL和RDF形 式的数据挖掘有关事例 然后保存为XML文件的形式 这部分包括两个步骤 使用OWL表示本体概念并保存为Concept owl文件 这些概念是数据挖掘任务 数据挖掘方法 数据挖掘算法 数据挖掘软件 数据集和新增知识 使用 RDF以Instance rdf的形式保存本体的实例 有分类模型 决策树法 ID3算法和 AC2软件 根据查询条件建立两个规则以实现查询功能 代码如下 Rule 1 X adopts Y Y subclass of Z X adopts Z if X can adopt Y and Y is a subclass of Z so X can also adopt Z Rule 2 X be gained knowledge Y X adopts Z Y adopts Z if X can gain the knowledge by Y and X adopts Z then Y can also adopt Z 这两个规则都存储在Jena 然后基于以上两个相关的XML文件进行推理 代码如下 Model schema ModelLoader 1oadModel file Concept owl Model data ModelLoader 1oadModel file Instance rdf String rules Rule 1 X adopts Y Y subclass of Z X adopts Z Rule2 X be gainedknowledge Y X adopts Z Y adopts Z Reasoner reasoner new GenericRuleReasoner Rule parseRules rules 按照现有的推理规则增加规则 reasoner reasoner bindSchema schema InfModel infmodel ModelFactory createInfModel reasoner data Resource Predict Model infmodel getResource urn x hp eg Predict Model System Out println Predict Model printStatements infmodel null null Predict Model 通过使用printStatements导出所有与预测模型有关的推理结果 printStatements的定义如下 public void printStatements Model m Resource s Property p Resource o for StmtIterator i m listStatements s p o i hasnext Statement stmt i nextStatement System out println PrintUtil print stmt 以上操作的输出结果是 Predict Model eg Classification Model owl subclassof eg Predict Model eg Decision Tree owl subclassof eg DM Method eg ID3 algorithm owl subclassof eg DM Algorithm eg AC2 software owl subclassof eg DM Software eg Classification Model owl adopts eg ID3 algorithm 这个输出证明了使用Jena的推理机可以实现简单的概念关系推理 5 结论结论 本文首先介绍了数据挖掘知识管理本体推理架构 然后详细定义了数据挖 掘本体 包括概念 关系等 构建数据挖掘的知识管理架构的底层模块 最后 介绍了基于OWL DL S 的数据挖掘本体 由于时间有限 这项研究并不完美 因此 未来的研究方向的重点 主要 有两点总结 逻辑推理的自动挖掘 当本研究构建了本体 知识工作者协助 了逻辑推理 在分析过程中 发现逻辑推理是人类通过分析大量的数据挖掘材 料实现的 未来 我们可以利用数据挖掘技术自动获取知识 更多的用户友 好的查询界面 通过图形化的方式 它可以转换成由 OWL 自动描述的逻辑表 达式 参考文献参考文献 1 Hand D Mannila H Principles of Data Mining M Cambridge MIT Press 2001 2 Bernstein A Provost F Intelligent Assistance for the Data Mining Process An Ontology Based Approach R New York New York University 2002 3 Cannataro M Comito C A Data Mining Ontology for Grid Programming EB OL 2006 11 09 http citeseerx ist psu edu viewdoc summary doi 10 1 1 14 5123 4 Neches R Enabling Technology for Knowledge Sharing J AI Magazine 1991 12 3 36 56 5 Gruber T R A Translation Approach to Portable Ontology Specifications J Knowledge Acquisition 1993 5 2 199 220 6 Dean M Schreiber G OWL Web Ontology Language Reference EB OL 2003 03 31 http www w3 org T
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 仓库防水合同样本
- 二零二五版车用尿素合同范例
- 二零二五版校医聘用合同
- 二零二五房地产租赁居间协议
- 二零二五版担保的法律意见书
- 住宅雨棚加工合同标准文本
- 家政雇佣协议合同书
- 合资企业股权转让协议书范例二零二五年
- 全屋订制合同标准文本
- 临时送货合同样本
- 综合录井仪工作原理演示教学课件
- 小学三年级诗词大会初赛比赛题目课件
- 房建监理大纲(共114)
- 国际工程招投标流程图
- 城市环境卫生工作物资消耗定额
- 液化气站三级安全教育培训试题
- 经济法实用教程(理论部分)(第八版)(何辛)案例分析及参考答案
- 532近代前夜的危机
- 病原微生物实验室生物安全备案专家意见表
- (精心整理)朱德熙_说 “的”
- 《雷锋叔叔,你在哪里》说课稿(附优质教案)
评论
0/150
提交评论