(计算机应用技术专业论文)基于本体的web挖掘分类方法的研究.pdf_第1页
(计算机应用技术专业论文)基于本体的web挖掘分类方法的研究.pdf_第2页
(计算机应用技术专业论文)基于本体的web挖掘分类方法的研究.pdf_第3页
(计算机应用技术专业论文)基于本体的web挖掘分类方法的研究.pdf_第4页
(计算机应用技术专业论文)基于本体的web挖掘分类方法的研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机应用技术专业论文)基于本体的web挖掘分类方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 随着因特网的快速发展,w e b 已经成为人类社会的公共信息资源,信息量成 几何级数激增。如何充分利用w e b 信息资源,快速有效的进行分析加工以获取所 需知识,对w e b 信息系统提出了挑战,成为研究人员关注的焦点。 本文提出一种基于本体的w e b 挖掘分类方法,本文工作主要包括以下四个方 面: 通过对w e b 数据挖掘和语义网中本体概念的分析,对本文提出的基于本 体的w e b 挖掘分类方法进行了整体设计。该分类方法由用户会话层次和 领域层次构成,在用户会话层次的使用挖掘基础之上,充分利用领域本 体的潜在语义,通过使用领域本体为一个结构化w e b 对象集合创建带有 语义的聚合轮廓图。 在用户会话层次,设计并实现了模糊c 一均值( f c m ) 算法,对算法进行 改进,包括算法输入的处理,算法聚类数c 的确定,算法权指数m 的选 择以及算法流程的处理等。创建会话层次的使用轮廓图,表示会话层次 的数据挖掘效果。 在领域层次,研究本体在分类中的应用,结合w e b 使用挖掘的结果和领 域本体实现了领域本体实例的对象化,进而实现分类结果语义化。通过 实例说明了如何为不同类型的对象属性创建联合函数,实现了领域层次 数据挖掘,显示用户访问相同页面的原因。创建领域层次的聚合轮廓图 来表示这个分类集合代表的用户的共同兴趣。 作为应用的参考框架,建立了一个实例模型说明本文提出的方法的应用。 通过这些工作,本文实现了一个新型的基于本体的w e b 挖掘分类方法,建立 了一个基于此方法的使用流程和模型,理论上进行了验证,并用实例进行了说明。 该方法为实现w e b 环境下的数据挖掘,w e b 资源的充分利用以及使w e b 更个性化 的为用户服务提供了有力的工具。 关键词:w e b 使用挖掘语义网本体分类轮廓图 a b s t r a c t w i t ht h er a p i dg r o w t ho ft h ew e b ,t h ew e bi n f o r m a t i o nh a sb e c a m et h es o c i a l c o m m o n a l i t yi n f o r m a t i o nr e s o u r c e w i t h t h es c a l eo fw e bi n f o r m a t i o ng r o w s e x p l o s i v e l y , h o wt oa n a l y z e ,e x p l o r ea n dd i s c o v e ru s e f u lk n o w l e d g er a p i d l ya n d e f f i c i e n t l yf r o mt h e mb e c o m e s t h ef o c u so fr e s e a r c h e r s t h i st h e s i sr e p r e s e n t san e wc l a s s i f i c a t i o nm e t h o db a s e do nt h eo n t o l o g y ,a s f o l l o w sj st h em a i nw o r k si nt h i st h e s i s : d e s i g n i n gt h en e w c l a s s i f i c a t i o nm e t h o da f t e ra n a l y z i n gt h ew e bd a t am i n i n g a n ds e m a n t i co n t o l o g y t h i sm e t h o di sc o m p o s e do fu s e rs e s s i o nl e v e la n d d o m a i nl e v e l ,b a s e do nt h el e v e lo fu s e rs e s s i o n sd a t am i n i n g , t h i st h e s i s m a k et h em o s to ft h ep o t e n t i a ls e m a n t i co ft h ed o m a i no n t o l o g yc r e a t i n gt h e u s a g ep r o f i l eo fas e to fs t r u c t u r e dw e bo b j e c t s att h eu s e rs e s s i o nl e v e l ,d e s i g n i n ga n di m p l e m e n t i n gt h ef c ma l g o r i t h m , i m p r o v e dt h ed a t ai n p u t ;c l u s t e r i n gn u m b e r , w e i g h t i n ge x p o n e n ta n dc r e a t i n g t h eu s e rp r o f i l es h o wt h ed a t am i n i n gr e s u l t s att h ed o m a i nl e v e l ,i m p l e m e n t i n gt h eo b j e c t so fd o m a i no n t o l o g yi n s t a n c e a n dt h es e m a n t i co ft h ec l a s s i f i c a t i o nr e s u l tb a s e do nt h ew e b m i n i n gr e s u l t a n do n t o l o g ya p p l i c a t i o n t h ee x a m p l es h o w sh o wc r e a t i n gc o m b i n a t i o n f u n c t i o nf o rt h ec l a s sa t t r i b u t e ,i m p l e m e n t i n gt h ed o m a i nl e v e lm i n i n g ,s h o w s t h er e a s o nw h yt h e s eu s e r sa r eg r o u p e dt o g e t h e r a sa l l a p p l i c a t i o nf r a m e w o r k , c r e a t i n g a l li n s t a n c em o d e ls h o wt h e a p p l i c a t i o no ft h en e wc l a s s i f i c a t i o nm e t h o d a b o v ea l l ,t h i st h e s i si m p l e m e n t san e ww e bm i n i n gc l a s s i f i c a t i o nm e t h o dw h i c h b a s e do nt h eo n t o l o g y , s e t t i n gu pau s i n gm o d da n dv a l i d a t i n gi nt h e o r y , e x p l a i n i n g b yt h ee x a m p l e t h i sm e t h o dp r o v i d e sap o w e r f u lt o o lf o rt h ew e bd a t am i n i n g , t h e u s i n go fw e b r e s o u r c ea n dt h ew e b p e r s o n a l i z a t i o ns e r v i c e s k e yw o r d s :w e bu s a g em i n i n g ,s e m a n t i cw e b ,o n t o l o g y , c l a s s i f i c a t i o n , p r o f i l e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得墨鲞盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:2 顷签字日期:啊广年,月h 日 学位论文版权使用授权书 本学位论文作者完全了解鑫盗盘鲎有关保留、使用学位论文的规定。 特授权盘壅盘鲎可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:墨孑装 签字e t 期:坩年f 月w 日 导师签名:马乇 签字日期:缸加j 年,月啪扫 第一章绪论 1 1 课题背景与意义 第一章绪论 随着计算机广泛应用到人类活动的各个领域,以及各种信息技术的迅速发 展,人们已经走进了信息时代。数据库技术的不断发展及数据库管理系统的广泛 应用,使得数据库中存储的数据量急剧增大,尤其是i n t e r a c t 使大量信息得到迅 速产生,传播和共享。无论政府部门,科研机构或者各种商业企业,都积累了各 种形式的海量资料。 然而,如何得到这大量的,繁杂的数据背后隐藏的重要信息,发现其中存在 的关系和规则,根据现有的数据预测未来的发展趋势,以辅助决策的智能化,从 而带来各种巨大的信息价值,这些都不是传统数据库技术能做到的,因此数据挖 掘技术被提出。 从数据库中发现知识( k d d ) 一词首先出现在1 9 8 9 年举行的第十一届国际 联合人工智能学术会议上。到目前为止,由美国人工智能协会主办的k d d 会议 的规模已经由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方 法转向系统应用,注重多种发现策略和技术的集成,以及多学科之间的相互渗透。 并行计算、计算机网络和信息工程等其它领域的国际学会、学刊也把数据挖掘和 知识发现列为专题和专刊讨论,甚至到了脍炙人口的程度。 数据挖掘的任务需要利用聚类和分类作为基本分析手段,将大规模异种类别 的数据按属性相似划分为子集,有利于减小数据处理的规模,简化分析和建造模 型的复杂性。聚类分析和分类分析的应用研究还需要与具体的背景知识结合,并 不断探索其更广阔的应用领域。 计算机和网络技术的发展,为信息传播提供了技术支持,使得信息的发布与 访问不再受到时间和空间的限制,为用户提供了极大的方便。w e b 上的信息及用 户都在以接近指数的速度增长,w e b 已经成为人类社会的公共信息资源。 i n t e r n e t 是一个开放、分布的信息空间,其本身固有的特点已经明显地阻碍 了人们充分使用i n t e m e t 上的信息资源,这些特点为:( 1 ) i n t c m e t 上的数据是异 质,异构,动态,模糊的半结构化,非结构化或数据库信息,并且分布在全世界 的各个站点上;( 2 ) 数据和服务的类型以及数量每天都在大量增加,因而信息可 利用性和可靠性也在不断地变化,同时给数据存储带来极大困难:( 3 ) 由于信息 第章绪论 源的动态:以及潜在的有用信息的更新和保存问题,信息常常是模糊的,有时甚 至是错误的:( 4 ) 语义理解难度加大,造成基于内容的信息检索难以实现。 由于上述原因,在i n t e m e t 上进行的信息检索经常会出现“信息过载”,即网 上的信息是海量和无组织的,易发生“资源迷向”,即用户不知道如何更加有效 的利用资源等问题。因此如何迅速、有效地从大量信息中找到所需的信息,让 i n t e m e t 有效的为人类服务,已成为一个迫切需要解决的问题。 在信息检索时,用户不仅希望能够检索出所有感兴趣的信息,过滤掉不相关 的信息,同时也希望获得最有价值的信息,以便以最快的速度高效地解决问题。 当前检索信息的搜索引擎不能按照用户的兴趣或偏好提供给其个性化的信息,不 但检索出大量无关信息,而且浪费网络流量,消耗了用户的时间和精力,因此具 有信息实时性差和信息导航能力差等缺点,这就要求对搜索引擎进行内部改造或 引入新的检索机制。 对w e b 进行数据挖掘是解决上述问题的重要方法之一,w e b 挖掘是数据挖 掘技术在w e b 上的应用,可以帮助发现w e b 页面之间的全局和局部的结构和 w e b 页面的相关信息。同其它数据挖掘应用一样,w e b 挖掘对于给定结构的数据 可以进行很好处理,但是w e b 挖掘还能应用到半结构化或非结构化的数据,这 意味着w e b 挖掘对于将人类理解的内容转换为机器理解的语义有着重要作用。 w e b 挖掘一般分为三类:w e b 内容挖掘、w e b 结构挖掘和w e b 使用挖掘。 w e b 使用挖掘的目的是捕获和模拟用户同网站的交互行为模式和轮廓图,发 现的模式被表现为页面的集合,这些页面经常被有共同要求或者兴趣的用户访 问,这样的模式能被用来更好的理解访问者的行为特性或者用户的分类,提高站 点的组织和结构,通过提供动态的推荐为用户创建一个个人化的经历。 当前w e b 上的数据挖掘存在的问题有: 搜索是解决网络信息无序和混乱的一个基本方法,同时也是一个关键技 术,是w e b 数据挖掘的一个重要应用。尽管搜索引擎的不断发展在一定 程度上解决了人们的信息要求,但远没有达到令用户满意的程度。 串通过w e b 使用挖掘发现的使用模式在用户会话层次上捕获页面到页面, 用户到用户的关系和相似性是有效的。由于没有受益于深层次的领域知 识,这样的模式对于为什么这样的页面或者用户聚集在一起提供了很少的 原因,这可能导致基于网络使用挖掘或者其它基于网络的系统一些严重缺 点,比如新页面加入的问题。 基于关键词的内容过滤方法通过页面的内容相似性,被应用来加强联合过 滤系统的效率。然而,这些方法不能在一个更深的语义层上,在结构化对 象不同类型的属性的基础上捕获更复杂的关系。 第一章绪论 综上所述,我们认为任已有的w e b 数据挖掘疗法的基础上,结合领域内容 和本体语义,设计并实现一种基于本体的w 曲数据挖掘方法,对于数掘挖掘理 论以及数据挖掘在w e b 上的应用,w e b 资源的有效利用都具有重要的理论和现 实意义。在本课题中,我们试图建立一个流程或者框架通过利用领域本体产生表 示和包含一个w e b 结构化对象集合的使用轮廓图。这样,我们可以通过使用基 于本体的语义力量更加充分和有效的利用w e b 资源,比如w e b 信息检索和w e b 的个性化推荐。 1 2 课题内容 结合语义网和网络数据挖掘这两个快速发展的领域并非一件轻松的事,两个 领域本身尤其是语义网络都有很多问题有待解决。出于时间原因,本课题仅仅将 数据挖掘方法中的分类,聚类方法与语义网络中的本体相结合,把其它因素和某 些细节问题进行搁置,因此本课题主要进行w e b 挖掘中基于本体的分类方法的 研究。本课题的研究内容可以综述为以下几点: 通过深入分析w e b 挖掘和语义网本体的内容,对课题进行整体设计,提 出会话层次和领域层次的两层分类方法。 设计并实现模糊c 一均值( f c m ) 算法,对算法进行改进,进行算法输入 的处理,算法聚类数c 的确定,算法权指数m 的选择,算法流程的处理 以及算法的整体优化等。创建会话层次的使用轮廓图( u s a g ep r o f i l e ) ,表示 会话层次的数据挖掘效果。 研究本体在课题中的应用,结合w e b 使用挖掘过程的结果和领域本体实 现分类结果语义化,实现领域本体实例的对象化。使用实例说明如何为不 同类型的对象属性创建联合函数,实现领域层次数据挖掘,显示用户访问 相同页面的原因。创建领域层次的聚合轮廓图来表示这个分类集合表示的 用户的共同兴趣。 作为应用的参考框架,建立一个实例模型说明本文提出的方法的应用。 综上所述,本文结合数据挖掘和语义网建立了一个新型的基于本体的w e b 挖掘分类方法,建立了一个基于此方法的使用流程和模型,理论上进行了验证, 并用实例进行了说明。我们相信该方法为实现w e b 环境下的数据挖掘,w e b 资 源的更充分利用以及更好的为w e b 用户服务提供了有力的工具。 第一章绪论 1 3 本文结构 本文共分五章,内容概要如下: 第一章主要介绍课题的背景、内容和研究意义。 第二章对课题研究中研读的w e b 数据挖掘和语义网相关论文做一综述。数 据挖掘和语义网作为快速发展的领域,各种文章很多,本章简单说明了有关w e b 数据挖掘的内容,语义网的相关特性,本体的概念以及如何从w e b 中得到本体 的相关内容。 第三章详细阐述了w e b 挖掘中基于本体的分类方法的研究。首先通过详细 分析当前的w e b 挖掘算法和本体的相关内容提出了课题的整体设计,然后按照 会话层次和领域层次分别阐述相应层次的设计,最后给出了两个实例从不同方面 说明这种分类方法的实现流程。 第四章为本文提出的分类方法提出了一个应用模型阐述了相应的信息检索 和个性化推荐这两方面的详细设计。 第五章是全文工作的总结和对未来研究工作的展望。 第章文献综述 2 1 数据挖掘 第二章文献综述 数据挖掘( d m :d a t am i n i n g ) ,也称为数据库中的知识发现k d d ( k n o w l e d g e d i s c o v e l i nd a t a b a s e ) 1 ,是近几年随着数据库和人工智能发展起来的- - f 7 新兴的 数据库技术,它汇聚了数据库,人工智能,机器学习,统计学等不同学科和领域 的知识。它是从大量数据中发现并提取隐藏在其中的可信的,新颖的,有效的并 能被人理解的模式的高级处理过程。数据挖掘能挖掘出隐藏在数据背后的知识, 能提供有力的决策工具。 数据挖掘具体的说是在数据库中,对数据进行一定的处理,从大量的,不完 全的,有噪声的,模糊的,随机的数据中提取隐含的,事先未知的,但又是潜在 有用的信息和知识的过程。它包括从数据库中对数据的选取和采样,清理和预处 理,转换和必要的简化,从数据挖掘产生模式,直到对所得到的模式进行理解和 评估等过程。 数据挖掘技术可以分为比较成熟的统计类型挖掘技术、快速发展的知识挖掘 技术和正处于萌芽状态的其它数据挖掘技术。 统计分析技术中使用的数据挖掘模型有线性分析和非线性分析、回归分析、 逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近邻算法和聚类分 析算法等技术。利用这些技术可以检查那些异常形式的数据,然后,利用各种统 计模型和数学模型解释这些数据,解释隐藏在这些数据背后的市场规律和商业机 会。在现有的数据挖掘技术中,统计型数据挖掘工具是数据挖掘技术中最成熟的 一种,已经在数据挖掘中得到广泛的应用。 知识发现类数据挖掘技术是从数据仓库的大量数据中筛选信息,寻找市场可 能出现的运营模式,发掘人们所不知道的事实。知识发现类挖掘技术包含人工神 经网络、决策树,遗传算法、规则发现和关联顺序等。 人工神经网络是模拟人脑神经元的结构,以m p 模型和h c b b 学习规则为基 础,建立三大类多种神经网络模型。前馈式网络以感知、反向传播模型、函数性 网络为代表,可用于预测和模式识别等方面;反馈式网络以h o p f i d d 的离散模型 和连续模型为代表,分别用于联想记忆和优化计算;自组织网络以a r t 模型、 k o h o l o n 模型为代表,用于聚类。 第一带文献综述 决策树是个类似_ f 二流程图的树结构,其 f - 每个内部节点表示在某个属性上 的测试,每个分支代表个测试输出,而每个树叶节点代表类或类分钿。由于每 个决策或事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支称 为决策树。 遗传算法是近几年发展起来的一种崭新的全局最优算法,借用了遗传学的观 点,通过自然选择、遗传、变异等作用机制,实现各个个体适应性的提高。 关联规则是数据挖掘的一种主要形式,即在大型数据库中“淘金”一一人们 感兴趣的规则。根据关联规则中所处理的值类型,分为布尔关联规则和量化关联 规则;根据关联规则涉及不同的抽象层次,可以分成多层关联规则和单层关联规 则。关联规则的评价标准可用正确率、覆盖率和兴趣度来衡量。 其它数据挖掘技术中包含文本挖掘、w e b 数据挖掘、分类系统、空间数据挖 掘和分布式数据挖掘等。文本数据挖掘和w e b 数据挖掘是近几年新发展起来的 崭新数据挖掘技术。前者主要为了满足对非结构化信息的挖掘的需要,后者则是 针对日益发展的因特网技术所带来的大批量网络信息的挖掘。 分类系统也是一种知识发现技术,但它的实现可以采用各种知识发现类技术 的支持,而且在数据挖掘中具有特殊重要的作用。空间数据挖掘则是基于地理信 息系统的数据挖掘技术。地理信息系统( g i s ) 的应用领域现已扩展到航天、电 信、电力、交通运输、商业、市政基础设旌管理、公共卫生及安全、油气等其它 矿产资源的勘测等诸多领域。在这些领域中的数据挖掘技术可用于地图、预处理 后的遥感数据、医学图像数据等模式的提取。空间数据挖掘方法目前有空间数据 分类、空间数据关联分析和空间趋势分析等。 人们越来越关注如何开发和利用w e b 上的数据资源,开发了各种搜索引擎。 但是,基于关键字的搜索引擎目前存在着许多缺陷:其覆盖面有限、误差率和漏 查率高、检索速度也不理想。目前功能最完善的搜索引擎也只能找到w e b 网址 的1 3 网页,而且无论怎么选择关键词,都会返回大量并不需要的结果。同时, 由于许多与话题有关的文档并不包含关键词,所以搜索引擎不能找出它们。这表 明目前w e b 搜索引擎对w e b 资源的查找还存在缺陷,w e b 挖掘( w e bm i n i n g ) 是解决上述问题的一个途径。 w e b 数据挖掘( w e bd a t am i n i n g ) 【1 7 】,简称为w e b 挖掘,是数据挖掘技 术在w e b 环境下的应用,是从数据挖掘发展过来的集w e b 技术,计算机技术, 数据挖掘,信息科学的多个领域的一项技术。w e b 挖掘是指从大量的w e b 文档 集合中发现蕴含的,未知的,有潜在应用价值的,非平凡的模式。它所处理的对 象包括:服务器日志数据( l o g s ) ,在线业务数据,w e b 页面中的文本,w e b 上 的多媒体数据,w e b 页面超链接( u r l s ) ,用户注册等信息。通过对这些信息的 第一阜克献综述 挖掘,可以得到仅通过文字检索所不能得到的信息。 w e b 挖掘作为数据挖掘的一个较新的主题,是一个新兴的研究领域,现状为: 国内外的研究重心大多集中在l o g 挖掘1 1 8 1 ;通过繁杂的方法将数据数据库化或 仓库存储,从而将w e bm i n i n g 转化为数据库的知识发现;所有的文档全部被处 理成平面节点,丧失了数据信息,结构信息和语义信息;基于内容的检索,借助 于自然语言理解的方法理解语义,很难准确理解文档语义的初衷,同时文档局部 含义无法体现。 以往基于搜索引擎以及对其结果进行二次过滤的方法虽然在一定程度上满 足了使用者的需求,但如何消除网站与使用者习惯或者兴趣之间的差别却没有更 好的方法。为了更好的满足网站个性化访问的要求,必须做进一步基于网站自身 的挖掘 3 9 ,4 0 1 。 2 2 语义网 目前大多数页面信息的表现方式为自然语言、图片、声音等,这些内容是设 计给人阅读的,而不是让计算机程序按其意义进行操作的,不便于机器自动处理。 计算机能熟练的解析网页的版面,知道哪里是标题,哪里有与其它页面的链接。 但是,一般来说,计算机没有可靠的方法来处理语义,比如能告诉我们:这是谁 的页面,它能够连接到某人的简历。 毫无疑问w e b 拥有一个巨大的信息资源,它的出现对于人们获取信息的方 式有了一个巨大的改变,人们已经非常习惯从互联网中获取自己需要的信息,而 如何有效的获取信息,如何将互联网本身作为一个良好的交互工具却一宜没有得 到解决,语义网的目的就在于从根本上解决这个问题。 t i mb e m e r s - l e e 提出的语义网( s e m a n t i c w e b ) 【5 】的概念代表了一种全新的 w w w 框架,在该框架下w e b 中提供的内容不仅被人浏览,阅读和获取,同时 更重要的是这些信息可以被机器直接或者间接的自动处理和解释。要实现语义 w e b ,使机器能够处理信息,首先必须建立更高层次的互操作性标准,这些标准 的共同目的在于表示网络甚至网络以外的知识,属于知识表示的范畴。 语义网【2 1 ,2 2 并非独立的另一个w e b ,而是现在的w e b 的一个延伸,在其 中,信息含义定义得更好、更利于计算机等使用者之间的协同合作。将语义网融 入现有w e b 的努力,业已开始。不久的将来,当计算机能够更有效地处理和“理 解”现在它仅仅进行显示的数据时,我们将迎来很多重要的新功能,例如质量更 高、速度更快的搜索引擎及软件工具。 正如刚才所说,语义网是当前w e b 的一个扩展,它利用我们现有的语义框架对 第一章文献综述 当前w e b 进行语义说明,对现有的资源文档( h i m 等等) 进行语义标注,使之县有 定的含义,例如网页的作者是谁等等。 h 时,这种语义说明具有: 良好的结构基于x m l 详细的描述基于r d f 严谨的事实约束基于o w l 形式化推理基于描述逻辑d l 语义网层次结构图为: 2 3 本体概念 图2 - 1 语义网层次结构图 本体( o n t o l o g y ) f 2 7 ,2 8 最早是一个哲学上的概念,从哲学的范畴来说,本 体是客观存在的一个系统的解释或说明,关心的是客观显示的抽象本质。近年来, 许多计算机领域的专家和学者利用了这个概念。在人工智能界,最早给出本体定 义的是n e c h e s 1 5 等人,他们将本体定义为“给出构成相关领域词汇的基本术语 和关系,以及利用这些术语和关系构成的规定这些词汇谓语的规则的定义”。 许多学科和研究领域都在使用“本体”这个术语,但存在不同的定义。1 9 9 8 年这一领域的第一个主题会议“信息系统中形式本体论国际会议”( i c f o i s l 9 9 8 ) 召开,同时伴随着研究成果数量和质量的增加,标志着这一领域的研究日趋走向 成熟。 为了澄清在知识工程领域本体的概念,s t u d e r 2 1 ,g u a r i n o 和g i u a r e t t a 3 针 对流行的几种本体概念进行了深入的分析,给出了目前基本上得到了灿领域认 同的概念界定,即:“本体是一个概念化的某些方面的显示说明或表示”。 第一章文献综述 要明确上述概念界定的定义,必须明确“概念化”的定义。概念化从广义上 讲是指世界观,是指对某个领域的思维方法。它可以被看作足“限制试图某一部 分结果的非形式化规则的集合”【4 】,它也可以被典型的理解并表示为“概念的 集合( 例如,视图、属性、过程) ,以及它们的定义和相五问的联系”。概念可以 是隐式的,例如,存在于人的头脑中,或嵌入在软件中。 本体论成为知识获取和表示,规划,进程管理,数据库框架集成,自然语言 处理和企业模拟等研究领域的核心,已经有一些本体建立,如c y c ,i r s t , w o r d n e t ,c n r 等。 本体的确切含义是什么,在知识表示领域有很大争议,用经典本体论,表示 那些本体只包含概念;而混合本体论,则表示那些本体结合了本体关系和事件。 上面对本体的定义并不是最终的标准定义,但是符合绝大多数普通的标准用 法,对知识工程更具有指导意义,如上的定义明确的要求本体是显式的,以区别 于概念化,除此之外,该定义对本体没有更多的限制。 在知识工程领域,本体总是以某种方式与特定的表示共享知识的知识库设计 相关联。本体理论与任意逻辑理论( 或知识库) 不同之处在于理论的语义部分, 因为本体理论所有的公理在基础概念化的任何领域中都必须是成立的。实际上, 如果本体和知识库使用相同的语言定义,它们之间并没有清晰的界限,本体库的 实现可以借鉴普通知识库的方法。 在知识工程领域,可以通过定义描述性的术语,来描述应用的本体,本体可 以采用多种不同的表示形式,但是一般都包含一个词汇表和词汇意义的某些说 明。这包括概念的定义和概念相互之间的关系,以及概念和概念之间满足的公理, 它们共同的在领域上施加一个结构,限制对术语可能的解释。 在具体的应用中,如果系统不需要太强的推理能力时,本体可以用概念图的 形式表示并存储,此时数据可以保存在一般的关系数据库中,采用图的匹配技术 来完成信息检索。如果系统要求比较强的推理能力时,本体一般要用一种描述语 言进行表示,此时数据保存在数据库中,采用描述语言的逻辑推理能力来完成信 息检索 3 8 1 。 简单的说,本体就是关于某个领域内人们公认的一个概念集,其中的概念含 有公认的语义,这些语义通过概念之间的各种联系来体现。本体包含两个基本的 要素:概念和概念之间的关系。利用形式化理论,可以如下定义一个本体o n t o ( o ,r ) : ( 1 ) o 是o n t o 上的概念集: ( 2 ) r 是。中概念之间关系的集合。 概念之间最基本的关系有四种:p a r t o f ,k i n d o f ,i n s t a n c e o f 和a t t r i b u t e - o f 。 第草文献综述 d a n o f 表达概念之问部分和整体的关系:k i n d o f 表达概念之间的继承关系,类 似于面向对象方法中子类和父类之削的关系;i n s t a n c e o f 表达概念的实例和概念 之间的关系,类似于面向对象中的类和对象之间的关系;a t t r i b u t e o f 表达某个概 念是另外一个概念的属性,例如概念“作者”可以作为概念“小说”的一个属性。 在实际的应用中概念之间的关系并不局限于上面列出的四种基本关系,可以根据 特定领域的具体情况定义相应的关系,以满足应用的需要。 2 4 从w e b 中得到本体 语义网对正式的本体非常依赖,这些本体构建了潜在的数据来完成机器之问 的理解和传输,因此,语义网的成功很大程度上依赖于本体的发展。这就要求快 速和方便的本体引擎能够从w e b 和语义网中获得相关的本体,从而避免知识获 取的瓶颈。 本体的学习【2 5 】极大的推动了本体引擎对本体的构建,文献【6 】提出的本体学 习方法包括了一些补充的规则,这些规则对于不同类型的非结构化,半结构化和 结构化的数据进行处理,从而支持半自动化的,相互合作的不同引擎过程。这种 不同的学习框架通过本体的输入、提取、修剪、精练和评价,为本体引擎的本体 模型提供了大量的互相配合的工具。 文献【6 】中给出了一些在本体学习周期中可以仿效的技术,作者将其在本体 学习环境“t e x t t o o n t o ”中实现,从而可以从文本,字典或者其它本体中学习 到本体,以及整体框架中其它一些技术。 实际的实现中,无论从已经存在网站还是从其它类型的数据中得到本体,都 是非常困难的,至今没有很好的解决方法,通常使用手工规则或者半自动化的有 指导的学习算法来实现。因此本文中对于如何从页面和网站中得到本体没有进行 深入讨论,这不是本文的研究重点,我们假设或者使用手工规则,或者通过有指 导的学习算法,我们能够从原始的页面层次的使用图抽取出页面代表的不同对象 实例,从这些页面抽取出本体类的实例,可以见参考文献【7 ,2 4 】,从r d f 描述中 得到本体可见参考文献 2 3 】,从知识库中获得本体可见参考文献 2 6 】。 旃二章基j :本体的分类,j | 去殴计 第三章基于本体的分类方法设计 3 1 课题的整体设计 3 1 1w e b 挖掘算法 w e b 挖掘的算法有很多种,根据不同的标准,这些算法又可以归为不同的种 类。从算法的输入来分,数据挖掘算法可以分为内容挖掘,结构挖掘和使用挖掘 三种。 w e b 内容挖掘是指对w e b 上大量文档集合的内容进行总结,分类,聚类, 关联分析以及利用w e b 文档进行趋势预测等,是从w e b 文档内容或其描述中抽 取知识的过程。 w e b 内容挖掘一般采用向量空间模型( v e c t o rs p a c em o d e l ,v s m 3 0 ,3 1 】) , 将文本文档看成由一组词条圆,r 2 ,) 组成,对于每一个词条互,都根据其在 文档中的重要程度赋予相应韵权重慨,每一篇文档都转化为一个n 维向量,从 而文档信息的匹配问题转化为向量空间中的向量匹配问题来处理。文档之间相似 度的度量可以通过其对应向量之间的夹角来度量,夹角越小说明相似度越高 【2 9 a w e b 结构挖掘主要是对w e b 文档之间的结构和链接关系进行挖掘,这种结 构挖掘尤其应用于w e b 文档结构。在w e b 文档空间里,有用的知识不仅包含在 w e b 页面的内容之中,而且也包含在页面的结构之中。例如,当一个页面经常被 引用或一个页面引用大量其它页面,那么这个页面一定非常重要,发现的这种知 识可以被用来改进搜索引擎。经常使用的方法有:p a g e r a n k ,c l e v e r 等。 w e b 使用挖掘主要是将数据挖掘技术应用于w e b 站点的用户访问日志以分 析w e b 站点的使用,通过w e b 站点的使用挖掘,对用户的访问内容,停留时问 和频度进行分析,可以得到关于用户访问行为和方式的普遍知识,用以改进w e b 站点服务设计。更熏要的是,通过对这些用户特征的理解和分析,可以开展有针 对性的个性化服务。 根据两种不同的前提,聚类方法还可分为系统聚类和动态聚类两种。系统聚 类一次形成分类结果,因此对分类方法提出的要求较高,相应的计算量大,而动 态聚类先将样本进行一次粗略的分类,然后根据某种最优原则进行反复不断的修 改,直至分类合理为止。为了实现一个能找到一个效率高且通用性强的聚类方法, 第一;基j 本体的分类方法设i 长期以来人们从不问角度提出了近百种聚类方法。典犁的有k m e a n s 方法 3 2 】, f c m 方法 3 3 1 ,k m e d o i d s 方法,c l a r a n s 方法,b i r c h 方法,d b s c a n 方 法和c u r e 方法等。 现在流行的聚类算法一般分为分割和分层两种。分割聚类算法通过优化一个 评价函数把数据集分割为k 个部分,它需要k 作为输入参数。其中得到广泛应 用的是基于距离的分割聚类算法,典型的采用两阶段反复循环过程:( 1 ) 指定聚 类,即指定对象到某一个聚类,使得它与这个聚类中心的距离比它与其它聚类中 心的距离要近。( 2 ) 修改聚类中心,算法结束条件是不再有对象被重新分配。典 型的分割聚类算法有k m e a n s 算法,k - m e d o i d s ,c i a r a n s 等。分层聚类是由 不同层次的分割聚类组成,层次之间的分割具有嵌套的关系,它不需要k 作为 输入参数,这是优于分割聚类算法的一个明显的优点,但其缺点是终止条件必须 被具体指定。 3 1 2 课题算法的选择和整体设计 根据项目整体的要求以及课题算法的需要,通过比较各种算法,首先确定算 法的基本类型,这需要比较算法的各个方面,包括算法的输入以及算法的精度, 效率,根据实际情况进行选择。 从算法输入的角度来选择,需要确定是使用内容挖掘,结构挖掘还是使用挖 掘。内容挖掘对于w e b 文档来说,要把每一个w e b 文档转化为一个n 维向量, 这涉及到了自然语言处理。自然语言处理虽然经过了国内外众多学者的多年努力 研究,但是仍然进展缓慢,分词和对文档语义的理解准确度还不高,这样形成的 文档特征向量代表相应文档的能力不确定性很高。另外,文档转化为向量维数n 会很高,即使经过各种处理维数n 少则几千多则上万,如此高维的向量之间的 计算不仅速度很慢而且精度也不高。 w e b 结构的数据挖掘是对w e b 页面之间的结构进行挖掘,在整个w e b 空间 里,有用的知识不仅包含在w e b 页面的内容之中,而且也包含在页面的结构之 中,但是这种挖掘要求页面之间的链接要足够多,对于本课题的项目来说,这种 要求很难得到较好的满足,因此结构挖掘算法在项目中只可以作为辅助算法。 而w e b 使用挖掘主要是发现用户在使用w e b 时的浏览行为,通过从用户的 访问日志抽取感兴趣的模式,分析这些日志数据可以帮助理解用户的行为,从而 改进站点的结构或为用户提供个性化的服务。用户的使用自然反映了用户的意 图,带有语义,符合项目的要求,同时这种算法输入简单易于处理,因此选用。 对于算法的实现采用了分割类算法,这种算法的精度虽然比分层类算法略 低,但是速度却比分层类算法高出了一个数量级。 第串摹j 谆体的分类方法设讨 根赫;课题的具体要求,没计的基于本体的分类方法由会话层次和领域层次两 层构成。会话层次通过对用户会话的聚类,得到会话的分类,经过转换处理町以 得到页面的分类:领域层次引入本体的概念将本体的语义和会话层次分类聚类结 果结合,得到领域层次有语义的分类结果。 聚类分析就是对事务间的相似性进行区分和分类的数学方法。传统的聚类分 析如k - m e a n s 算法是一种硬划分,这种划分的界限是明确的。然而,实际上大多 数对象并没有严格的属性,它们的形态和类属性存在着中介性,适合于软划分。 由于模糊聚类分析具有描述样本属性中介性的优点,能更客观的反映现实世界, 从而成为聚类分析研究的主流。已经提出的模糊聚类方法主要有:基于相似性关 系的模糊关系法,基于模糊等价关系的传递闭包法,基于模糊图论的最大树法和 基于目标函数法等。 基于目标函数的聚类方法由于具有设计简单,适用范围广,且可以转化为优 化问题来借助经典数学的非线性规划理论求解等优点,成为聚类研究的热点,其 中,受到广泛关注的是模糊c 一均值( f u z z yc - m e a n s ,f c m ) 算法。 模糊c 一均值( 简称f c m ) 算法是最重要也是最流行的模糊聚类算法之一。 1 9 7 3 年d u n n 首先提出了f c m 算法的一个特例( 权指数m = 2 的情形) ,同一年 b e z d e k 将d u n n 的算法推广到m l 的情形,之后又出现了许多相关的算法和各 种间接的推广。f c m 算法已经在聚类,特征分析以及分类器设计等实际问题中 得到应用,例如,地质形态分析,医疗诊断,图像分析以及自动的目标识别等, 这些成功的应用表明f c m 算法在理论和实践中已取得了很大的成功。 因此第一层会话层次分类采用f c m 算法,通过数据的预处理使用用户会话 作为输入。f c m 算法实质上是初始聚类中心到聚类结果的映射,当初值确定后, 聚类的结果就被唯一的确定了,因此,初值的确定非常重要。确定初值权指数m 和聚类指数c ,对f c m 算法进行改进,输出用户会话聚类。在用户会话聚类和 用户会话聚类中心的基础上,经过转换得到页面的分类,同时得到页面分类的中 心。 通过w e b 使用挖掘得到的使用模式捕获的是用户会话层次页面与页面,用 户与用户之间的关系和相似性,由于没有深层的领域知识,这样的模式并不能清 楚的说明为什么这样的页面或者这样的用户会聚集在一起。这可能导致一些重要 的缺点,比如,如果一个新的页面加入了这个w e b 站点,由于没有足够的访问 数据,因此这个页面不属于任何发现的模式,不能被系统推荐。 为了在深层的语义层次捕获更复杂的关系,引入了本体的概念。本体是共享 概念模型的形式化规范说明,通过概念之间的关系来描述概念的语义,是一种有 效表现概念层次结构和语义的模型。本体是一种概念体系,它通常是与领域相关 第二章基j 。本体的分类力法设计 的。本体包括两个基本的要素:概念和概念之叫的关系,如2 3 节所述。 因此,第一- 层领域层次的分类方法,以第一层会话层次分类算法的结果,司 时结合通过页面处理得到的应用本体实例库和w e b 对象作为算法的输入,根据 相应领域内的特性,确定算法的具体形式,得到应用本体的分类和应用本体分类 的中心。 分类方法的层次结构可用下图表示: 3 2 会话层次分类 3 2 1 f c m 算法 图3 - 1 基于本体的分类方法层次图 f c m 算法是一种能自动对数据样本进行分类的方法。它通过优化模糊目标 函数得到每个样本点对类中心的隶属度,从而决定样本点的归属。f c m 可以应 用于多种领域,如医学诊断,图像分割【3 4 】,目标识别等。 第二章壁j 本体的分类方7 j 、砹计 f c m 算法是一种划分算法,目标是使各个分楚中的样木到聚类中心的加权 距离平方和达到最小。f c m 算法具体描述如f : 假设: x ,工,i 一,x 。 尺是s 维向量空问的一个特征向量集,根据某种 相似性度量,浚集合被聚合成c 个子集:x ,x :,x 。,( 2ecs ,1 ) ,这c 个子集 组成特征向量集x 的一个模糊划分:用u 。表示特征向量也属于子集z ,的隶属 度,用矩阵r “表示所有的实c h 阶矩阵集合,以f 为条件公式: h * 【0 ,1 】 善,“* “ 丢。“m 刈 1sf c 1sksn 1sks ,l ( 3 1 ) 1efsc 将矩阵r “中满足以上条件的所有“= 阻。】的集合记作m 。,即: m ,埘2 扣曩【“* 】 v i ,v 七,1 “* 苫o ,善“* 51 ,善* ,o ;用矩阵r “表示 所有的实c s 阶矩阵集合,令v 一( v 。,v 2 ,v 。) 7e r 。是聚类中心,其中v ;e r 5 是 类i ( 1si sc ) 的中心,则f c m 的目标函数可表示为j 。q ,v ) :( m hx r “)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论