(模式识别与智能系统专业论文)数据挖掘方法在智能决策支持系统中的应用研究.pdf_第1页
(模式识别与智能系统专业论文)数据挖掘方法在智能决策支持系统中的应用研究.pdf_第2页
(模式识别与智能系统专业论文)数据挖掘方法在智能决策支持系统中的应用研究.pdf_第3页
(模式识别与智能系统专业论文)数据挖掘方法在智能决策支持系统中的应用研究.pdf_第4页
(模式识别与智能系统专业论文)数据挖掘方法在智能决策支持系统中的应用研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中南大学硕士论文数据挖掘方法在智能决策支持系统中的应用研究 摘要 智能决策支持系统是将人工智能技术引入决策支持系统而形成的一 种新型信息系统。人工智能技术中的基于知识的推理与机器学习技术是决 策支持系统具有智能的关键,并且也是智能决策支持系统成败的关键。数 据挖掘处于智能决策支持系统的影响空间中,负责处理逻辑性质的智能决 策支持,因此数据挖掘在整个智能决策支持系统中处于最重要的地位。 由于影响数据挖掘在实际应用中的效果的优劣的其最根本直接原因在 于数据挖掘算法的效率低劣甚至错误,因此本文在着重认真分析了常规的 数据挖掘方法的优缺点之后,提出了基于不确定性知识的主观贝叶斯网络 算法,并在一个知识库系统中实现了上述主观贝叶斯网络算法该算法能 从不确定性的知识中作出快速、稳定、高精度的推理同时,从实际应用角 度出发,真正地做到既定性又定量,获取关联规则,也即关联知识提出了基 于网格的退火遗传算法( g s a g ) ,该算法的基本思想是利用网格在种群规模 一定的情况下,能够保证初始群体的遍历性与多样性,它主要用于初始群 体的产生,基于网格的退火遗传算法最大特点:模拟退火同时作用于选择算 子、交叉算予以及变异算子从而在整体上增强对遗传算法的自适应性,更 好地满足了优胜劣汰的自然进化法则在上述( g s a g ) 算法的基础上,提出了 基于g s a g 进化神经网络初始权矩阵算法,本文在实例应用中证实了该算法 不仅具有很好的全局寻优能力,同时也具有良好的模式分类能力。 最后,本人完成了基于数据挖掘方法的智能决策支持系统的模型自动 选择系统,并在该系统中应用了上述三种算法,进一步验证了算法的有效 性与可行性。 关键词:智能决策;数据挖掘;贝叶斯网络;模拟退火;遗传算法:神 经网络 第1 页 曼! 望坚! ! ! ! ! ! ! 垦! ! ! 苎! ! ! ! 垒p ! ! ! 苎! ! 里! ! 里苎! 坚! ! ! ! 曼! 翌! ! ! 璺! ! 璺! 坐里! ! ! ! ! ! ! ! ! ! 坚! :! 竺竺 a b s t r a c t i n t e l l 适e n td e c i s i o ns u p p o r ts y s t e mi s ak i n do fn e w t y p ei n f o n n a t i o ns y s t e m , w l i c hh a sb e e nb o mw i 廿1m ea r t m c i a li n t e l l i g e n c ea n d 仃a d “i o n a ld e c i s i o ns u p p o r t s y s t e m d a t am i n i n gi su pt ol o 百cr e a s o m n g ,i ti sl o c a t e di ni n f l u e n c es p a c eo ft 1 1 e i n t e l l i g e n td e c i s i o ns u p p o r ts y s t e m ,s od a t am i n i n gi st h em o s ti m p o r t a n ts t a t u si nt h e i n t e i l i g e n td e c i s i o ns u p p o r ts y s t e m i nt 1 1 ep r a c t i c a la p p l i c a t i o n ,b e c a u s ed a t am i n i n ge c ti sm o s n yd e c i d e db yd a t a m i l l i n ga l g o r i t l l m s oa u t h o rg i v em r e ek i i l d so fi m p m v e dd a t am i n i n ga l g o r i t l l m t h e f i r s t ,s u b j e c t i v eb a y e s i a n n e t w o r k a l g o r i m m b a s e d0 nn o r 卜d e t e r 刀1 i n j s t i c k n o w l e d g e :b a y e s i a l l n e m o r ki sa 砝n do fd i r e c t e d a c y c l i cg r a p h t o e x p i a i n p r o b a b i l i t y r e l a t i o n s u b j e c t i v eb a y e s i a n n e t w o r k a l g o r i t l l m s b a s e do n n o p d e t e n i i l i s t i ck n o w l e d g ea r ep r c s e m e dm t h i s p a p e r ,a 1 1 d 1 i sa l g o r i t l l i n s h a v e b e e nr e a l i z e di nt h es y s t e mo fr e p o s i t o r y m i sa l g r o r i 血m sc a ng e tr a p i ds t c a d ya 王1 d p r c c i s er c 髂o n i n 宣f 如mn o n d e t e m l i i l i s t i ck n o w l e d g e t h es e c o n d ,g e n e t i ca n d s i m u l a t e da n n e a l i n ga l g o r i t h mb a s e do ng r i d ( g s g a ) :i no r d e rt oi n c r e a t et 1 1 e p o d u l a r i t ya n dd i v e r s i t yo fi 1 1 d i v i d u a l s ,也eg s g ac a np r o d u c e sd _ 1 r o m o s o m e sw i t h 窖五d ,t h es i m u l a t e da 皿e a l i n ga l g o r i t h ma c to nt 1 1 ec h o i c eo p e r a t o r 、t l l ec r o s s o v e r o p e r a t o r 、t h em u t a t i o no p e r a t o ra t 吐圮s a m et i m e ,s ow m c hc a nb o o s tu p s e l 士- a d a d t a b i l i 计o f 也es i m p l eg e n e t i ca l g o r i 让n t h e l i r d ,e v o l m i o ni n i t i a l i z a t i o n c o n r l c c t i o nw e i 对i t so f t l l eb pi l e u r a ln e t w o r kb a s e do nt l l eg s g a :也ea l g o 打m mh a s e x c e l l e mc a p a b i l i t yo fp :l n e m - c l a s s i f i c a t i o n f i n a l l v a u t b o rh a sr c a l i z e dt h ea u t o m a t i cm o d e lc h o i c ei i lt h ei m e l l i g e n td e c i s i o n s u p p o r ts y s t e mb a s e do nd a _ t am i l l i n ga l g o r i 血ma n dv 址i d a t e dt h e 丘o m m e n t i o n a l g o r i t l l m s k e yw o r d s :i n t e l l i g e n td e c i s i o n ;d 咖枷n g ;b a y e s i a nn 酿0 r k ;s i m m a t e d 黝e a l i n 晷g e n e t i ca i g d r i 1 m ;n e u r a ln e “础 第1 i 页 中南大学硕士沦丈数据挖掘方法在智能决策支持系统中的应用研究 第一章智能决策支持系统及数据挖掘的重要性 1 1 决策支持系统 1 1 1 决策支持系统( d s s ) 的定义 决策的本质是决策者根据所掌握的信息为决策对象选择行为的思维过程。该决策提供的 信息称为决策支持信息。由计算科学和决策科学相结合而形成的计算机决策支持系统( 以下简 称d s s ) ,把计算机在数据处理中的应用推向一个支持决策的新阶段。这种新技术越来越受人 们的重视,并成为国内外计算机应用领域内的热门研究课题【i 叫。 决策支持系统( d s s ) 由数据库、模型库、方法库、人机交互4 个部件组成,它是以日常 业务处理系统的数据为基础,利用数学的或智能的方法,对数据进行分析、综合,预测未 来业务的变化趋势,辅助各级决策者解决半结构化决策问题的人机交互系统。 1 i 2 决策支持系统的任务及功能 决策支持系统的主要任务为【1 1 : 分析和识别问题: 描述和表达决策问题以及决策知识: 形成候选的决策方案: 构造决策问题的求解模型; 建立评价决策问题的各种准则; 多方案、多目标、多准则情况下的比较和优化; 综合分析。 d s s 所具有的功能如下 】: 整理并及时提供本系统与本决策有关的各种数据。 尽可能的收集、存储并及时提供系统之外的与本决策问题有关的数据。 及时收集提供有关各项活动的反馈信息,包括系统内与系统有关的数据。 能够用一定的方式存储与所研究的决策问题有关的各种模型。 能够存储及提供常用的数学( 特别是数理统计) 与运筹学的方法。 各种数据、模型、方法的管理都应该是易于改变、易于增添的。 能够灵活的运用模型与方法对数据进行加工、汇总、分析、预测,以便用户能随时 得到所需要的综合信息与预测信息。 提供方便的人机对话接口和图形输出功能,不仅能够随机查询所要求的数据,而且 中南大学硕土论文 数据挖掘方法在智能决策支持系统中的应用研究 能够回答“如果,则”( “w h a t i f ”) 之类的问题。 提供良好的数据传输功能,以保证及时收集所需要信息以及把使用者所需要的加工 结果提供给他们。 具有一定的加工速度与响应时间。 由此可见,这些功能的中心仍然是对决策者的支持功能,它的需要决定了系统的其他功能。 1 1 。3 决策支持系统的基本构成 d s s 的结构是由d s s 的定义、性质、任务和特点所决定的 1 卅。 下面给决策支持系统的系统结构。其具体形式如图卜l 川所示。 智能化用户界面部分。这是一种易于被用户理解和使用的,具有智能、纠正错误、 自我学习、提供自然语言和人类思维方式到机器之间转换的界面系统。 生成系统。生成系统主要由知识库( k b ) 、模型库( m b ) 、数据库( d b ) 、推理机、 咨询解释系统和问题处理系统六部分构成。其中: 知识库:存储和采集专家的知识和问题领域的知识以及推理时要用的规则等。 数据库:存储所有的数据和结果。定义数据的结构,修改并建立数据字典, 检索、访问、增删改数据、优化数据等。 推理机:运用知识库中的推理规则,控制系统的运行过程并解释系统所产生 的结果。 模型库:存储所有的模型以及模型与数据的匹配( 嬲t c h ) 关系。定义模型的 结构,建立并修改模型字典,检索、访问、增改模型,优化模型等。 咨询解释系统:运用知识库中的推理规则、推理系统的双向推理过程,咨询 或解释系统所产生的结果和界面部分运行。 问题处理系统:构造求解具体的问题模型。 模拟系统。模拟系统主要由问题发生器、情景分析( s c e n a r i oa n a l y s i s ) 、模拟 ( s i m u l a t i o n ) 、优化和评价比较五个部分构成。其中: 问题发生器:产生和识别问题,其功能相当于模拟系统与用户界面之间的接 口,使问题与求解方案相衔接。 情景分析:把己产生和识别的问题或求解方案放到特定的环境( 主要是数据 和信息环境下) 进行分析。 模拟:对信息系统所提供的信息进行模拟运行。 优化:优化决策方案或决策模型。提出可行或是非劣解。 评价比较:用交互式的方式对可行的方案进行综合的分析比较,并向用户提 供建议。 中南太学烦士论立数据挖掘方法在智能决策支持系统中的应用研究 图卜ld s s 系统结构 1 2 智能决策支持系统( i d s s ) 智能决策支持系统( i d s s ) 是在决策支持系统( d s s ) 的基础上集成人工智能中专家系统 ( e s ) 而形成的。决策支持系统主要是以人机交互系统( 由语言系统和闯题处理系统组成) 、 模型库系统( 由模型库管理系统和模型库组成) 、数据库系统( 由数据库管理系统和数据库组 成) 组成。专家系统主要由知识库、推理机和动态数据库组成。决策支持系统和专家系统集 成为智能决策支持系统,我们称之为高阶决策支持系统。而将决策支持系统称为初阶决策支 持系统。智能决策支持系统的特点和功能如下”叫: 由于智能d s s 具有推理机构,能模拟决策者的思维过程,所以能根据决策者的需求, 通过提问会话、分析问题、应用有关规则引导决策者选择合适的模型。 智能d s s 的推理机构能跟踪问题的求解过程,从而可以证明模型的正确性,增加了 决策者对决策方案的可信度。 决策者使用d s s 解决半结构化或非结构化的问题时,有时对问题的本身或问题的边 界条件不是很明确,智能d s s 却可以通过询问决策者来辅助诊断问题的边界条件和环境。 智能d s s 能跟踪和模拟决策者的思维方法和思路,所以它不仅能回答“w h a t i f ”, 而且还能够回答“w h y ”,“w h e n ”之类的解释性原因,从而能使决策者不仅知道结论,而且知 道为什么会产生这样的结论。 智能决策支持系统的种结构形式如图卜2 【4 所示。 中南大学硕士论文数据挖掘方法在智能决策支持系统中的应用研究 甲甲甲甲 审t+ 图卜2 智能决策支持系统的结构框图 人机交互系统是通过d s s 语言系统来完成的。根据实际决策问题建立一个解决该决策问 题的总模型。它集成所需要的基本模型( 来自模型库) 进行计算、所需要的数据( 来自数据 库) 进行处理、所需要的知识( 来自知识库) 进行推理,并进行人机对话,通过各部件之间 的接口,形成统一集成的问题处理系统。 i d s s 充分发挥了专家系统以知识推理形式解决定性分析问题的特点,又发挥了初阶决策 支持系统的模型计算为核心的解决定量分析问题的特点,充分作到定性分析和定量分析的有 机结合,使得解决问题的能力和范围得到了一个大的发展。 i d s s 中d s s 和e s 的结合主要体现在三个方面: d s s 和e s 的总体结合。由人机交互系统把d s s 和e s 一体化。 k b 和m b 的结合。模型库中的数学模型作为知识的一种形式即过程性知识,加入到 知识推理过程中去。 d b 和动态d b 的结合。d s s 中的d b 可以看成是相对静态数据库,它为e s 中的动态数 据库提供初始数据。e s 推理结束后,动态d b 中的结果再送回到d s s 中的d b 中去。 由d s s 和e s 的这三种结合形式,也就形成了三种i d s s 的集成形式,分别是d s s 和e s 并 重的i d s s 结构、d s s 为主体的i d s s 结构以及e s 为主体的i d s s 结构。 1 3 数据挖掘在智能决策支持系统的重要地位 智能决策支持空间的划分1 叫 智能决策支持空间从应用层次上分为4 个空间: 数据空间( d a t as p a c e ) 、聚合空间( a g g r e g a t i o ns p a c e ) 、影响空间( i n f l u e n c es p a c e ) 和变化空问( v a r i a t i o ns p a c e ) ,如图卜3 川所示。 享 中南大学硕= 匕论文数据挖掘方法在智能决策支持系统中的应用研究 图卜3 智能决策支持空间 数据空间( d a t as p a c e ) :是处理基于关键字( k e yb a s e d ) 的决策查询。其中最典型的 是联机事务处理( o l t p ) 系统。 聚合空间( a g g r e g a t i o ns p a c e ) :对数据空间中数据元素进行聚合运算( 如 s u m ,a v g ,m a x ,m i n 等) 形成的空间。用于关系到聚合运算的决策查询。目前常见的有联机分 析处理( o l a p ) 和多维空间( m u l t i d i m e n s i o n a ls p a c e ) 。 影响空间( i n f l u e n c es p a c e ) :是处理逻辑性质的决策支持。该空间的信息逻辑处理就是 通过数据挖掘而得到的。 变化空间( v a r i a t i o ns p a c e ) :是负责回答某种变化的过程和速率问题。 在以上4 个空间中,数据空间与聚合空间都是处理数值的计算,而数据挖掘处于影响空 间中,负责处理逻辑性质的智能决策支持,因此数据挖掘在整个智能决策支持系统中处于最 重要的地位。它能提供非常重要的决策信息,并且这些信息对于决策者可能是完全崭新的。 中南大学硕士论文数据挖掘方法在智能决策支持系统中的应用研究 第二章数据挖掘 数据库技术的发展提供了存储海量数据信息的可能,但当面对越来越多迅速膨胀的超级 数据库时,人们却无从着手去理解数据中包含的信息,更难以获得有价值的信息。原有的决策 支持系统( d s s ) 已不能满足需要,人们迫切需要把这些看似分散的数据,提炼成一条条有价值 的信息,来指导今后的行为。随着数据库技术和计算机硬件的进一步发展,出现了数据挖掘 ( d a t a m i n i n g ) 技术,为解决上述问题提供了较好的方案【“”。 2 1 数据挖掘的定义 数据挖掘是一种从大型数据库或数据仓库中提取隐藏的预测性信息的技术,它能挖掘出 数据间潜在的模式( p a t t e r n ) ,找出最有价值的信息和知识( k n o 们e d g e ) ,指导商业行为或辅 助科学研究【7 】。其中,模式是利用挖掘算法得到的结果,是对一种可能性分布的简单描述, 知识或信息是通过对模式进行处理而得到的易于理解的结果。从广义上讲,数据挖掘将发现 两种类型的模式:预测型的( p r e d i c t i v e ) 和信息型的( i n f o r m a t i v e ) 模式,或分别称做监督型 的( s u p e r v i s e d ) 和非监督型的( u n s u p e r v i s 酣) 。从挖掘过程则亦可称为证明驱动 ( v e r i f i c a t i o n d r i v e n ) 或发现驱动( d i s c o v e r y 一打i v e n ) 类型。 预测型的模式,通过输入集合的值来计算某一属性,或某几种属性的值,预测型的模式 用来解决一个指定的问题,从数据库中的一些属性来预测另外一个或多个属性值。它的重要 特征是利用已知的属性值去合理地猜测一个未知的属性值。 信息型的模式,用于预测将来要发生的事情,信息型模式不解决某一个指定问题,而是 提供给某领域的专家以前可能不知道的有兴趣的模式。信息型模式比预测型模式难评估,因 为它们的价值在于是否提供给某领域专家一些建议和这些建议的有效性。在典型的决策支持 系统中,数据挖掘可自动提供对未来情况的分析结果,这远远超过传统工具所提供的历史情 况分析。数据挖掘由四个成熟技术支持: 大规模数据采集 功能强大的并行处理机 数据挖掘算法 数据库技术 数据挖掘是一个集多种领域知识为一体的综合技术。它包含了统计学、机器学习、人工 智能、不确定性理论、数据库、知识获取、模式识别、信息抽取、可视化、分布式多媒体环 境的智能代理、数字库( d i g i t l i b r a r i e s ) 和管理信息系统。 2 2 数据挖掘任务 数据挖掘任务有六项:关联分析、时序模式、聚类、分类、偏差检测、预测。 中南大学硕士论文数据挖掘方法在智能决策支持系统中的应用研究 关联分析 关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值之间重复 出现且概率很高时。它就存在某种关联,可以建立起这些数据项的关联规则。 关联规则需要进行筛选,一般用“支持度”和“可信度”两个闽值来淘汰那些无用的关 联规则。“支持度”表示该规则所代表的事例( 元组) 占全部事例( 元组) 的百分比。“可信 度”表示该规则所代表事例占满足前提条件事例的百分比。 时序模式 通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。在时序模式 中,需要找出在某个最小时间内出现比率一直高于某一最小百分比( 阈值) 的规则。这些规 则会随着形式的变化做适当的调整。 时序模式中,一个有重要影响的方法是“相似时序”。用“相似时序”的方法,要按时间 顺序查看时间事件数据库,从中找出另一个或多个相似的时序事件。 聚类 数据库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之间的距 离较小,而不同类别上的个体之间的距离偏大。聚类增强了人们对客观现实的认识,即通过 聚类建立宏观概念。聚类方法包括统计分析方法,机器学习方法,神经网络方法等。 分类 分类是数据开采中应用的最多的任务。分类是找出一个类别的概念描述,它代表了这类 数据的整体信息,既该类的内涵描述。一般用规则或决策树模式表示。该模式能把数据库中 的元组影射到给定类别中的某一个。一个类的内涵描述分为:特征描述和辨别性描述。 特征描述是对类中对象的共同特征的描述。辨别性描述是对两个或多个类之间的区别的 描述。特征描述允许不同类中具有共同特征。而辨别性描述对不同类不能有相同特征。辨别 性描述用的更多。分类是利用训练样本集( 已知数据库元组和类别所组成的样本) 通过有关 算法而求得。 目前,分类方法的研究成果较多,判别方法的好坏,可从三个方面进行: 预测准确度( 对非样本数据的判别准确度) ; 计算复杂度( 方法实现时对时间和空间的复杂度) : 模式的简洁度( 在同样效果情况下,希望决策树小或规则少) 。在数据库中,往往存在 燥声数据( 错误数据) 、缺损值、疏密不均匀等问题。他们对分类算法获取的知识将产生坏的 影响。 偏差检测 数据库中的数据存在很多异常情况,从数据分析中发现这些异常情况也是很重要的。偏 差检测的基本方法是寻找观察结果与参照之间的差别。观察常常是某一个域的值或多个域值 的汇总。参照是给定模型的预测、外界提供的标准或另一个观察。 中南大学硕士论文 数据挖掘方法在智能决策支持系统中的应用研究 预测 预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类,特 征等。 典型的方法是回归分析,即利用大量的历史数据,以时间为变量建立线性或非线性回归 方程。预测时,只要输入任意的时间值,通过回归方程就可求出该时间的状态。 近年来,发展起来的神经网络方法,如b p 模型,它实现了非线性样本的学习,能进行非 线性函数的判别。 分类也能进行预测,但分类一般用于离散数值。回归预测用于连续数值。神经网络方法 预测既可用于连续数值,也可以用于离散数值。 2 3 数据挖掘的实施过程 所有的数据挖掘系统都要有数据准备、执行挖掘算法和表达结果等几个阶段。数据挖掘 过程细分为以下9 个步骤b 7 】: 1 理解和定义问题 2 数据的搜集和抽取 3 数据净化 4 数据引擎 5 算法引擎 6 运行数据挖掘算法 7 评估结果 8 重新精化数据和问题 9 使用结果 上述的九个步骤在数据挖掘过程中要反复多次。如下图2 1 门所示。其中,每一个步骤都 是必不可少的,下面分别讨论各个步骤( 图2 一1 ) : 1 理解和定义问题 理解和定义问题是解决任何事情的必经步骤,这个过程往往容易被人们简单化。数据挖掘 不是简单的把数据挖掘算法应用到数据库上,然后得到一些结果。如果没有很好的理解问题, 得到的结果将没有任何用处。一个问题有多种解决办法,但有些是行得通,有些是行不通的 即使是行得通的办法,也要考虑其执行效率等方面的问题 2 数据的搜集和抽取n 1 1 1 一旦问题定义完毕,就要进行相关数据的搜集。对于实际的数据库系统,它包含了多个原 始的数据库,这就是后面提到的静态数据库概念。而对于某一个特定的挖掘任务,需要从中提 取更进一层的关联数据库,这就是在实际应用中的定制数据库。目前,数据挖掘算法通常是基 于个抽取出来的二维关系表。对于用户所提出的发现任务,确定感兴趣的属性域,进行各种 数据汇集的操作。利用抽样技术对数据库中符合条件的元组进行抽样。 中南大学硕士论文数据挖掘方法在智能决策支持系统中的应用研究 3 数据净化和数据理解 图2 1 数据挖掘过程 一旦搜集完相关的数据,接下来就要处理数据库i 。 数据净化过程的步骤,按顺序如下: 检查拼写错误 去掉重复的( d u p li c a t e ) 记录; - 补上不完全的( i n c o m p l e t e ) 记录; 解决不一致的( i n c o n s i s t e n t ) 记录: 用测试查询来验证数据; 根据验证结果反复迭代上述步骤。 数据净化的目标是保证所表达数据的一致性( c o n s i s t e n t l y ) ,确保数据的参照完整性 ( r e f e r e n t i a l i n t e g r i t y ) 和数据的精确性。为了在将来可以很容易的扩充、更改和修复数据, 需要有一个描述整个净化过程的步骤。 4 数据引擎 前面所涉及的步骤都是一个从原始的静态数据库到一个定制数据库的。在这个过程中 存在着三个问题: 中南大学硕士论文 数据挖掘方法在智能决策支持系统中的应用研究 静态数据库中包含了许多可以忽略掉的属性。 定制数据库过程中必须找出样本数据库。 存在于定制数据库中的信息,对于某一特定的问题,可能有不同的表达方式。 在数据挖掘的过程中,探索对这些问题的不同解决方案时,数据引擎要重复多次来形成针 对某个任务的定制数据库。 5 算法引擎 用于启动算法,找到适合的数据挖掘算法。 6 运行数据挖掘算法p 7 1 如何运行数据挖掘算法是数据挖掘分析者和相关领域专家最关心的阶段因为这个阶段 称之为真正意义上的数据挖掘。所有的数据挖掘算法都要事先提出一些标准来度量产生的模 式,并在搜寻所有模式的过程中,使用这些标准来决定保留什么,丢弃什么,哪些模式需要继续 挖掘。目前,通常利用一些简单的统计属性作为评估标准如支持度( s u p p 。r t ) 、置信度 ( c o n f i d e n c e ) 和感兴趣度( i n t e r e s t i n g ) 等。 7 结果的初步评估 用来评估可预测型模式好坏的方法依赖于所要解决的问题,所以仅仅给出某种模式的精 确度是没有用的。真正的检测只能在实际的应用中,相关领域的专家对某种模式态度可能会是 下面几种情况之一: 专家对模式很满意,但是认为他已经知道了模式包含的内容 专家对模式很满意,但是认为他对一些模式所包含的内容感到有些惊奇 专家对模式很不满意 8 重新精化数据和问题睁l o 】 如果专家对生成模式的评价是:这不是我想要的。那么,就要重新进行新一轮的数据挖掘 过程。经过几次反复精化之后,如果模式的执行情况足够好,而且得到了专家的认可,就可以进 入到使用结果的阶段了。 9 使用结果 在前面讨论了数据挖掘的许多准备工作及论证所挖掘出的模式的有效性一旦当到达了 数据挖掘的屉后一步,我们就可以应用基于所发现模式的决策。 2 4 数据挖掘的常规方法 数据挖掘已存在很多常规方法n ”“”。 ( 1 ) 统计分析方法 统计分析方法m 是利用统计学、概率论的原理对关系中各属性进行统计分析,从而找出它 中南大学硕士论文 数据挖掘方法在智能决策支持系统中的应用研究 们之间的关系和规律。统计分析方法是最基本的数据挖掘技术方法之一。常用的统计分析方 法有:判别分析、因子分析、相关分析、多元回归分析、偏最小二乘回归方法等。 判别分析:建立一个或多个判别函数,并确定一个判别标准,然后对未知属性的对象,根据 测定的观察值,将其划归已知类别中的一类。 因子分析:它是用较少的综合变量来表达多个观察变量。根据相关性大小把变量分组,使 得各组内的变量之间相关较高,不同组变量间的相关较低。 相关分析和回归分析:相关分析是用相关系数来度量变量间的相关程度。回归分析是用数 学方程来表示变量间的数量关系,方法有线性回归和非线性回归。 偏最小二乘回归:是一种新型的多元统计数据分析方法,它主要研究的是多因变量对多自 变量的回归建模,特别当各变量内部高度线性相关时,用偏最小二乘回归更加有效。另外,偏最 小二乘回归比较好的解决了样本个数少于变量个数等问题。在数据挖掘领域,统计分析方法可 用于分类挖掘和聚类挖掘。 ( 2 ) 遗传算法 遗传算法【7 1 2 j ”是一种优化技术,它利用生物进化的一系列概念进行问题的搜索,最终达到 优化的目的。在遗传算法的实施中,首先要对求解的问题进行编码( 染色体) ,产生初始群体: 然后计算个体的适应度,再进行染色体的复制、交换、突变等操作,便产生新的个体。重复以 上操作,直到求得最佳或较佳个体。 遗传算予主要有3 种:繁殖( 选择) 算子、交叉( 重组) 算子和变异( 突变) 算子。遗传算法可 起到产生优良后代的作用,经过若干代遗传,将会得到满足要求的后代( 问题的解) 。在数据挖 掘中,为了适应遗传算法,往往把数据挖掘任务表达为一种搜索问题,发挥遗传算法的优化搜 索能力。遗传算法具有计算简单、优化效果好的特点,它在处理组合优化问题方面也有一定的 优势,可用于聚类分析等。 ( 3 ) 粗集方法 粗集方法【7 1 是波兰z p a w l a k 教授在1 9 8 2 年提出的一种智能决策分析工具,它是一种刻划 不完烂性和不确定性的数学工具,能有效地分析不精确、不一致、不完整等各种不竞各的信息, 还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。在数据挖掘领域,租集 方法被广泛应用于不精确、不确定、不完全的信息的分类和知识获取。 ( 4 ) 决策树方法 决策树方法f 7 1 就是利用训练集生成一个测试函数,根据不同取值建立树的分支:在每个分 支子集中重复建立下层结点和分支,这样便生成一棵决策树。然后对决策树进行剪枝处理,最 后把决策树转化为规则,利用这些规则可以对新事例进行分类。这种方法实际上是根据信息 论原理对数据库中存在的大量数据进行信息量分析,在计算数据特征的互信息的基础上提取 出反映类别的重要特征。决策树方法主要用于分类挖掘。 ( 5 ) 神经网络方法 神经网络方法的原理岭“”1 是模拟人脑的神经元结构,以仲模型和h e b b 学习规则建立起 前馈式网络、反馈式网络和自组织网络3 大类多种神经网络模型。基于神经网络的数据挖掘 工具对于非线性数据具有快速建模能力,其挖掘的基本过程是先将数据聚类,然后分类计算权 值,神经网络的知识体现在网络连接的权值上。神经网络方法用于非线性数据和含噪声的数据 时具有更大的优越性,比较适合于市场数据库的分析和建模。目前,在数据挖掘中,最常用的神 经网络是b p 和r b f 网络。但是,人工神经网络还是一门新兴科学,有一些理论尚未彻底解决, 比如收敛性、稳定性、局部最小值以及参数调整问题等等。例如,对于b p 网络,常遇到的问题 是训练速度慢,有可能陷入局部最小,以及网络参数和训练参数难以确定等等。神经网络具有 对非线性数据快速拟合的能力,可用于分类、聚类、特征挖掘等多种数据挖掘任务,在事务数 中南大学硕士论文数据挖掘方法在智能决策支持系统中的应用研究 据库的分析建模方面有广泛的应用。 前馈式网络:它以感知机、b p 反向传播模型、函数型网络为代表。此类网络可用于预测、 模式识别等方面。 反馈式网络:它以h o p f i e l d 的离散模型和连续模型为代表,分别用于联想记忆和优化计 算。 组织网络:它以a r t 模型、k o h o n e n 模型为代表。它们用于聚类。 神经网络的知识体现在网络连结的权值上,是一个分布式矩阵结构。神经网络的学习体 现在神经网络权值的逐步计算上( 包括反复迭代或者是累加计算) 。 ( 6 ) 模糊逻辑【”舯1 模糊数学研究的是“亦此亦彼”的模糊性。模糊数学是继经典数学、统计数学之后,在数 学上的又一新的发展。针对一个问题,复杂性越高,有意义的精确化能力就越低。模糊性是客 观存在的,当数据量越大而且复杂性越大时,对它进行精确描述的能力越低,就是说模糊性越 强。 在数据挖掘领域,模糊逻辑可以进行模糊综合判别、模糊聚类分析等。 ( 7 ) 规则归纳p 问 关联规则:例如,购买商品a 和b 的客户有8 5 同时也购买了商品c ,用规则表示为a ,b c ( 8 5 ) 。 i f t h e n 规则:例如,“如果a 、b 和c 同时发生,则d 发生的概率为8 5 。” 数据挖掘各种方法获得的知识的表示形式,主要有四种:规则、决策树、浓缩数据、公式。 2 5 数据挖掘系统的原型框架 根据上面对数据挖掘过程的论述,提出一个挖掘系统的原型结构m ( 见图2 2 ) 。 图2 2 中黑粗线表示各种形式的数据流如原始数据、处理后的数据等:双线代表模式、 知识:细线表示控制流,即用户对流程的控制信息,如制定挖掘任务,选取阈值、选取算法等 系统分成三个部分: 数据流,构成从原始数据到最终知识这样一个完整的挖掘数据流程, 控制实现模块,直接控制数据流,它们是一些处理函数库 用户控制接口,用户通过它控制整个数据挖掘流程各个阶段的工作 数据流和控制实现模块处于服务器端,用户控制接口处于客户端系统的输入是原始数据 即日常事务处理所得到的大量原始数据,可以是多样异构的数据库或文件数据系统的输出是 知识,即经过挖掘得到的有价值的信息知识的表示形式有多种,如自然语言、逻辑规则,图形 表示等 系统的运做流程,首先要从用户提出的要求开始按照用户的要求,选取相应的数据,在此 基础上,由系统自动或由用户自己选择待发现模式的形式,找到相应的算法,自动或人为的制 定所需的所有参数,进行挖掘将得到的结果进行知识表达,自动或人为的根据得到的知识,进 行下轮的挖掘或填写到知识库中每次得到的知识,不仅仅提交给用户,还应当以某种形式 存储起来,供系统挖掘新知识时使用,这样,就可以在进行更高层知识的发现时,不用重新创建 所有的数据从而达到基于知识的挖掘 下面,分别论述这几个模块: ( 1 ) 用户数据挖掘 中南大学硕士论文 教据挖掘方祛在智船决策支持系统中的应用研究 是个知识发现的过程,需要用户大量的介入用户可能要担当多种角色:数据专家,数据 挖掘专家和相关领域的专家,相应的,他所需要承担的工作也是多样的 一般来讲,用户往往提出一些具体的要求,而不是无的放矢。通常,这个要求限定了数 据的来源,应用的范围,结果的形式,评判的标准,甚至暗含了应该使用什么类型的算法。 由于用户提出的问题是干差万别的,所以相对应的结果模式就存在着很大的不同。在理 想的挖掘系统的用户界面中,应接受用户以一种接近自然语言提出的问题。因为系统最终面 对的使用者绝大部分是高层的管理者,而不是数据库专家和数据挖掘专家。 ( 2 ) 转换器 位于用户层之下的转换器模块,其目的是接受用户指定的要求,将其转化为数据库模块 的输入参数、挖掘核心的输入参数、相关的参数及评判标准等。 ( 3 ) 数据预处理 此模块的输入为转化器的输出中提供的挖掘任务所涉及到的对应于数据库中真正的字段 及任务指定的范围,输出则为数据挖掘内核提供干净、准确、简化的数据。其作用是减少挖掘 内核的数据处理量,提高挖掘效率,提高知识发现的起点和准确度。 ( 4 ) 数据收集与数据转换 主要针对现实中异构和多样的原始数据环境,将它们转变成易于系统处理的统一格式的 数据。数据收集提供跨平台的多种异构数据库的访问能力,包括数据接口驱动和内部数据结 构。数据转换找到数据的特征表示,减少有效变量的数目。 ( 5 ) 数据简化与数据净化【l ” 数据简化主要有两个途径:属性选择和数据抽样,分别针对数据库中的属性与记录。该 模块完成数据的选择抽取,简化的数据需要做净化处理,完成数据最后的处理,将抽取的正 确可靠的数据提交给挖掘内核。该模块必须参照对数据本身的内容的理解。 ( 6 ) 元数据 元数据是管理数据的数据,指导整个数据预处理。每次挖掘结束所得到的知识,在将其 存入知识库的同时,还要反映在这个逻辑层次图上,便于后续挖掘工作的进行。 ( 7 ) 挖掘内核 进行实际的挖掘操作,从预处理完的数据中发现模式、规则。该模块实现各种挖掘技术, 每种挖掘技术构成一个子模块,它们在功能上是相互独立的。 ( 8 ) 模式表达 挖掘内核得到的模式并不是最终知识,模式表达实现对模式的解释表达,使用户能够理 解,进而能够做出评估判断。 ( 9 ) 模式管理器 该模块是用户的控制接口,用户通过它控制整个挖掘流程: 数据定义,控制数据预处理模块: 挖掘向导,控制挖掘内核: 模式筛选,数据挖掘是一个反复的过程,直到用户对发现的知识满意。 中南大学顾l 论文数据挖掘方法在智能决策支持系统中的应用研究 图2 2 数据挖掘系统的原型框架 1 4 中南大学硕士论文数据挖掘方法在智能决策支持系统中的应用研究 第三章三种改进的数据挖掘的方法 贝叶斯网络是有向无环图它一种概率推理技术,使用概率理论来处理在描述不同知识成 分之问而产生的不确定性,它提供了种将只是知觉地图解可视化的方法贝叶斯使用概率推 理能从不完全的、不精确的或不确定的知识和信息中作出推理同时,从实际应用出发,真正地 做到既定性又定量,获取关联规则,也即关联知识主观贝叶斯网络引入了主观贝叶斯方法,成 功地解决了在实际应用中的诸多困难。 主观贝叶斯方法 由于必须首先知道结论的先验概率与证据出现的条件概率,才能直接使用贝叶斯公式求 结论在证据存在条件下的概率,这在实际应用中是非常困难的因此,杜达( r o d u d a ) 、哈 特( p e h a r t ) 等人在贝叶斯公式的基础上提出了主观贝叶斯方法。 1 ) 不确定性知识的表示 在主观贝叶斯方法中,不确定性知识是通过产生式规则表示的,具体形式为: i fet h e n ( 1 t s ,l n ) ht p t h ) ) f 是该条知识的前提条件,胃是结论:尸r ) 渺是刖拘先验概率,它是在没有任何专门证据的情 况下结论为真的概率,其值由领域专家根据以往的实践及经验给出:s 称为充分性量度, 用于指出f 对的支持程度,称为必要性量度,用于指出电对肌拘支持程度:s ,厶 ,的 值由领域专家给出,相当于知识的静态强度。 2 ) 不确定性证据的表示 在主观贝叶斯方法中,证据的不确定性是用概率来表示的用户根据观察s 给出初始证据 f 的p 但,p 佤侮,相当于动态强度由于p 删的给出相当困难,因此在实际的应用系统中 引入可信度的概念,可信度f 驺与概率尸伍一例具有对应的关系i 于是,用户只需给出初 始证据e 的可信度f 删 3 ) 不确定性的传递算法 主观贝叶斯方法的推理目的就是根据初始证据f 的概率尸伍) 及充分性量度s 必要性量 度的值,把结论的先验概率p 倒通过算法更新成为后验概率p 似倒或尸似丘剀 一条知识所对应的证据有三种情况:可能是肯定存在的,也可能是肯定不存在的,或者 是不确定的 在实际应用中,初始证据f 肯定存在与初始证据f 肯定不存在这二种情况几乎很少见, 本文暂不作讨论一条知识的初始证据f 通常来源于由另一条知识推出的结论,或者来源于用 户对客观事物或现象的主观观察,这二者均在一定程度上具有不确定性 初始证据f 不确定,则把先验概率尸阮堰! 新成为后验概率尸f ) 秒纠的算法为: p t h s ) = p ( h e ) 卑p ( e s ) + p ( h 一e ) 卑p t e s 1 散警食j q q 亳t i j 、趣毫p ( h ,s ) = p ( h ,e 1 雄p ( e s ) + p ( h 一e ) 卑p ( 一e s j 、j 蠹每l 长 ( t ) 当p 旧,副= l 时,p 倪彰= 尸 倪j - 毋p 舀移( ( 争1 ) 尸0 移+ 1 ) 嗡! p t e ,s j = q 窀p i h ,s ) = p ( h ,一e ) = l h ¥p ( h ) t 、l l 、卑p i h ) 、 0 曲訾p t e s ) = p ( e ) 碱。p ( h ,s ) = p h e ) p ( e ) 七p t h ,一e ) 卑p ( 一e ) = p ( h ) ( 4 ) 当尸删为其它值时, i fq 例给定,因此只要 中南大学硕士论文数据挖掘方法在智能决策支持系统中的应用研究 把尸化印通过相应公式转化为f 圆伍) ,相应公式为: i f 一黾t j c ( e s ) 嫡p ( e s ) = p ( e ) | 卑i c ( e s ) 黾、? 黾 i f q j c t e ,s ) 年黾p ( e s ) = 0 c ( e s ) + p t e ) 聱嫱一c t e s n 、 黾 于是有, i f c i e s n 乜,p i h ,s =

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论