数据挖掘技术 分类挖掘及其应用PPT课件_第1页
数据挖掘技术 分类挖掘及其应用PPT课件_第2页
数据挖掘技术 分类挖掘及其应用PPT课件_第3页
数据挖掘技术 分类挖掘及其应用PPT课件_第4页
数据挖掘技术 分类挖掘及其应用PPT课件_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第5章 分类挖掘及其应用5.1 分类概念分类概念 5.1.1概述概述 分类和预测是两种数据分析形式,可以用于描述重要数据类的分类和预测是两种数据分析形式,可以用于描述重要数据类的模型或预测未来的数据趋势。然而模型或预测未来的数据趋势。然而,分类是预测分类标号(或离散值分类是预测分类标号(或离散值),而预测建立连续值函数模型。而预测建立连续值函数模型。 数据分类(数据分类(data classification)是一个两步过程)是一个两步过程: 第一步,建立一个模型第一步,建立一个模型,描述预定的数据类集或概念集描述预定的数据类集或概念集 ; 第二步,使用模型进行分类。第二步,使用模型进行分类。

2、 如果认为模型的准确率可以接受如果认为模型的准确率可以接受,就可以用它对类标号未知的数据就可以用它对类标号未知的数据元组或对象进行分类。元组或对象进行分类。 分类具有广泛的应用分类具有广泛的应用,包括信誉证实、医疗诊断、性能预测和选择包括信誉证实、医疗诊断、性能预测和选择购物。购物。第1页/共22页5.1.2分类预处理分类预处理准备分类的数据准备分类的数据 可以对数据使用下面的预处理以便提高分类过程的准确性、可以对数据使用下面的预处理以便提高分类过程的准确性、有效性有效性 和可伸缩性。和可伸缩性。 1)数据清理)数据清理 2)相关性分析)相关性分析 3)数据变换)数据变换 分类方法评估分类方法

3、评估 分类方法可以根据下列标准进行比较和评估。分类方法可以根据下列标准进行比较和评估。 1)测的准确率)测的准确率 2)速度)速度 3)强壮性)强壮性 4)可伸缩性)可伸缩性 5)可解)可解释性释性 数据库研究界对数据挖掘的分类的贡献一直强调可伸缩性,数据库研究界对数据挖掘的分类的贡献一直强调可伸缩性,特别是特别是 对判定树归纳。对判定树归纳。第5章 分类挖掘及其应用第2页/共22页5.2 分类挖掘算分类挖掘算法法 5.2.1决策树分类决策树分类 决策树学习算法包括如决策树学习算法包括如ID3算法(算法(C4.5), SLI(supervised learning in quest)算法。)算

4、法。 5.2.2 贝叶斯分类贝叶斯分类 贝叶斯分类算法是利用概率统计知识进行分类的分类算法。贝叶斯分类算法是利用概率统计知识进行分类的分类算法。 5.2.3 基于关联规则分类基于关联规则分类 CBA算法(算法(classification based on association)是)是基于关联规则的分类算法。基于关联规则的分类算法。 LB(Large Bayes)算法是综合了概率统计和关联规则的)算法是综合了概率统计和关联规则的知识而提出的分类算法。知识而提出的分类算法。 5.2.4 基于数据库技术分类基于数据库技术分类 在分类算法中,利用数据库技术解决分类问题的算法。目前,在分类算法中,利

5、用数据库技术解决分类问题的算法。目前,有有MIND和和GAC-RDB两类。两类。第5章 分类挖掘及其应用第3页/共22页 5.2.5 基于支持向量机分类基于支持向量机分类 支持向量机(支持向量机(SVM)分类算法是在有较坚实数学理论基础的)分类算法是在有较坚实数学理论基础的统计学理论及优化技术之上发展起来的机器学习方法。统计学理论及优化技术之上发展起来的机器学习方法。 One-class是标准是标准SVM分类算法的改进,该算法(无监督)分类算法的改进,该算法(无监督)仅仅需要使用正例作为输入数据,通过从正例中识别出孤立点作仅仅需要使用正例作为输入数据,通过从正例中识别出孤立点作为反例,然后再使

6、用基于为反例,然后再使用基于SVM的标准分类技术来完成分类的标准分类技术来完成分类 。 其他分类算法还包括神经网络方法,其他分类算法还包括神经网络方法,k_最邻近分类,粗糙集合最邻近分类,粗糙集合方法,模糊集方法等。方法,模糊集方法等。 5.2.6 基于基于AIS模型分类算法模型分类算法 这种分类算法主要用来找寻样本集合中主要类别的分类规则,这种分类算法主要用来找寻样本集合中主要类别的分类规则,用于划分主类和其他类。对于其他类,同样可以看做一个样本集用于划分主类和其他类。对于其他类,同样可以看做一个样本集合,再次利用该分类算法进行分类。合,再次利用该分类算法进行分类。 第5章 分类挖掘及其应用

7、第4页/共22页5.3人工免疫算法及其在故障诊断中的应人工免疫算法及其在故障诊断中的应用用 5.3.1人工免疫算法人工免疫算法5.3.1.1引言引言 本节阐明了不同免疫算法或免疫理论的原理,同时也提出了常用本节阐明了不同免疫算法或免疫理论的原理,同时也提出了常用的人工免疫系统的一般模型框架。这些技术己经被成功的用于模式识别的人工免疫系统的一般模型框架。这些技术己经被成功的用于模式识别和数据挖掘、故障检测与诊断、计算机安全及其它各种应用。和数据挖掘、故障检测与诊断、计算机安全及其它各种应用。5.3.1.2典型的人工免疫算法典型的人工免疫算法(1)克隆选择算法;)克隆选择算法;(2)否定选择算法;

8、)否定选择算法;(3)免疫网络算法)免疫网络算法 ;(4)基于信息嫡的免疫算法;)基于信息嫡的免疫算法;(5)免疫进化算法;)免疫进化算法;(6)其它学习算法:免疫目标算法、免疫)其它学习算法:免疫目标算法、免疫Agent算法、免疫算法、免疫DNA算法、算法、基于人工免疫系统的无监督学习策略。基于人工免疫系统的无监督学习策略。第5章 分类挖掘及其应用第5页/共22页5.3.2基于否定选择算法的故障诊断方基于否定选择算法的故障诊断方法法 在现阶段的故障诊断领域,常用的诊断方法包括模在现阶段的故障诊断领域,常用的诊断方法包括模糊诊断、专家系统、人工神经网络等,主要思想是将人糊诊断、专家系统、人工神

9、经网络等,主要思想是将人们掌握的有关故障的知识加工成智能诊断系统所能接受们掌握的有关故障的知识加工成智能诊断系统所能接受的语言或语法,并将其存储记录下来,诊断过程的实质的语言或语法,并将其存储记录下来,诊断过程的实质是待诊样本与系统所记忆的故障知识的匹配过程。是待诊样本与系统所记忆的故障知识的匹配过程。第5章 分类挖掘及其应用第6页/共22页5.3.2.1基于基于aiNet故障样本约减研究故障样本约减研究免疫网络模型免疫网络模型 )网络定义与描述网络定义与描述 【定义定义】aiNet是一个边界加权图,无需全部连接,是一个边界加权图,无需全部连接,又称为又称为细胞的节点集合组成,节点对集合称为边

10、界。细胞的节点集合组成,节点对集合称为边界。 2)网络算法约减过程网络算法约减过程(如下图)(如下图)第5章 分类挖掘及其应用第7页/共22页 图图5-1 aiNet算法流程图算法流程图 第5章 分类挖掘及其应用第8页/共22页 3)实验结果分析)实验结果分析 综上分析表明综上分析表明aiNet网络具有较好的数据约网络具有较好的数据约减能力,在样本压缩率减能力,在样本压缩率较高的情况下,仍能保较高的情况下,仍能保持原有的数据结构和聚持原有的数据结构和聚类特性类特性.第5章 分类挖掘及其应用免疫网络模型第9页/共22页5.3.2.2基于否定选择算法的变压器故障诊断基于否定选择算法的变压器故障诊断

11、方法方法 传统变压器故障诊断方法传统变压器故障诊断方法-三比值法简介三比值法简介 三比值法是三比值法是IEC推荐的一种方法推荐的一种方法,是罗杰斯比值法的是罗杰斯比值法的一种改进一种改进。该方法是通过计该方法是通过计C2H2/C2H4,CH4/H2,C2H4/C2H6三种比值三种比值,根据根据已知的编码规则和故障类别已知的编码规则和故障类别,查表确定故障类别。查表确定故障类别。 基于否定选择算法故障诊断方法基于否定选择算法故障诊断方法 1)数据处理及编码)数据处理及编码 2)匹配原则)匹配原则 3)生成检测器)生成检测器 4)仿真实验)仿真实验 第5章 分类挖掘及其应用第10页/共22页5.3

12、.2.3免疫算法诊断结果和传统免疫算法诊断结果和传统“三比值三比值”诊断结果的的比诊断结果的的比较较 从实例分析的结果来看,基于人工免疫的否定选择算法的故从实例分析的结果来看,基于人工免疫的否定选择算法的故障诊断准确率要高于障诊断准确率要高于IEC三比值法三比值法。 (1)检测器的个数检测器的个数 一般情况下,检测器的个数越多,对非我空间的覆盖越好,一般情况下,检测器的个数越多,对非我空间的覆盖越好,但生成检测器的时间也越长。而如果检测器数量太少,则会导致对但生成检测器的时间也越长。而如果检测器数量太少,则会导致对非我空间的覆盖过小而造成漏诊。非我空间的覆盖过小而造成漏诊。 (2)正常样本的个

13、数正常样本的个数 否定选择算法是通过对正常样本的学习来生成检测器的,所以否定选择算法是通过对正常样本的学习来生成检测器的,所以正常样本越多,则对自我空间的描述越完全,但由于生成检测器时,正常样本越多,则对自我空间的描述越完全,但由于生成检测器时,候选检测器要与每个自我集合的元素匹配,这样自我集合的元素越候选检测器要与每个自我集合的元素匹配,这样自我集合的元素越多,生成检测器的时间也就越长,而如果正常样本少,则会导致误多,生成检测器的时间也就越长,而如果正常样本少,则会导致误诊现象诊现象。第5章 分类挖掘及其应用第11页/共22页(3)自我集合的半径自我集合的半径 自我集合的半径选取非常重要,取

14、得大会造成漏诊,较自我集合的半径选取非常重要,取得大会造成漏诊,较小。则会造成误诊,通过反复试验选取自我集合半径为小。则会造成误诊,通过反复试验选取自我集合半径为0.01时效果最好。时效果最好。 (4)窗宽及窗口移动步长窗宽及窗口移动步长 窗宽越小对原始数据描述得越好,同时也增加了算法的复窗宽越小对原始数据描述得越好,同时也增加了算法的复杂度。通过对窗口移动步长杂度。通过对窗口移动步长winstep选取不同的值选取不同的值1,2,3,4,5进行试验,发现当窗口移动步长进行试验,发现当窗口移动步长winstep=1时时效果最好,因为移动步长越小,数据段之间的交迭越大,效果最好,因为移动步长越小,

15、数据段之间的交迭越大,这样便能够更好地刻画原始数据的特征。这样便能够更好地刻画原始数据的特征。第5章 分类挖掘及其应用第12页/共22页5.3.3基于克隆变异机理的故障诊断方法研基于克隆变异机理的故障诊断方法研究究5.3.3.1引言引言 在本书中,借鉴免疫系统的克隆变异机理及已有人在本书中,借鉴免疫系统的克隆变异机理及已有人工免疫系统成果,结合故障诊断的实际应用,研究具有工免疫系统成果,结合故障诊断的实际应用,研究具有故障诊断能力,同时又具有对故障样本的连续学习功能故障诊断能力,同时又具有对故障样本的连续学习功能的自适应故障诊断方法。最后通过对标准样本的分类识的自适应故障诊断方法。最后通过对标

16、准样本的分类识别及实际的故障诊断实例验证了本书提出方法的有效性。别及实际的故障诊断实例验证了本书提出方法的有效性。第5章 分类挖掘及其应用第13页/共22页5.3.3.2免疫克隆变异机理与克隆选择免疫克隆变异机理与克隆选择算法算法 当非己抗原模式被当非己抗原模式被B细胞识别时免疫系统将会把与细胞识别时免疫系统将会把与抗原具有高亲和力的抗原具有高亲和力的B细胞进行克隆变异形成大量抗体,细胞进行克隆变异形成大量抗体,即克隆选择原理。即克隆选择原理。De Castro博士依据此原理提出了博士依据此原理提出了克隆选择算法。这是一种模拟免疫系统学习过程的进化克隆选择算法。这是一种模拟免疫系统学习过程的进

17、化算法算法。 第5章 分类挖掘及其应用第14页/共22页5.3.3.3故障诊断方法研究故障诊断方法研究(1)初始化)初始化 初始化可采用这种方法进行:用已知抗原进行初始化初始化可采用这种方法进行:用已知抗原进行初始化。 (2)记忆细胞辨识和人工辨识球的产生)记忆细胞辨识和人工辨识球的产生 在完成初始化后,对于给定抗原,首先将其与记忆细胞集进在完成初始化后,对于给定抗原,首先将其与记忆细胞集进行匹配,在记忆细胞集中,找出与抗原同类且激励水平最高的记行匹配,在记忆细胞集中,找出与抗原同类且激励水平最高的记忆细胞,并将该细胞命名为忆细胞,并将该细胞命名为 。如果在记忆细胞集中相同。如果在记忆细胞集中

18、相同于抗原类的记忆细胞为空,则将该抗原加入记忆细胞,并令其于抗原类的记忆细胞为空,则将该抗原加入记忆细胞,并令其为为 。一旦被确定,该细胞将被加入到人工辨识球集合,然。一旦被确定,该细胞将被加入到人工辨识球集合,然后对后对 进行克隆变异,以便产生新的人工辨识球。这一过进行克隆变异,以便产生新的人工辨识球。这一过程模拟了免疫系统克隆变异的自适应进化机理。程模拟了免疫系统克隆变异的自适应进化机理。matchmcmatchmcmatchmc第5章 分类挖掘及其应用第15页/共22页 (3)候选记忆细胞)候选记忆细胞 经过资源的竞争后,每类中都删除了一些低辨识水平的人工经过资源的竞争后,每类中都删除了

19、一些低辨识水平的人工辨识球,是整个辨识水平得到了提高。当进化条件满足后,选择辨识球,是整个辨识水平得到了提高。当进化条件满足后,选择与训练抗原具有相同类且激励水平最高的人工辨识球作为候选记与训练抗原具有相同类且激励水平最高的人工辨识球作为候选记忆细胞,将该细胞定为。忆细胞,将该细胞定为。 (4)记忆细胞矩阵的形成)记忆细胞矩阵的形成 首先计算候选记忆细胞首先计算候选记忆细胞 , 两个细胞与给两个细胞与给定抗原的激励值,当满足式(定抗原的激励值,当满足式(5-22)和式()和式(5-23)两个条件时,)两个条件时,可将可将 取代取代 ,如果只满足式(,如果只满足式(5-22),直接将),直接将

20、加入记忆细胞矩阵。加入记忆细胞矩阵。candidateMCmatchmccandidateMCcandidateMCmatchmccandidateMC(,)(,)stim mccandidate agstim mcmatch ag(,) affi mccandidate mcmatchATS AT(5-22)(5-23)第5章 分类挖掘及其应用第16页/共22页(5)故障诊断过程)故障诊断过程图图5-2 基于克隆变异机理的故障诊断框图基于克隆变异机理的故障诊断框图(6)实验仿真)实验仿真第5章 分类挖掘及其应用第17页/共22页 本章阐述了分类概念,论述了决策树分类、贝叶斯分类、本章阐述了分

21、类概念,论述了决策树分类、贝叶斯分类、基于关联规则分类、基于数据库技术分类、基于支持向量机基于关联规则分类、基于数据库技术分类、基于支持向量机的分类、基于的分类、基于AIS模型分类算法等分类算法。对课题人工免模型分类算法等分类算法。对课题人工免疫算法及其在故障诊断中的应用进行了详细的讨论,以此说疫算法及其在故障诊断中的应用进行了详细的讨论,以此说明分类挖掘在解决复杂工程问题中的应用情况。明分类挖掘在解决复杂工程问题中的应用情况。 本章以人工免疫算法的理论和应用为研究内容做了一些本章以人工免疫算法的理论和应用为研究内容做了一些工作。除了在理论上对人工免疫系统及其算法的基础原理和工作。除了在理论上

22、对人工免疫系统及其算法的基础原理和各种类型的免疫算法做了研究和分析外,最主要的是通过对各种类型的免疫算法做了研究和分析外,最主要的是通过对人工免疫算法的研究分析,提出了新的改进算法,开拓了免人工免疫算法的研究分析,提出了新的改进算法,开拓了免疫算法的应用领域疫算法的应用领域。第5章 分类挖掘及其应用第18页/共22页习习 题题 51简述判定树分类的主要步骤。简述判定树分类的主要步骤。2在判定树归纳中,为什么树剪枝是有用的?用一个单独的样在判定树归纳中,为什么树剪枝是有用的?用一个单独的样 本集计值剪枝的缺点是什么?本集计值剪枝的缺点是什么?3给定判定树,你有两种可能的选择。给定判定树,你有两种

23、可能的选择。 (1)将判定树转换成规则)将判定树转换成规则,然后对结果规则剪枝。然后对结果规则剪枝。 (2)对判定树剪枝)对判定树剪枝,然后将剪枝后的树转换成规然后将剪枝后的树转换成规则则。相对于(相对于(2),(),(1)的优点是什么?)的优点是什么?4为什么朴素贝叶斯分类称为为什么朴素贝叶斯分类称为“朴素朴素”的?简述朴素贝叶斯分类的主要思想。的?简述朴素贝叶斯分类的主要思想。5比较急切分类(如判定树、贝叶斯、神经网络)相对于懒散分类(如,比较急切分类(如判定树、贝叶斯、神经网络)相对于懒散分类(如,K-最临近、基于案例的推理)的优缺点。最临近、基于案例的推理)的优缺点。第5章 分类挖掘及

24、其应用第19页/共22页习习 题题 56下表由雇员数据库的训练数据组成。数据已概化。对于给定的行,下表由雇员数据库的训练数据组成。数据已概化。对于给定的行,count表示表示department,status,age和和salary在该行上具有给定值的元组数。设在该行上具有给定值的元组数。设salary是类标号属性。是类标号属性。 (1)你将如何修改你将如何修改ID3算法,以便考虑每个概化数据元组(即每一行)算法,以便考虑每个概化数据元组(即每一行) 的的count? (2)使用你修改过的使用你修改过的ID3算法,构造给定数据的判定树。算法,构造给定数据的判定树。 (3)给定一个数据样本,它在属

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论