《数据挖掘及其应用讲义》应用-关联规则PPT课件_第1页
《数据挖掘及其应用讲义》应用-关联规则PPT课件_第2页
《数据挖掘及其应用讲义》应用-关联规则PPT课件_第3页
《数据挖掘及其应用讲义》应用-关联规则PPT课件_第4页
《数据挖掘及其应用讲义》应用-关联规则PPT课件_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.1,应用关联规则,2,1关联规则,设置I=i1,I2,im是数据项集的集合,d是与任务相关的数据集,也称为事务数据库。其中,每个事务处理t是数据项的子集tI。关联规则包含:AB,形式如下:这表示Ifconditionsthenresult中的a/I、b/I和a/b=。通常,关联规则的属性由以下四个参数说明:支持、置信度、预期置信度和作用。3、4,在可靠性:属性集A表示的前提下,B发生概率P(B|A)与图3360属性集A、B同时发生概率p (a,5,置信度是对关联规则准确度的测量,支撑度是对关联规则重要性的测量。显然,支持越大,关联规则就越重要。某些关联规则的可靠性高,但支持度低,这并不重要,因为这些关联规则实用的可能性小。角色说明特性集a如何影响特性集b的引用。效果越大,说明特性集b受特性集a影响的程度越大。通常,有用的关联规则大于1,仅当关联规则的置信度大于预期置信度时,a的出现才促成b的出现,并说明其间的一定相关性,如果作用程度不大于1,则此关联规则没有意义。6,2关联规则算法(Apriori算法),2.1概念介绍项目集:一个数据项集合;k要素集:包含k个数据要素的要素集;项目集频率:整个交易资料库d中包含该集的交易记录数目。也称为对该集的支援。频繁要素集:满足最低支持程度的要素集。如果要素集的发生频率大于最小支持阈值乘以事务处理记录集d中的记录数,则表示该集满足最小支持阈值。与最小支持阈值相对应的事务记录数称为最小支持频率。返回7,2.2Apriori算法。Apriori算法是一种基于两阶段频繁项集的数据挖掘方法,该方法将关联规则挖掘算法分为两部分,其中:是查找至少支持的所有项集(称为频繁使用的项集)。第二种方法是使用在第一步中发现的频繁项目集创建所需的规则。Apriori算法的特性:如果一组项目频繁,则所有子集也频繁。首先,提供了最低支持和最低可靠性。步骤8,1,查找频繁的要素集,从数据库中读取所有事务处理以计算候选人单个集的支持程度,查找经常使用的单个集,利用这些频繁使用的单个集的组合创建候选人2集,使用经常使用的要素集(如果候选人2集大于或等于最小支持范围)和经常使用的2个要素集的组合创建3个候选人集。如果3组候选人的支持大于或等于最小支持度,则该候选集将频繁3组,使用高频3组的组合生成4组候选人生成最后频繁出现的多组,合并下一级别候选集,直到新创建的候选集的支持小于指定的最小支持度,然后结束算法。步骤9,2 :在频繁要素集上创建期望规则,并为(1)每个频繁要素集l创建l的所有非空集。(2) l的每个非空集s的置信度大于最小置信度时的计算规则“sl-s”,10,(1) Apriori算法在学生成绩分析中的应用研究,学生各科目考试成绩长期以来一直作为国内各大学学生成绩及综合素质评价的重要指标,各大学长期存储了大量的学生成绩信息。但是,对成绩的分析处理通常停留在统计优秀、良好、通过、不及格等级的人数、平均分数计算、标准差等简单的查询和统计阶段,学生们对取得这些成绩与过程之间的关系往往没有深入了解。合理开发和利用这些资料,如果能找到课程间的相关关系对学生成绩的影响,那么课程设置和安排一定会成为很大的指南。,选择11,1研究对象沈阳农业大学计算机专业01期学号4年的学习成绩作为数据源,结果将数据库中的计算机网络,外语,工科高数,计算机基础,操作系统,计算机网络等8门课程作为研究对象,发掘特定课程对其他课程的影响程度,并参考教务员以后的课程,为学生选修课提供指导。12,2数据预处理,2.1数据整理原始数据库包含全校各专业、各年级、各科的所有成绩,部分记录可能有一些错误或没有经验关联,为了便于数据挖掘,仅选择01届计算机专业数据结构等8个课程分数作为挖掘对象,删除所有其他不必要的字段,删除空白和缺少数据的记录。清理的数据表部分数据如图1所示。13,图1原始数据表,14,2.2数据转换,学生成绩以数字形式,便于数据挖掘,因此将各科目成绩转换为离散处理,即优、好、中、合格、不及格5级。大于90分的是“优秀”,80 90分之间的是“优秀”,70 80分之间的是“普通”,60 70分之间的是“及格”,60分以下的是“不及格”。“优秀、良好、中、通过、失败”五个等级分别为数字“1、2、3、4、5”,计算机网络为“a”,数据结构为“b”,计算机基础为“b”将每个包含已转换数据表部分数据的帐户字段设置为文字,如图2所示。15,图2转换后数据表,16,3研究方法,3.2Apriori算法应用以宽度优先的迭代搜索方法,首先继续搜索所有频繁的项目集,直到找到频繁的1-项目集L1、经常的2-项目集L2的L1。如果经常使用的项目集数为零,则停止计算。最后,输出所有项目的频繁集。Apriori算法的特性在程序中继续使用。如果经常使用要素集,则所有子集也经常使用。将最小支持设置为0.3,生成56个经常发生的要素集,从经常发生的要素集确定子集,根据连接规则挖掘算法的原理将最小置信度设置为0.6,一些规则由程序导出18个连接规则,如表1所示。17,18,4结果和分析,根据规则1,高级语言程序设计成绩在80 90分钟之间,数据结构成绩在80 90分之间,可信度为66.8%,可信度为89.2%。这意味着学好高级语言课程课程对学好数据结构起着关键作用,以后在准备课程的时候,应带头外语,敦促师生学好这门课程,打下基础。规则3是高级语言程序设计成绩在70 80分钟之间,计算机基础成绩在80 90分钟之间的情况下为61.6%,可信度为79.8%,规则4是高级语言程序设计成绩在70 80分钟之间,外语成绩在80 90分钟之间的情况下为72这两条规则意味着公共基础课程计算机基础和计算机基础对学好计算机专业课也很重要,同时表明外语分数和数据库原理成绩相对较低,需要注意。19,规则5是计算机网络成绩在80 90分钟之间,高级语言程序设计度在80 90分钟之间的58.4%,可信度76.5%,规则6是计算机网络在80 90分钟之间,计算机基础度80 90分钟规则2表明,工科高数成绩在70 80分钟之间,0103010在80 90分钟之间为55.8%,可信度为87.2%,可信度和可信度均达到了要求,但根据实际经验,两者没有直接连接,在实际工作中可以不予考虑。其他规则同样需要决策者根据实际情况进行具体研究,进行分析参考。20,5结束语,大学生信息量巨大,利用关联规则挖掘算法进行数据挖掘,可以获得很多宝贵的信息,挖掘的规则对教务员和教师具有重要意义。如果能从一种相反的三种、个人成绩和课程、与职业的关系等其他信息中挖掘出更多的规则;个人成绩、家庭、地区之间的关系等必须对教学起到积极的指导作用。21,Apriori算法的应用,示例:假定数据项集I=I1,I2,I3,I4,I5中总共有5个数据项。表1假定具有这5个数据项的9个事务数据库,第一列是事务数据的标识号,第二列是最小支持度2,最小置信度为50%,并查找最大频繁项集和预期规则。22,表1事务数据集,23,周:支持度=要素集频率,24,25,2个具有相同要素且仅具有一个要素的2_要素选择两个频繁集进行链接,3_要素创建候选集为i1,I2,i3,i1,I2,i5,i1,i3,i5,26,4_要素创建候选集为I1,I2,I3,I5,I2,I3,I5不是经常集,因此没有4_要素经常集。最多可以在两个经常集i1,I2,i3和i1,I2,i5中运行后视连接规则。期望从侯关联规则中选择大于最小置信度的关联规则的规则。27,从最大频繁要素集获取候选关联规则,大于最小置信度的是关联规则(*,28)类似地,从6个2_项目频繁集推出候选关联规则,在侯关联规则中选择大于最小置信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论