


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、FP-Growth关联算法应用研究 08-07-30 14:22:00 作者:石云平 编辑:studa0714 摘 要 关联规则挖掘用于从大量数据中揭示项集之间的有趣关联或相关联系,是数据挖掘的一项重要研究内容。本文首先对FP-Growth算法进行分析,然后运用该算法分析聚类结果中的学生簇与该簇学生所具有因素的关联关系,实践证明了该算法具有较强的实用性。
2、60; 关键词 数据挖掘;关联分析;频繁模式;FP-Tree 1 引言 关联规则(Association Rules)挖掘是数据挖掘研究领域的一个重要研究方向,它由美国IBM Almaden Research Center 的Rakesh A-Grawal等人于1993年首先提出,是描述数据库中数据项之间存在的一些潜在关系的规则。2 关联分析概念 设I = I1,I2,Im是项的集合,D = T1,T2,Tn是一个事务数据库,其中每个事务T是项的集合,使得TI。每个
3、事务有一个标识符,称为TID。如果I的一个子集X满足XT,则称事务T包含项目集X。一个关联规则就是形如X=Y的蕴涵式,XI、YI、XY= 。 规则X Y在交易数据库中的支持度(support)就是交易集中包含X和Y的交易数与所有交易数之比,记为support (X Y),即support(X Y)=T:XY T,T D/D。 规则X=Y在交易数据库中的置信度(confidence)是指包含X和Y的交易数与包含X的交易数之比,记为confidence(X=Y),即confidence(X=Y)= T:XY T,TD/T:X
4、T, T D 。 支持度和置信度是描述关联规则的两个重要概念,前者用于衡量关联规则在整个数据集中的统计重要性,后者用于衡量关联规则的可信程度。一般来说,只有支持率和置信度均较高的关联规则才可能是用户感兴趣、有用的关联规则。 关联规则的挖掘是一个两步的过程: (1)找出所有的频繁项集:根据定义,这些项集出现的频繁性至少等于预定义的最小支持度计数。 (2)由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。 &
5、#160; 在以上两个步骤中,第二步较容易,挖掘关联规则的总体性能由第一步决定。3 FP-Growth关联算法分析 针对经典关联Apriori算法的固有缺陷,产生了候选挖掘频繁项集的方法FP-Growth算法。FP-Growth算法采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频繁项集压缩到一棵频繁模式树(FP-Tree),同时依然保留其中的关联信息,随后再将FP-Tree分化成一些条件数据库,每个条件数据关联一个频繁项,然后再分别对这些条件库进行挖掘。FP-Growth算法将发现长频繁模式的问题转换为递归地发现一些短模式,然后连接后缀。
6、它使用最不频繁的项作为后缀,提供了好的选择性。FP-Growth算法核心思想如下所示: 输入:事务数据库D;最小支持度阈值min_sup。 输出:频繁模式的完全集。 方法: (1)构造FP-Tree。 扫描事务数据库D一次。收集频繁项的集合F和它们的支持度。对F按支持度降序排序,结果为频繁项表L。 创建FP-Tree的根节点,以“NULL”标记它。对于D中每个事务Trans,执行:
7、选择Trans的频繁项,并按照L中的次序排序。设排序后的频繁项表为p|P,其中p是第一个元素,而P是剩余元素的表。调用insert_tree(p|P,T)。该过程执行过程如下:如果T有子女N使得N.item-name= p.item-name,则N的计数增加1,否则创建一个新节点N,将其计数设置为1,链接到它的父节点T,并且通过节点链结构将其链接到具有相同item-name的节点。如果P非空,递归地调用insert_tree(P,N)。 (2)通过调用FP-Growth(FP-Tree,null)实现FP-Tree的挖掘。该过程实现如下:
8、0; Procedure FP-Growth(Tree,) if Tree 含单个路径P then for 路径P中节点的每个组合(记作) 产生模式,其支持度support = 中节点的最小支持度; else for each i在Tree的头部 产生一个模式 = i,其支持度support =i.support; 构造的条件模式基,然后构造的条件FP-Tree;
9、60; if Tree then 调用FP-Growth(Tree,); 对FP-Tree方法的性能研究表明:对于挖掘长和短的频繁模式,它都是有效和可伸缩的,并且比Apriori方法快了1个数量级。4 应用实现 本文主要是将FP-Growth算法应用到我校学生成绩数据库中,在学生成绩聚类的基础上对学生成绩的聚类簇与学生的内外部因素进行关联分析。4.1 关联分析目标 目前我校面对的教务处学生成绩数据库是一个多维的关系数据库,我们急切需要从这些海量数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 方便火锅料与底料加工考核试卷
- 电机制造中的工序优化与生产效率提升考核试卷
- 标准化服务在移民咨询服务中的作用考核试卷
- 游戏电子竞技产业链构建与运营考核试卷
- 林业有害生物监测与智能预警系统考核试卷
- 2025一季度抗冻融水利工程板材吸水率控制协议
- logo 兒童及青少年毒品犯罪概況
- 《可爱的大熊猫》课件-2
- 《中国国际救援队真棒》课件-1
- 2025年陕西货车从业资格证答题技巧
- 2025年育婴师考试精神与试题及答案
- CACA小细胞肺癌诊治指南(2025版)解读
- 2025年AR眼镜行业市场规模及主要企业市占率分析报告
- 耳鼻喉安全教育
- 2025-2030中国锗行业发展现状及发展趋势与投资风险研究报告
- 日常小学生防性侵安全教育课件
- 浙江首考2025年1月普通高等学校招生全国统一考试 历史 含解析
- 市政城市环境管理
- 2025办公楼租赁合同书范本
- 2025中国煤炭地质总局招聘784人笔试参考题库附带答案详解
- 2025年高考英语二轮复习测试04 从句综合+语法填空(测试)(原卷版)
评论
0/150
提交评论