


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、超市事务数据库挖掘关联规那么的设计摘要:如今全球经济开展正在进入信息经济时代,各种形式的信息大量地产生和搜集导致了信息爆炸,如何采用基于关联规那么的数据挖掘技术发现超市事务数据库中的关联规那么是本文所研究和讨论的重点。关键词:数据挖掘电子商务关联规那么1引言目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注。我们可以利用数据挖掘技术从海量数据中发现有用信息,帮助商家理解客户以往的需求趋势,并预测将来,从而给商家带来宏大的利润。在数据挖掘领域,采用关联规那么在大型事务数据库中进展数据挖掘是一个重要的研究内容。关联规那么是美国IBAladenResearhenter的RabeshAg
2、raal等人于1993年首先提出的KDD研究中的一个重要课题。关联规那么挖掘的一般对象是事务数据库,这种数据库的主要应用在零售业,比方超级市场的销售管理。关联规那么就是发现事务数据库中不同商品项Ite,指事务中的内容,比方,面包、牛奶等都是工程之间是否存在某种关联关系。通过这些规那么找出顾客购置行为形式,如购置了某一商品对购置其他商品的影响。发现这样的规那么可以应用于商品货架设计、货存安排以及根据购置形式对用户进展分类。2关联规那么描绘目前关联规那么挖掘主要考虑支持度和置信度两个阈值。设X是项集,T是数据库DB中的任意一个记录。X的支持度是指支持X的记录数与全体记录数的比,Supprt(X)=
3、|T|TX,TDB|/|DB|。蕴涵关系X=Y在数据库DB中的置信度是指同时支持X和Y的记录数与支持X的记录数之比,即:nfideneX=Y=|T|TXY,TDB|/|T|TX,TDB|支持度可理解为在DB中随机抽取一个记录,该记录同时支持X和Y的概率。置信度可理解为在支持X的记录全体中随机取一个记录,该记录支持Y的概率。3发现关联规那么的操作步骤目前,由于条码技术的开展,顾客在超市中购置商品的信息可以很方便的被存放在数据库中,针对数据库中大量的数据,我们如何发现它们之间存在的关联是本文主要讨论的问题。关联规那么的挖掘问题就是在超市事务数据库DB中找出具有用户给定的最小支持度和最小置信度的关联
4、规那么。关联规那么的挖掘对市场调节和争取顾客方面的应用是极有价值的。因此,有必要采用快速算法从超市事务数据库中挖掘关联规那么。由超市事务数据库发现关联规那么挖掘可以分以下两步完成:1找出超市事务数据库DB中所有大于等于用户指定最小支持度的工程集,具有最小支持度的工程集称为频繁项集。2利用频繁项集生成所期望的关联规那么,即这些规那么必须满足最小支持度in_supp和最小置信度in_nf。事实上,第一步的任务是迅速高效地找出超市事务数据库DB中全部频繁项集,数据挖掘所面临的最大的挑战是计算效率问题,解决这一问题的途径是产生高效的数据挖掘算法,但从超市事务数据库中产生频繁项集即费时又占用空间,所以说
5、第一步是关联规那么挖掘的核心问题,是衡量关联规那么挖掘算法的标准。当找到所有的频繁项集后,相应的关联规那么将很容易生成,目前大多数的关联规那么挖掘算法研究是针对第一步而提出的,本文重点讨论第一个问题。4由超市事务数据库发现关联规那么的总体设计在现有的不少关联规那么发现算法中,最著名的仍然是R.Agraal本人在他们自己的AIS算法根底上于1994年提出的Apriri算法,Apriri算法的根本思想是:利用“频繁项集的所有非空子集都必须也是频繁的这一定理对事务数据库进展多遍扫描。众所周知,对数据库的扫描伴随繁重的磁盘I/任务,Apriri算法中,扫描次数较多,这样就大大限制了挖掘算法的速度。因此
6、,在实际的应用中,减少对事务数据库的扫描次数,有效地减少数据的吞吐,将会有效进步算法的效率。为了高效率的由超市事务数据库中发现关联规那么,本系统在Apriri算法的根底上采用基于划分的算法。该算法只对事务数据库DB扫描两次,大大减少了I/操作,从而进步了算法的效率。通过划分方法进展数据挖掘的过程如下列图所示:本系统的总体设计包含三部分:1在效劳器端第一次扫描超市事务数据库中的表,按照超市事务数据库中不同项集的数量,以及兼顾客户端计算机硬件配置,对其进展数据分块,分块的大小选择要使得每个分块可以被放入主存。2在各个客户端计算机上,利用并行技术分别访问效劳器上的数据分块,求出各数据分块所对应的部分
7、频繁项集,并将所求部分频繁项集存入效劳器的一个指定表中。3在效劳器端,汇总各个分块数据生成的部分频繁项集,第二次扫描超市事务数据库中的总表,最终生成全局频繁项集。系统的总体设计可以如下列图2应用程序总体设计所示。一旦由超市事务数据库DB中的事务找出频繁项集,由它们产生强关联规那么是直截了当的。所谓的强关联规那么是指满足最小支持度和最小置信度的规那么。5结论随着计算机硬件的降价,利用并行处理的思想,划分的数据块分给多个处理机并行计算各数据块的部分频繁项集,然后各分块所求的部分频繁项集汇总到效劳器上,再次扫描数据库最终求出全局频繁项集。这种将关联规那么挖掘算法与并行处理相结合的方式能更大的进步算法的效率。今后,如何可以更有效的进步关联规那么算法执行的效率,怎样设计更有效、更实用的算法,是我们进一步需要考虑的问题。参考文献1JiaEiHanihelineKaber著.范明,孟小峰等译.?数据挖掘概念与技术?DatainingneptsandTehniques.机械工业出版社.2001,82.AgraalR,Sri
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水土保持方案编制合同
- 人力资源公司的劳务合同
- 学校物业保洁外包服务合同
- 公司吊车租赁合同
- 挖掘机承包土石方工程施工合同
- 外墙粉刷工程承包合同
- 农村环境治理保护与技术咨询服务合同
- 中国石化采购合同
- 建筑维修工程施工合同
- 幼儿园食堂承包经营合同
- GB/T 24267-2009建筑用阻燃密封胶
- ge680ct用户学习-技术手册
- 道路桥梁路基土石方工程的施工计量分析
- 对于项目的理解与分析
- 手术区备皮讲稿
- 压力罐区球罐安装工程无损检测施工方案
- 广东省机关事业单位工作人员死亡后遗属生活困难补助审批表
- DB42T1915-2022三峡库区园地面源污染防控技术指南-(高清最新)
- 贵州2016定额章节说明-土建
- 结婚登记申请表
- 深基坑边坡喷锚防护施工方案
评论
0/150
提交评论